关闭引导
商汤日日新多模态大模型评测称霸,挑战高考数学完胜
2024-12-20 11:21:47
广州日报新花城

12月19日,在权威综合评测平台OpenCompass的多模态评测中,商汤科技的日日新SenseNova多模态大模型登顶榜首。

 商汤评测.jpg

OpenCompass大模型开放评测体系是上海人工智能实验室推出的,拥有完整开源可复现的评测框架,定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面,是对大模型真实能力各个维度的全面诊断。


商汤日日新在这个评测里平均得分达到了77.4,领先了GPT - 4o、Claude 3.5 Sonnet,还有国内各种不同尺寸的开源和闭源模型。

重点来啦!

在数学相关的数据集MathVista维度上,它更是取得了78.4分的超高分数。而且啊,在这次评测的八个核心数据集里,它几乎在所有维度上都达到或者超过了GPT - 4o的水平,在四个维度(MMStar、MathVista、OCRBench、MMVet)排名全球第一。

商汤科技早在几年前就盯上了多模态大模型这个研究方向。今年三季度以来,商汤科技开启了多模态大模型研发的跨模态深度融合的新征程。


他们打造的日日新SenseNova多模态大模型就像是一个超级融合大师,能够跨越自然语言、代码、语音、图像、医疗影像、视频等不同模态之间的巨大鸿沟,把不同模态的信息充分利用起来,通过一些超酷的技术创新,像跨模态逆渲染、多模态思维链之类的,让模型的感知和理解能力像超级赛亚人变身一样大幅提升,还能支持多模态融合推理呢。


在评测时,从“五年高考,三年模拟”里随机抽取几道高考数学题,日日新多模态大模型都能轻松搞定。

比如这道数学题:

数学题.jpg

商汤日日新输出结果,并给出详细解题过程: 

数学答案.jpg

商汤日日新成功输出推理结果,效果令人惊叹。


随着融合模态有效提升AI大模型性能,多模态融合未来可广泛应用于诸多场景,例如在线上教育、语音客服等场景,结合语音和自然语言来提升交互体验;在自动驾驶场景,融合视觉及多种模态数据,来提升感知精度和决策能力等。


据悉 ,目前,日日新SenseNova多模态大模型已经可以通过API调用,即将开放普通用户体验。



文/广州日报新花城记者:陈庆辉 

广州日报新花城编辑:周裕妩


浏览量:
@新花城 版权所有 转载需经授权