商汤日日新多模态大模型评测称霸，挑战高考数学完胜

12月19日，在权威综合评测平台OpenCompass的多模态评测中，商汤科技的日日新SenseNova多模态大模型登顶榜首。

商汤评测.jpg

OpenCompass大模型开放评测体系是上海人工智能实验室推出的，拥有完整开源可复现的评测框架，定期发布对各类大模型的评测成绩和排名。体系覆盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面，是对大模型真实能力各个维度的全面诊断。

商汤日日新在这个评测里平均得分达到了77.4，领先了GPT - 4o、Claude 3.5 Sonnet，还有国内各种不同尺寸的开源和闭源模型。

重点来啦！

在数学相关的数据集MathVista维度上，它更是取得了78.4分的超高分数。而且啊，在这次评测的八个核心数据集里，它几乎在所有维度上都达到或者超过了GPT - 4o的水平，在四个维度（MMStar、MathVista、OCRBench、MMVet）排名全球第一。

商汤科技早在几年前就盯上了多模态大模型这个研究方向。今年三季度以来，商汤科技开启了多模态大模型研发的跨模态深度融合的新征程。

他们打造的日日新SenseNova多模态大模型就像是一个超级融合大师，能够跨越自然语言、代码、语音、图像、医疗影像、视频等不同模态之间的巨大鸿沟，把不同模态的信息充分利用起来，通过一些超酷的技术创新，像跨模态逆渲染、多模态思维链之类的，让模型的感知和理解能力像超级赛亚人变身一样大幅提升，还能支持多模态融合推理呢。

在评测时，从“五年高考，三年模拟”里随机抽取几道高考数学题，日日新多模态大模型都能轻松搞定。

比如这道数学题：

数学题.jpg