关闭引导
社科动态 | 广州社科重点实验室原创成果AI-DimSum粤语语料库平台入选国家语言文字信息化十大新闻
2026-01-24 18:20:07
广州日报新花城

近日教育部语言文字信息管理司“国家语言资源监测与研究中心”发布2025年度中国语言文字信息化十大新闻。由广州市社科联与广州大学联合建设的粤语语料库建设与大模型评测重点实验室原创应用成果AI-DimSum多模态通用粤语语料库平台以第四序列入选,成为国家数字中文建设的关键领域标杆。


国家战略牵引:实验室应运而生

为全面贯彻落实党的二十届三中全会《决定》有关“构建中华文明标识体系”“实施哲学社会科学创新工程,构建中国哲学社会科学自主知识体系”“完善生成式人工智能发展和管理机制”的部署,贯彻落实习近平文化思想,贯彻落实省委“1310”具体部署、市委“1312”思路举措以及国家、省、市“十四五”时期哲学社会科学发展规划,广州市社科联牵头,连同广州大学深入调研、科学论证、系统谋划,于2024年11月14日正式成立广州社科重点实验室——粤语语料库建设与大模型评测重点实验室。该实验室旨在通过“粤语+人工智能”文化科技融合创新,推动岭南文化传承、传播和创新发展。中国工程院方滨兴院士与国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授担任双首席科学家,广州大学齐佳音教授担任重点实验室主任,禤健聪教授担任副主任。


“粤语语料库建设与大模型评测重点实验室”启动

针对粤语的人工智能友好型语料库建设的现实问题,粤语语料库建设与大模型评测重点实验室牵头,开发了以“文化忠实、安全可信、AI友好、持续成长”为特色的AI-DimSum通用粤语语料库。该语料库提供的不只是单纯的“语料收集”或“语言档案保存”,而是一整套“从语料获取到AI应用落地”的闭环服务,是服务多种需求,特别是面向人工智能应用的新型方言语料库。


创新技术架构:七大子系统实现全流程闭环

AI-DimSum粤语语料库平台首创语料采集、标注、大模型对接、确权检索、质量评估、管理、应用商店七大子系统,实现从数据采集、清洗、标注到应用发布的一体化流程,为语料库构建、管理、利用与生态培育提供完整、模块化、可扩展的基础设施与运行机制。

据介绍,该平台囊括了三大核心创新。一是建立“1+1+N”协同机制。即以广州市社科联与广州大学为双核心(两个“1”),联动其他高校、企业、开源社区等N方资源,构建共建共享生态。二是打造SaaS服务模式。通过模块化设计支持教育、文化、产业等多场景快速落地。三是实现文化忠实与安全可信。融合岭南文化精神标识体系与价值对齐规则,确保语料库兼具文化内涵与安全性。


创新成果丰硕:10余款APP激活产业创新

去年12月6日,AI-DimSum多模态通用粤语语料库平台面向全球发布。目前,平台已汇聚超100万字文本、3000小时高保真语音、1TB音视频、1万张岭南文化图像,构建了包含6669条权威词条、30000条扩展词条的粤语安全语料库等,规模居全球粤语语料库前列。


AI-DimSum多模态通用粤语语料库平台面向全球发布

年12月18日,在中国数字文娱大会“新技术-智慧文解锁消费密码”分论坛上,实验室发布了6个支持人工智能应用的岭南文化数据集。

从生态应用来看,AI-DimSum多模态通用粤语语料库平台已孵化粤语数字人、智能配音、廉州话小程序等10余款应用,覆盖文旅、教育、短剧等领域。例如,与百度合作开发的“粤语智声”系统支持复杂场景语音识别,准确率达90%;与羊城晚报联合发布6大岭南文化数据集,推动非遗数字化。

从社会影响来看,AI-DimSum多模态通用粤语语料库平台项目通过13期学术沙龙、5届黑客松大赛吸引港澳高校参与,并在永庆坊等历史街区开展文化宣讲,提升公众参与度。央视、广东卫视等主流媒体深度报道,显著提升方言科技能见度。

从推广价值看,平台着力拓展方言数字化范本的全球路径。平台构建的“采集—标注—确权——应用”全流程体系可复制至客家话等方言,为国家方言语言资源保护提供技术样板。未来将通过开源开放支持全球粤语数字生态,助力“数字中国”建设。

文、图/广州日报新花城记者:杨博 通讯员:陆璐

广州日报新花城编辑:陈文杰


@新花城 版权所有 转载需经授权