关闭引导
社科动态 | 粤语语料库建设与大模型评测重点实验室发布岭南文化数据集
2025-12-20 23:31:25
广州日报新花城

12月18日,2025年中国数字文娱大会在广州羊城创意产业园举行。在下午的“新技术-智慧文娱解锁消费密码”分论坛上,广州市哲学社会科学重点实验室——“粤语语料库建设与大模型评测重点实验室”重磅发布6个支持人工智能应用的岭南文化数据集。其中,5个自主研发的数据集包含岭南建筑图像标注数据集、粤语内容安全检测关键词库数据集、粤鉴—粤语大模型安全评测数据集、面向影视剧AI配音的细粒度标注粤语数据集、面向大模型训练的粤语大模型数据集,同时还发布了与羊城晚报岭南文化大模型团队联合研制的粤语文化思维链语料数据集。


会上,广州大学网络空间安全学院教授、粤语语料库建设与大模型评测重点实验室主任齐佳音介绍了AI-DimSum粤语语料库平台的建设情况。她强调该平台秉持“文化忠实、安全可信、AI友好、持续成长”的原则,致力于构建活态语料库。


随后,岭南文化大模型实验室主任邓立邦发布了全国首个方言文化思维链训练语料集——“粤语思维链语料数据集”。该数据集由岭南文化大模型实验室与粤语语料库建设与大模型评测重点实验室两家联合研制,搭建了3层结构,涵盖17个文化类别、360余个核心文化概念,并配套逾1万组高质量标注语料,可直接服务于大模型的精调训练。邓立邦表示:“粤语是岭南文化的灵魂,开源这套数据,就是为了让大模型真正‘懂’岭南。”


知多D:

“岭南建筑图像标注数据集”:该数据集对碉楼、骑楼、祠堂等岭南典型建筑的外观特征进行标注,涵盖建筑类型、构件、装饰工艺、材质、颜色等多维度信息,构建了面向岭南建筑文化的多模态基础资源,为数字化保护与文化大模型应用提供数据支撑,对于活化和传承岭南文化具有重要意义。

“粤语内容安全检测关键词库数据集”:该数据集围绕粤语整合多源语料,采用“分级+标签”的动态词库管理方式,构建了粤语内容安全检测关键词库数据集,旨在填补大模型对粤语内容安全检测缺乏关键词库的缺口,保障大模型粤语内容安全与粤语网络内容安全治理。

“粤鉴-粤语大模型安全评测语料集”:该数据集是面向粤语内容安全的高质量多模态评测数据集,规模约20万条(含10万文本、10万音频、3000图片),依据《生成式人工智能服务安全基本要求》,深度融合粤语俚语、谐音等特色,可用于大模型安全对齐、合规评估和多方言内容治理,助力粤港澳大湾区AI安全发展。

“面向影视剧AI配音的细粒度标注粤语语料数据集”:该数据集通过多渠道语料收集与细粒度编码,构建了涵盖超过30个影视剧人物、13种情绪、超过1000分钟的音频语料库,有效解决粤语影视剧人工配音成本高、智能配音缺乏高质量标注语料的产业痛点。

“面向大模型训练的粤语大模型语料数据集”:该数据集是面向大模型小语种能力训练的高质量多模态数据集,覆盖多种生活场景,超过5000个问答对,成功将普通话等通用语言数据转化为粤语语料,为粤语大模型的数据训练和微调等后续泛化能力提供支持。

文、图/广州日报新花城记者:杨博 通讯员:杜锋帅


@新花城 版权所有 转载需经授权