用AI留住方言之美丨讯飞输入法总经理程坤:把方言数据化
语音播报

据联合国教科文组织相关信息,在世界范围内,每两周就有一种语言从地球上消失。语言不仅仅是一种交流方式,更是一种历史文化与精神的传承方式,在保护语言文化方面,科大讯飞的技术人员不断探索,开展“讯飞输入法+方言保护计划”公益行动,用声音留存历史。

据记者了解,通过AI技术,科大讯飞已实现十大方言区不少方言语料和文本的留存。讯飞输入法APP不仅具备25种方言的识别能力,同时还实现了13种方言合成和2种方言翻译;讯飞翻译机更是支持5种方言(粤语、东北话、河南话、四川话、山东话)翻译成英语。

然而这个转化过程并不容易。讯飞输入法总经理程坤告诉记者,由于各地方言文字和发音存在地域差异,标准很难统一,同时方言存在大量外来词,任命、地名写明不统一,口语和书面语也存在差异,因此需要人机耦合的方式来做。

“比如苏州话在城里和城外发音不太一样,城南与城北发音也有差异,这就需要语言专家或者选择合适的母语发音人作为标准。但现实情况是很多方言母语发音人少,数据量少,对于方言保护是不利的。因为要想机器实现方言的识别和合成,需要大量数据的训练。”对此,他们采用了“迁移学习+统一建模”的方案实现少量方言数据提升方言识别或合成的效果,设计全新的方普统一建模语音识别模型,利用普通话和优质方言混合训练,使编码层抽象更加鲁棒的音频深层表达,通过注意力机制为每个解码时刻找到一个最为匹配的语种信息,使语音识别模型深度融合语种信息,实现普通话和重点方言之间的免切换语音识别。

“保护方言与传统田野调查的形式不太一样,主要是运用AI技术去降低“人”的主观因素对方言采集和分析的干扰。其次,面向不同方言群体,提供不同的采集方式,此外,讯飞与官方语保工程做方言保护的目的也略有不同。讯飞不仅是帮助方言更好留存,还想方设法把方言数据技术化,让更多的人去使用,传播方言文化的魅力。”程坤说。

此外,近两年来,科大讯飞在文化保护方面,也在不断做一些探索,比如与苏州图书馆合作,发起“苏州方言专项计划”,并且在方言保护计划官网上线苏州话公益课,用方言讲述馆藏文物的特色。

文/广州日报·新花城记者 程依伦

图/广州日报·新花城记者 程依伦

广州日报·新花城编辑 蔡凌跃