6月3日,记者获悉,敦煌研究院旗下的“数字藏经洞”数据库平台日前正式上线。其中,9900多卷敦煌文书经卷、60700多幅图像的数字化版本将与全球用户零距离接触。
据了解,腾讯基于混元大模型和智能检索技术,助力网站实现更智能化的平台能力,为用户提供了古籍检索、多语言翻译、文白互译、智能问答、AI归纳等功能,让丰富而深厚的敦煌文化内容,被更好地展现和理解。
即日起,全球用户可登录官网,踏上这场跨越时空的数字文化之旅。资料显示,早在2017年,敦煌研究院就开始与腾讯达成战略合作,包括推出了“敦煌诗巾”“云游敦煌”等小程序,还有《王者荣耀》相关的游戏皮肤、敦煌动画剧等数字文创精品内容。2022年,双方进一步成立“腾讯互娱×数字敦煌文化遗产数字创意技术联合实验室”,推出全球首个基于区块链的数字文化遗产开放共享平台“数字敦煌开放素材库”,基于游戏技术的超时空参与式博物馆“数字藏经洞”“寻境敦煌”VR沉浸展、敦煌莫高窟官方虚拟人“伽瑶”等亮点项目。
腾讯表示,此次深度结合AI技术助力“数字藏经洞”数据库平台上线,是双方在探索前沿数字技术创新应用于文化遗产保护和传承中的又一次具有开拓性的重要尝试。
大模型RAG技术把“天书”破译
记者了解到,从千年前“沉睡”的残卷,到如今触手可及的古籍解读,这一切都离不开前沿AI技术对敦煌古籍的“量身定制”。据了解,作为“数字藏经洞”数据库平台的技术支持方,腾讯通过智能检索平台(腾讯云ES)实现了古籍数据的智能化处理和精准检索。
首先,平台对古籍数据进行了重新分词,确保文本能够被AI系统理解并有效处理。由于敦煌经卷中存在大量繁体字、异形字、竖排、无标点和生僻字,这些都为传统文本处理带来挑战。同时,技术团队引入了“古籍专属词典”,并与敦煌专家团合作优化了复杂词汇的分词方式。
接着,平台无缝集成大模型,将其强大的推理能力与智能检索平台结合,形成双模驱动的RAG(检索增强生成)技术架构。根据腾讯云大数据专家表示,这是当前AI技术中较为成熟和前沿的技术范式——大模型协同智能检索平台构建的RAG技术体系。
在处理复杂的古籍内容时,RAG技术能够将历史文献与现代技术相结合,实现“从海量文献中秒级锁定真知”。经敦煌专家团测试,该技术体系生成的答案准确率高达95%,显著提高了信息的准确性和用户体验。
文/广州日报新花城记者:文静
广州日报新花城编辑:李光曼