大资本配资|资深证券配资优选平台|线下配资公司优选

股票期货配资代理 合合信息发布首个古彝文基础编码“大字典”,用AI“抢救”濒危语言


发布日期:2024-07-22 19:56    点击次数:139

股票期货配资代理 合合信息发布首个古彝文基础编码“大字典”,用AI“抢救”濒危语言

少数民族的文字是文化遗产宝库中的重要内容,也是民族文化的重要载体。近期,合合信息联合上海大学、华南理工大学发布业内首个古彝文基础编码数据库,该项目由合合信息与上海大学社会学院、华南理工大学文档图像分析识别与理解实验室共同推进,针对现有的《西南彝志》、云贵一带字符,以智能图像处理、智能文字识别等AI技术开展统一编码,并于近期发布了业内首个古彝文基础编码数据库(简称“数据库”)。

“古彝文”专指在民间流通使用的原生态彝文。根据《滇川黔桂彝文字集》,古彝文多达87046字,比《康熙字典》(47035字)还要多。在目前发现的彝文古籍中,《西南彝志》是其中字数最多、篇幅最长、体量最大、内容最丰富的巨著,有“彝族古代百科全书”之誉。古彝文作为一门濒临消亡的语言,其典籍的数字化之路也面临着巨大的挑战。

数据库项目技术负责人、华南理工大学电子与信息学院教授金连文提到,原生态彝文此前没有被系统性地进行数字化编码,古彝文没有公开数据集,标注困难,异体字繁多,每个字的异体写法少则两三种,多则几十种,且字体间风格差异大。因此,建立一个专门的数据库,通过基础编号将不同样式归纳,才能“破解”古彝文“一对多”的关系,解决文字查询问题。

在对7万6千字符的样本进行训练后,团队成功建立了包含上千个古彝文基础编码的数据库。通过API数据接口等形式,该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法,如同“大字典”一般,帮助人们降低古彝文书籍、文献阅读的门槛。

古彝文字符多样性无统一规范样式,数据库查询编码:09460502  (图源:滇川黔桂彝文字集)

“古彝文数据库的发布并非一个最终的研究结果,而是一项非常重要的基础性工作。”古彝文数字化项目发起人、上海大学人类学民俗学研究所讲师邵文苑表示,基础编码的发布,意味着这些文字在数字社会里从此拥有了“身份证号码”,能够被更多地展现在网络空间上,被更广泛的人群看见、认识、研究。“文化保护也需要全社会的参与。语言文明是历史留给人类的宝贵财富,承载着过去的民族记忆,也终将成为当下和未来的创新之源。”邵文苑说。

为了推进古彝文“大字典”项目的顺利进行,在收集语料收集的过程中,研究人员通过合合信息旗下扫描全能王“智能高清滤镜”功能,高效解决古彝文识别的版式检测、图像处理和文字识别等难题,对于污渍、残破的彝文古籍,只需用“智能高清滤镜”轻轻一扫,即可得到一张清晰、平整的图片。

扫描全能王“智能高清滤镜”古籍扫描效果(图源:西南彝志)

“智能高清滤镜”通过算法大模型,让AI代替人去“思考”,达成图像识别、检测、分析、研判、结论的全链路闭环,最终为用户自动选择出最优处理方案。“智能高清滤镜”的智能研判主要基于精准的图像感知,通过深度学习模型,进行图像特征获取,感知到图像特征并对应进行图像处理,应对各种复杂文档,达成场景化的决策效果。

目前,全球已有多家技术厂商、机构采用AI技术助力古籍保护,例如北京大学等高校联合字节跳动等科技公司发起的“识典古籍”项目,阿里巴巴与四川大学等高校、机构发起“汉典重光”项目。龙泉寺用基于深度学习的单字识别引擎进行《六十华严》的大藏经版本的电子化,也引起了社会广泛关注。数字化技术,已经成为文化保护与传承的新途径,让更多优秀文明成果被看见,助力传统的民族文化焕发新的生命力。

(此文不代表第一财经观点,系出于传递商业资讯目的刊登。)

举报 相关阅读 小米公司:小米大语言模型MiLM通过大模型备案

小米公司表示,小米大模型将逐步应用于小米汽车、手机、智能家居等产品中。

05-16 10:32 AI周报 | MiniMax 发布万亿参数模型;首个AI程序员Devin被质疑造假

波士顿动力推全新电动人形机器人;Meta或开源4000亿参数模型。

04-21 12:23 解码AI|谷歌发布基础世界模型Genie 人工智能卷向“世界模型”

与世界模型或世界模拟器相关的进展频频,OpenAI、Meta、谷歌入局。

02-27 14:36 直击MWC|华为发布通信行业首个大模型:“网络崩了”的问题该由AI解决了

在任正非看来,模型的应用有时比模型本身还有前途,华为会做AI的底层算力平台。

02-27 09:25 多国看重“主权人工智能”竞相研发本地语言产品

过去一年生成式人工智能爆火后股票期货配资代理,“主权人工智能”成为一个被频繁提及的概念,大致指国家支持人工智能基础设施建设,用符合本国文化和思维方式等的数据训练大模型,支持本地产品形成生态系统等。一年多来,各国竞相研发本地语言的生成式人工智能,背后是对数字主权领域的深层考量。

02-08 12:11 一财最热 点击关闭



Powered by 大资本配资|资深证券配资优选平台|线下配资公司优选 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2009-2029 联华证券 版权所有