全球最大的拉丁文献库,正在等待人工智能来破解

人工智能正在破译体量庞大的拉丁文献库。

位于梵蒂冈的梵蒂冈机密档案馆拥有全球最大的拉丁文献库存。始建于 1611 年,并经由历代教皇不断增加库存,目前的梵蒂冈机密档案馆拥有超过 600 个全宗,所有文件的书架排列在一起全长超过 85 公里。

但问题是,这些拉丁档案很难利用。由于数量过于庞大,检索本身就已经是一个巨大的难题。如果文献本身足够规整,就可以被纳入 Google 的图书计划当中,通过文字识别,录入为数字格式。然而,该档案馆所收录的文献并不适用传统文字识别技术。

传统的文字识别技术利用字母与字母之间的间隙,将单词分割成字母。随后将字母的图像与标准图像进行比对。不过,手抄拉丁文更像是一种书法,字母之间通常连笔。传统文字识别技术无法识别单个字母,因此也就失去了作用。

意大利的一组科学家发起一项名为 In Codice Ratio 的研究计划试图解决这一难题。他们首先做的就是优化文字识别技术,将识别的基本单位从字母变成笔画。研究人员认为,墨迹较淡之处,即为一个笔画的开始或结束的地方。笔画之间会被重新组合,从而生成一个可供与标准字母比对的图像。

手抄字母千奇百怪,而这就是人工智能机器学习可以发挥作用的地方了。研究人员招募了一批高中学生,让他们对人工智能进行最基础的调教。如下图所示,绿色部分是标准、清晰的字母 g 的写法,红色部分是错误的字母 g 的写法,最下方则是新的文字识别系统识别出的单个字母。学生们需要从中选出字母 g,而人工智能则会根据学生的选择进行学习。

人工智能学习的过程也会进行优化。例如研究人员统计了一批拉丁文献中特定字母组合出现的概率,这样一来,人工智能就更倾向于将 nn 识别为 nn 而不是 iiii 。

经过优化后,该人工智能对于首批 18000 页的拉丁文献进行了识别。结果喜忧参半,有三分之一的单词存在一处或多处的识别错误,主要集中于 m、n、i 这些字母之上。但研究人员 Paolo Merialdo 认为,96% 的字母识别成功,“不成功的识别可以提供足够多的信息和语境,从而让原本难以被利用的文献供研究者使用”。

目前,研究人员仍然寄希望于该人工智能系统能够不断进化。庞大的梵蒂冈机密档案馆可能将在未来浓缩成互联网上的一个数据库,供人随时查阅。

我们做了一个壁纸应用,给你的手机加点好奇心。去 App 商店搜 好奇怪 下载吧。