让2000种语言交流无碍,Masakhane要用AI和机器学习改变非洲

WechatIMG72_meitu_1

【猎云网(微信号:)】12月1日报道(编译:Liam)

在非洲,许多部落和民族群体以及国境线边上的人都在说英语、阿拉伯语或者一些法语方言,但没有一种是属于非洲本土的语言。据估计,非洲大陆上现存的语言就有2000多种,这不仅会妨碍人们的沟通交流,还会干扰商业运行。有需求就会有创新,Masakhane开源项目应运而生。今年早些时候,非洲的技术人员推出这个项目,旨在利用神经机器翻译技术来翻译非洲语言。

其中,来自肯尼亚卢希亚部落的Kathleen Siminyu曾是内罗比(肯尼亚首都)“女性机器学习和数据科学”组织的联合创始人,同时也是“人工智能促进发展”项目的协调员。因为肯尼亚的学校和全国各地都说英语,可同时肯尼亚各个部落又有不同的语言,这就导致了Siminyu和她的邻居之间的沟通障碍。因此今年早些时候,为了增强社区凝聚力,Siminyu选择加入了Masakhane。

Siminyu认为,机器学习的语言翻译将会带来非洲人工智能应用的逐渐普及,让非洲人民能够借助人工智能更好地改善生活。而像Masakhane这样的项目,对于连接非洲地区的开发人员和研究人员并同时建立长期合作来说,是相当重要的。

Siminyu表示,她希望研究网络可以在非洲良好地运作。在她看来,语言作为人们的沟通障碍,一旦能将其克服,许多非洲人就能够参与到数字经济中去,并最终进入人工智能经济领域。一直以来,Siminyu都在为非洲的本土语言发展而努力,她觉得自己有责任把还未进入数字时代的非洲同胞们带入人工智能时代。

Masakhane项目的合作对象包括非洲各地的人工智能研究人员、数据科学家,旨在创建能够沟通非洲大多数人口的神经机器翻译。在Deep Learning Indaba(与人工智能和深度学习有关的会议)和Sauti Yetu NLP Unconference之后,南非的Jade Abbott和Laura Martinus发起了Masakhane这一项目,在祖鲁语中,“Masakhane”是“我们共同建设”的意思。

Masakhane与跨国翻译组织和学者一起搜集语言数据集。除了将非洲本土语言翻译成英语外,该项目还试图对尼日利亚的洋泾浜英语和北非及中非地区的阿拉伯语等方言进行翻译。

在为非洲语言创建了机器翻译之后,Masakhane还希望能有更多开源项目来造福非洲人民。

Masakhane现在统计了来自非洲大陆的大约60名参与者,其中最活跃的来自南非、肯尼亚和尼日利亚。每个参与者都被要求用各自的母语帮助收集数据,改善模型。

其实,在通过让非洲人收集数据使得更多其他非洲人能够使用机器翻译的道路上,Masakhane并不孤独。

就在这周,Mozilla和德国政府部门启动了一个开源项目,收集非洲当地语言的语音数据。

本月早些时候,作为人工智能促进发展工作的一部分,Siminyu与数据科学网站Zindi共同发起了“非洲语言数据集搜集挑战”项目。除了Siminyu和Abbott,评估数据集的顾问还来自于谷歌人工智能和Facebook人工智能研究。活动的参与者制作的数据集将来可能会被用于训练Masakhane的神经模型。

从GitHub的2019年Octoverse报告来看,肯尼亚和尼日利亚等国家已经成为全球开源项目增长最快的国家。最近几周,非洲技术和开发者生态系统的增长吸引了包括Twitter首席执行官杰克·多西和GitHub首席执行官Nat Friedman在内的众多硅谷高管来非访问,特别是尼日利亚的拉各斯等非洲部分地区。

在一次集体采访中,Masakhane项目的志愿者表示机器翻译能给非洲的发展带来巨大的好处。

语言翻译改变非洲

受访者来自非洲大陆的各个角落,包括突尼斯、尼日利亚、南非和刚果民主共和国等,他们希望能将非洲纳入全球人工智能地图,让非洲人可以非洲方式解决非洲问题。

负责约鲁巴语的尼日利亚研究人员Olabiyi Samuel表示,他们可以解决他们的问题,而且他们有着足够的专业知识,只是需要对其承担一些责任。

只要非洲语言的机器翻译足够普及且准确,就能让更多非洲人与全球人在线交流,还有可能快速地将英文的教学资源转换成非洲语言。多项研究发现,当人们以母语接受教学时,他们会学得更好。

Siminyu和其他项目参与者希望Masakhane能为后续更多研究项目打下基础,让人工智能更好地改善非洲人民的生活以及其他非常重要的环节。

Siminyu表示,非洲还有很多问题亟待解决,比如农业问题、粮食问题、气候变化、医疗保健等等,而这一切的切入点就是语言。解决非洲问题,任重而道远。

刚果民主共和国的Espoir Murhabazi目前主要研究班图语Lingaga。他想更好地理解班图语,以及了解机器学习是如何从包含共同词根的单词中推断出含义的。班图语属于黏着语,这也就意味着它的单词可能包含词干含义和多个要素。班图语的研究能为Masakhane目前在研究语言之间的结构差异时遇到的一系列技术挑战提供一定的参考。

在娱乐方面,Murhabazi希望像Masakhane这样的项目能够将歌曲的歌词翻译成英语,让每个喜欢音乐的人都能理解歌词。

他曾进过一次肯尼亚的酒吧和夜总会,人们伴着音乐跳着舞,但是他却听不懂背景音乐是什么意思。

Masakhane计划

Masakhane的工作将分阶段进行,首先是借助政府文件或报纸等公开数据将英语翻译成非洲语言。接着,他们打算为机器翻译创建单独的基准模型。最后,再将成果提交给全球顶级的自然语言处理(NLP)讨论会。

Abbott表示,该项目现在处于数据收集和翻译阶段,因为与构成现代互联网主干的欧洲语言不同,非洲语言缺乏基准和大型数据集。

今年早些时候,Masakhane成员制定的基于五种南非语言的基准在意大利佛罗伦萨的计算语言协会(ACL)会议上首次亮相。

非洲、人工智能与世界

Masakhane的参与者们不仅希望能将非洲人民带入数字经济,能用他们自己的语言学习知识,还希望这个由非洲人自己创建的人工智能项目能够减少一直以来非洲人工智能研究人员面临的技术限制。

多年来,许多国际人工智能的会议都在欧洲、亚洲以及北美举办。虽然该行业以及各国对人工智能的人才需求量很高,但是有些政府往往会拒绝非洲研究人员加入项目研究,即使他们接受的也是西方国家的教育。

据报道,就当世界上最大的人工智能研讨会NeurIPS在温哥华举办之际,包括Masakhane志愿者在内的非洲和亚洲研究人员,都收到了加拿大政府拒绝发放签证的通知。

建立技术交流的桥梁

对于Abbott和Martinus来说,能到非洲以外的其他地方参加人工智能交流(比如NeurIPS)能为他们的研究带来许多帮助。在这些重要的会议上,其他的NPL开发人员会分享100多个他们在试图优化模型性能的时候发现的技巧以及总结出的观点和经验。

在Abbott看来,和来自全球那些参与语言资源少的语言研究工作者进行交流,真的可以激发起他自己的研究兴趣。

例如,在Masakhane项目发起不久后,他们参加了国际计算语言协会,从Jehovah’s Witness的文本中发现了380种语言的JW300数据集。

他们正在研究的数据集范围是两万个平行句,在机器翻译领域中已经是很小的范围了。而在这个JW300数据集中,同一语言有100万个平行句,在数量上可以说是一个巨大的飞跃。

2018年,Abbott和Martinus在arXiv上发表的《针对非洲语言的神经机器翻译》在NeurIPS的发展中国家机器学习会议进行了分享。他们详细地讲述了早期将Transformer(一种神经网络)应用于资源少的语言时的发现。通过一系列技术的运用,实现了英语到班图族的茨瓦纳语的最顶尖翻译。

Masakhane项目仍处于早期阶段,正在寻找志愿者,收集上千种语言的数据。

像MySQL、Python和TensorFlow这样的开源项目为现代互联网和机器学习等蓬勃发展的学科研究奠定了基础。如今,欧洲、亚洲和北美等地在开源项目的研究上仍处于领先地位。但是,一旦Masakhane及类似的项目取得成功,这可能会为有着地球上人口最年轻的非洲大陆以及其他地区带来重大改变。