这个 Google 的新搜索引擎,让你可以和 10 万本书一起聊天

纵观这些年科技界的发展,越来越多的技术设想已经从「仅仅停留在想象」脱离,转而登上了「科技的台面」,人工智能(Artificial Intelligence,以下简称 AI)就是其中之一,也是随着这一概念的兴起,越来越多的科技公司都投身到 AI 的研究中去。而说到其中的领头羊,就不得不提起 Google 了,从无人驾驶汽车上路到 Alpha Go 打败柯洁,Google 一次又一次向我们证明了 AI 无限的潜力。

而近日 Google 又公布了自己在机器学习的另一领域——语义识别——的成果,通过用近百万的对话数据对 AI 进行训练,提升其对人类语言语义的识别,并将训练过的 AI 做成了一个全新的图书搜索引擎,和两个基于语义识别的单词游戏,发布在 Semantic Experiences 上供公众和开发者进行体验。

Google 公布的 Semantic Experiences

Talk to Books:与书籍进行对话

这个工具顾名思义,即与书进行对话,其用(玩)法是在一个输入框里输入你想对书说的话,然后 AI 会从近 100,000 本书中寻找最合适的句子进行回答,并给出书的上下文和引用来源等详细信息。例如,如果你问 AI 什么是 iPhone,那么它会从各种书籍中寻找最相关的句子予以回答:

你也可以问一些哲学问题,比如:什么是真理?

问一些莫名奇妙的问题,AI 的回答也很可爱:

你为什么那么做?因为我想!

于是经过几次尝试,我发现 AI 答的最好的往往是具有「理性」属性的问题,比如什么是电?什么是手机?什么是离散数学?这其中的原由也不难理解,自然科学类的事物和概念往往都有明确而严谨的定义,其定义也多为「表语从句」,即「什么是什么」,AI 在机器学习的过程中更容易搞明白其所指代之物和所蕴含的意义,而相比较而言,在一些模棱两可的「感性」问题面前,AI 难免显得有些力不从心。

为啥鳄鱼不是苹果?

当然,既然是「Talk to Books」,你所能说的不仅仅可以是问句,更可以是陈述句,向书籍说一些话的话甚至还会得到 AI 的反问:

AI:所以你是哪门子大王啊?

不过「Talk to Books」离真正能够和人类进行「Talk」还是有一段距离的,举其中一例讲,其并没有理解语境的功能。如果你第一次发问说:谁是 Trump?在得到正确的回答后,你又接着发问:他是哪里人?这时 AI 并不会结合上一个问题来明白这里的「他」指的是 Trump,而是把它理解成了一个全新的问题,放在真实的人类对话中,这就显然有点答非所问了。值得一提的是,Google 的语音助手具有这个上下文理解功能。

不过 Google 在 介绍 中也提到,「Talk to Books」比起是用来寻求特定问题答案的手段,更大程度上是一种来帮助你激发灵感的创意工具。也许 AI 回复给你的答案来源并不是与你所提问题相关的权威书籍(比如你提了一个技术相关的问题,而 AI 则用了莎士比亚作品中的一句话回答你),甚至有时候 AI 还会答非所问,但是这一切都展示了人工智能所拥有的无限未来在当下的一个萌芽般缩影。

顺便一提,这个「Talk to Books」回答问题的方式是不是很像变形金刚中大黄蜂的说话方式?前者用不同书籍中的句子来回答,后者则用不同频段的电台中的人声来说话。以及,它们都是机器人。

Semantris:语义识别版俄罗斯方块

比起和书籍对话,Semantris 的趣味性和挑战性就更强了。Semantris 包含两个以机器学习为基础的语义识别小游戏:ARCADE 和 BLOCKS。前者节奏较快,考验词汇量和反应能力,后者则节奏较慢,适合在休闲的同时了解语义识别所发挥的作用。

ARCADE 的玩法类似俄罗斯方块,只不过消除底层元素的方法不是堆积同色元素,而是输入有相关语义的词语。每当用户输入一个新的单词,整个单词表就会重新排序,AI 会按用户输入内容的语义相关程度从下往上依次排序,以此规则作为基础,单词表中会随机出现高亮的单词,而用户要做的就是要输入与这个单词语义相关的词语,让这个单词被重排列到列表下方,从而被成功消除。游戏过程中会不断有新的单词落下,单词列表若是堆积超过了屏幕,游戏便会随即结束。

与 Sun 越相关的单词排名越前

有意思的一点是用户输入的内容并不被限制,直要你手速够快,输入一个句子都可以,任何用户输入的内容只要被 AI 认为存在相关性,就会被成功排序。例如出现 Shoe(鞋子) 这个单词的时候,用户除了 Wear(穿) 或者 Foot(脚),还可以输入 Nike 和 Adidas;出现 Galaxy 时可以输入 Samsung;甚至出现 Winter(冬天) 的时候输入 Let it go 也可以被成功识别。大体上只要我们人类认为有关联的语义,AI 也都可以成功理解,毕竟训练 AI 的数据也都来自于我们人类的语言数据。

随着游戏的进行,出现新单词的速度和高亮单词的数量也会不断增加,挑战也随之升级,想要练习单词的联想能力的话,ARCADE 是个不错的选择。如果你觉得 ARCADE 节奏太快,不适合你,那你可以试试更加「老年人」的 BLOCKS,没有时间限制,输入语义相同的单词后同色色块便会相消,比起考验反应和手速,BLOCKS 更适合大家试验 AI 语义识别的准确性——看看 AI 能不能成功匹配到语义最相近的那个单词。

再顺带一提,当出现 Summer 这个单词的时候,输入 Morty 也可以被成功识别。看来,AI 能不能承受住挑战,全靠各位人类的脑洞了。

语义识别的未来

自然语义识别作为 AI 重要的一个部分,决定了机器是否有一天能够完全理解人类的自然语言,届时人类将可以不用耗费大量的精力去编写复杂难懂的代码,而是直接用最直接的对话对它们发号施令。你可能会问:我们现在不是以经有例如 Google Assistant 这样的智能语音助手了吗?他们难道不已经是可以听懂人类话语的 AI 了吗?事实上,这些语音助手与我们「沟通」的方式其实还是基于「关键词」,即预先设定好的关键词触发,而不是自然语言的识别。

Todoist 的时间关键词识别

换一种说法,前者只能听懂人类告诉过它的,让它能够听懂的,而后者除了能听懂我们人类能听懂的,甚至还可以理解超出我们人类理解的事物,带来全新的见解,而这一切都基于机器学习对自然语义的理解。Google 向我们展示了当下自然语言识别技术的发展,虽然是还有很多不足,甚至说与我们预想的未来还有很远的距离,但是「Talk to Books」这样的作品,也让我们看到了机器学习对当下我们产生影响的可能——更强大的搜索引擎,更准确的语言处理。

Google 已经把用以训练 Semantic Experiences 上 AI 的数据和代码公开,如果你是一位感兴趣的开发者,可以到 这里 来看看。

> 下载少数派 iOS 客户端、关注 少数派公众号,读更多有趣的内容 📖