从视觉到听觉，语音技术的感官革命

【猎云网（微信号：）】2月17日报道（编译：罗彬杰）

编者注：本文的作者Nithya Thadani是RAIN公司的首席执行官，该公司专注于语音策略、设计和开发。

“闭上眼睛，听我的声音。”这是冥想教练对刚开始练习冥想的人说的话。当我们需要集中注意力的时候，我们会关闭视觉输入，让我们的大脑来完成工作。

感官上的抑制可以从深层次上解放我们的思想。一些人类最伟大的创造者，从John Milton（英国文学史上伟大的六大诗人之一）到Ray Charles（美国灵魂音乐家），在失去视力后反而迸发出强大的精神创造力，证明了即使是最丰富的精神体验也不需要我们的主要感官参与。视觉刺激的缺失可以打开认知可能性的世界，我相信这一真理支撑着人类与技术、人类彼此之间以及与世界的交互方式上发生的重大感官革命。

在我们进入一个新的十年之际，我们的集体经验比以往任何时候都更加直观。我们日日夜夜都盯着屏幕。在社交媒体上，我们越来越多地使用照片和视频，在写作时也常常限制文字和字数。

虽然视觉能力在我们的进化中处于核心地位，对引导我们在现实世界中活动很有帮助，但它在某种程度上已经成为影响我们注意力的致命弱点。大型互联网公司经常利用我们的眼睛来捕捉和维持我们的注意力，在很多情况下，它们还会颠覆我们的思维。

设备和数字媒体带来的危害已经不是什么秘密了。作为消费者，我们时长会感觉脖子僵硬，注意力分散，当我们远离电子设备时（或使用电子设备时）还会感到焦虑。事实上，许多正在打造令人上瘾的数字产品的科技行业领袖，往往是对自身风险最敏锐的观察者，这导致他们采取先发制人的行动，保护自己的亲人免受科技潜在负面影响的侵害。

作为一名领导者，我的公司每天都与最大的科技公司合作，因此无论是在工作中还是在家里，我都是这种紧张关系的直接受害者。多亏了我的智能手机，我的女儿比我想象的更接近她几百英里外的曾祖母。与此同时，当我们只有几英尺远的时候，这个设备拉开了我和她的距离。

因为我在语音技术领域工作，因此家里有很多语音助手——Alexa、谷歌助理、Siri等等。虽然出于职业原因，我可能是一个超级用户，但我并不是唯一一个这样做的人。据估计，到2022年，超过一半的美国家庭将拥有语音助手。

在过去的两年里，我观察到我的家人和朋友与语音技术互动的方式与基于屏幕的媒体有一种奇怪而深刻的不同。我女儿仍然经常与语音助手打交道，但语音不会像屏幕那样扰乱我的家庭。尽管移动设备和平板设备在设计上是个性化的，因此更加容易把人孤立起来，但声音却天生具有包容性和参与性。

我的女儿在做拼图游戏或和她的弟弟玩耍的同时，可以让语音助手播放一首歌或翻译一个西班牙语单词。同样地，如果她问了一个我回答不了的问题，我的新办法是找个语音助手陪她。语音技术并没有把我吸进设备的数字流沙中，而是像一张蹦床，把我弹回到现实世界。我的女儿不再是孤立的，我也不再是孤立的。

这些观察让我开始思考：是什么导致了我们在使用语音优先技术和屏幕优先技术时产生如此巨大的差异?

基于屏幕的技术之所以让人上瘾，是因为视觉在我们感官层次中的地位

我们先来看看是什么让移动设备从根本上分散了人们的注意力。不仅仅是屏幕的存在，事实上，许多语音设备也有屏幕，其中最重要的就是我们的手机。它是屏幕在设备的用户体验和我们作为用户的感官层次中所扮演的角色。“屏幕优先”体验，即屏幕是输入和输出的主要形式，会分散用户注意力，因为视觉输入是复杂的，而人类也不断进化为更多地从视觉中获取信息。

这是一种与生俱来的需要。人类的生存依赖于我们理解他人的能力。我们总是试图通过解读他人的情绪、举止和行为来理解动机和意图。大部分的社会感觉输入是视觉的（这也解释了为什么65%的交流是非语言的）。甚至从出生开始，婴儿观察和识别人脸的能力就比获取大多数其他信息要早得多。

屏幕优先设备利用了这种条件反射，想尽办法有条不紊地把我们的注意力吸引过去。推送通知的设计目标是利用我们大脑的执行功能，尤其是“自下而上”的大脑信号，它优先于我们有意识选择关注的事情。这种反应是条件反射性的，很难克服。其结果是表面上所谓的生产力提升和多任务处理的兴起。

分散注意力会阻碍创新，而创新正是技术所追求的

事实是，大多数成年人无法应对分心这个问题。大约98%的人一次只能处理一条以上的信息。在不同的任务之间切换会消耗我们大脑40%的时间。工作效率和心理健康并不是注意力分散的唯一受害者。它还存在着更大的危害。

这种大脑的削弱对我们作为创造者，也就是我们复杂的创造过程有着深远的影响。伟大的思考来自于让我们自己沉浸在信息和刺激中，然后有意识地从这些信息和刺激中抽身而退，给大脑时间去思考和建立那些需要的联系。这就是为什么我们一些最好的想法会在半夜出现。然而，为了做到这一点，信息必须被“保存到”我们大脑中。任务转换会阻碍我们处理和保存信息的方式，不可避免地会阻碍大脑建立深层联系的能力。想想看：那些曾经远离科技来建立这些联系的时刻）比如遛狗、排队、上厕所等），现在常常被智能手机或其他屏幕设备占据。具有讽刺意味的是，技术正威胁着推动它自身发展的东西——创新。

那么语音在这一切中属于哪一部分呢？就其本质而言，语音技术提供了一个强大的机会，可以改变我们与技术之间支离破碎的关系。

语音在两个方面更快

在英语中，说的速度是打字的三倍。向语音助理提问要比输入搜索栏查询快得多。这被广泛认为是语音的杀手级应用场景之一。许多公司已经在利用这一优势为运营和员工带来口头输入的高效体验。

证明语音更有效率的另一半原因是我们的听觉。我们的听觉反应也更快，它的反应时间比视觉反应时间快4倍，这意味着我们用耳朵处理信息的速度比用眼睛快得多。

因此，语音的输入和输出都更快。在使用语音时，我们不仅可以更快地处理信息，还可以降低新信息竞争我们的注意力并存储到大脑记忆中的风险。

这并不是说语音和语音引导的体验不能吸引人。让我们看一个简单的例子，比如，阅读或听一个故事。当视觉形象不是我们关注的焦点时，我们就会在脑海中创造和想象人物和故事。我们的大脑负责翻译和解释词语，以及词语背后的含义。我们创造了自己的心灵影院。播客和翻页器可以通过释放我们的想象力的方式，强有力地捕捉和维持我们的注意力，而不需要移动像素来引起视觉上的吸引。吸引人不一定意味着上瘾。

感官革命：将我们的意识重心从视觉转移到听觉

语音技术有潜力通过将我们与所有技术的关系推向后台，从而改变和加强我们与这些技术的关系。

它不是一个闪亮的新物体或设备，而是一个基础设施。它将让我们更好地控制我们与技术打交道以及合理使用我们宝贵的认知资源。想象一下使用语音计算通勤的工作效率吧。语音技术还能重新点燃朋友和家人之间持续的、面对面的亲密关系。当我们把意识的重心从视觉转移到听觉，并给自己时间去自由和不受阻碍地思考时，所有这些思考的结果都会浮出水面。

如果我们的工作方向是对的，语音技术将成为催化剂，让世界更智能，而不是让我们更笨。它能让技术隐形，同时推动人类联系向前发展。我们还有很长的路要走。但这是一种我们都可以支持的愿景。