cover_image

VGUI融合的三种实现方式

一般来说，多模交互中的VGUI（VUI+GUI的简称）有三种实现方式，分别是应用级语音交互、可见即可说和系统级语音交互，真正对多模交互有用的实现方式是系统级语音交互，以下我会介绍三种实现方式的区别。

应用级语音交互

应用级语音交互的意思是，当语音交互发生时，系统会调起一个语音应用遮盖当前界面，用户只能对语音应用进行操作或者退出语音应用，语音应用和其他应用都是互斥的。以iPhone上的Siri为例，Siri是一个信息中枢系统，它会把系统和第三方应用里所有的语音技能和需要的信息都集成在自己的应用里，用户需要使用Siri的话就必须暂停操作当前应用。应用级语音交互不需要知道当前发生了什么，这也是它的第一个特点：应用级语音交互会脱离当前应用和场景。

应用级语音交互的前生是独立的语音操作系统，也被定义为语音助手，例如苹果的Siri、亚马逊智能音箱Echo上的Alexa和Google Assistant。构建它们的初衷就是建立一个语音生态系统，它可以不依赖iOS和Android，不依赖图形界面就能独立工作，但需要第三方应用重新为这个语音交互操作系统设计一套语音应用和交互剧本。这是应用级语音交互的第二个特点：应用级语音交互由剧本决定交互路径。

到了后来，尽管逐渐出现了各种带屏智能音箱，例如亚马逊的Echo Show、百度的小度在家和阿里的天猫精灵，它们搭载的语音助手仍然是之前那套语音操作系统。这些设备上的GUI和PC/移动端的GUI很不一样，PC/移动端的GUI是为了提升阅读效率而生，而带屏智能音箱的GUI是VUI的辅助和补充手段。以下是一些带屏智能音箱的界面图片：

大家有没有发现图片里的字体都比较大？在认真阅读和聆听同一长文本时，文字阅读的效率会下降，视觉通道接收信息的效率会下降并和听觉通道同步，所以在带屏智能音箱上边听边看一大堆内容是不现实的，而且用户有可能从远处看设备上的内容，因此设计师们会把界面里的元素放大，简化界面的排版布局。这也是应用级语音交互的第三个特点：应用级语音交互以听觉通道为主，弱化图形用户界面的信息。

当Siri、Google Assistant这些独立的语音操作系统依附在iOS和Android上，它们自然而然降级成为一个独立应用，所以称它们为应用级语音交互。由于自然语言理解和全双工技术尚未成熟，以及用户的双眼和双手就在手机屏幕前，所以在应用级语音交互中，语音交互不一定全程参与。以Siri和Google Assistant为例，用户通过语音启动任务后，随后的步骤允许用户通过触摸屏进行交互。这是VGUI的第一个特点：多通道结合使用可以提升工作效率。

Siri和Google Assistant可以通过对话流，即Conversation UI的方式显示完整的上下文，这是VGUI的第二个特点：显示对话内容有利于用户记忆和理解对话内容。

以查询一周天气为例，不带屏的智能音箱会把未来7天的天气信息全部播报出来，播报时长可以高达1分钟；在带屏设备上，未来一周天气可以只播报概要，每天的具体天气信息可以让用户自行阅读。这是VGUI的第三个特点：结合视觉通道输出信息可以减少语音播报的唠叨。

最后，应用级语音交互只是通过GUI把VUI的内容可视化，但同时降低了GUI的阅读效率，算不上真正的VGUI融合。

可见即可说

可见即可说的意思是，界面上能看到什么界面元素，只要说出它的名字，系统就会通过模拟点击的方式操作该元素。例如界面上有一个蓝牙开关，你只要说“打开蓝牙开关”或者“关闭蓝牙开关”，系统就会模拟点击蓝牙开关的热区，使开关发生变化。这是可见即可说的第一个特点：可见即可说以视觉通道接收信息，语音的方式输出信息。第二个特点是：可见即可说可以在任意界面上使用。总结在一起就是VGUI的第四个特点： VUI可以随时随地操控当前界面上的元素。

可见即可说和应用级语音交互有着本质上的区别。应用级语音交互是一个独立的VUI操作系统，是汇集所有信息的中枢系统，而可见即可说属于GUI操作系统的辅助手段之一，它提供语音交互的能力帮助用户解决偶尔无法双手操作图形界面的问题。第二，应用级语音交互不依赖连续对话的能力，但可见即可说仅靠唤醒词+单轮对话只会有差劲的体验，所以它和应用级语音交互有着不同的交互方式。这是可见即可说的第二个特点和VGUI的第五个特点： VGUI依赖于连续对话的能力。

可见即可说只需要语音识别和正则表达式匹配就能实现对界面元素的模拟操作，1992年李开复博士在美国公开展示其开发的语音识别系统也是运用了该原理。可见即可说不需要复杂的自然语言理解技术就能实现，正因如此，可见即可说不支持交互剧本、意图识别、业务逻辑理解等能力，一般用于简单的车载系统上。可见即可说的第三个特点：可见即可说不支持复杂的意图识别。

最后，可见即可说只是通过VUI操作GUI，但能力非常有限，仍然算不上真正的VGUI融合。

系统级语音交互

系统级语音交互简单可以理解为应用级语音交互和可见即可说的结合体，通过各自的优势弥补了对方的劣势。总结在一起，系统级语音交互的能力如下：

1. 系统级语音交互属于GUI操作系统的一部分，它拥有连续对话的能力，可以随时随地操控GUI上的界面元素。

2.因为第1点，系统级语音交互不会脱离应用和场景而单独使用，它的交互流程由剧本和界面元素决定。

3.系统级语音交互拥有意图识别和业务逻辑理解能力，因此系统可以理解用户的意图，也可以依据特定场景主动发起语音交互。

4.基于1、2、3点，系统级语音交互具有信息汇集和理解的能力，它是信息的中枢但服务于系统和各个应用，所以它应该把收集到的信息重新分发给各个应用。

5.基于第4点，系统级语音交互能突破界面的限制，可以随时随地跳转到任意应用和界面上。

6.系统级语音交互能显示用户和系统的对话内容，有利于用户记忆和理解对话内容，并且减少语音播报的唠叨。

最后，系统级语音交互能兼顾GUI和VUI的优点，提升VGUI的工作效率，是真正的VGUI融合。以VGUI为代表的多模交互需要重构系统框架以及有强大的技术支撑才能被实现，但是它在手机和PC上没有太大的实质性作用，仅有少数公司会去探索多模交互的实现方式，例如Google的Duplex On The Web技术。多模交互真正发挥作用的领域在于汽车、AR、VR和跨设备交互，提前探索能沉淀更多关于系统设计和人机交互设计的知识，这也是本篇文章的初衷。