cover_image

实现多模交互融合的四个阶段

多模交互融合是普适计算和自然交互中最重要的组成部分。笔者认为，实现完整的多模交互融合需要分成四个阶段，分别为独立工作阶段、初步融合阶段、语义理解阶段和任务自适应阶段。

01 独立工作阶段

各自工作阶段的意思是多个模态可以正常、独立地工作，但各个模态没有融合在一起。之前笔者写过一篇《什么是多模交互？》，里面介绍了每个模态的基本现状，在这里我就不重复介绍了。触控、语言仍然是现阶段人机交互中最常用的交互方式，例如GUI和VUI。手势识别在2019年有了新的突破，Google的科学家们研究出一种新的计算机视觉方法，用于实现手部感知。该方案能够在实机实验中仅凭一帧图像识别出一只手（或者多只手）上的21个3D点位，而且能在手机上就能进行实时追踪，并且还能同时追踪多只手，可识别遮挡。但有些时候玩着玩着，屏幕也会突然“放空”，只能看到手，识别不出手势。

为了避免全部手势识别都依赖于计算机视觉技术，Google还设计了一款名叫Soli的微型雷达芯片，它首次应用于Pixel 4和Pixel 4L上，用户可以通过在Pixel 4上方做手势，控制音量、导航菜单等，而无需触摸显示屏。为了实现“亚毫米”手势分类，Soli背后的团队设计了一个系统，该系统包含使用从数千名Google志愿者那里记录的数百万个手势进行训练的模型，并补充了数百小时的雷达记录。

0 2 初步融合阶段

多模交互初步融合的关键是找到相同参照物，以参照物为中心实现多个模态之间的信息互通。只要实现多模态的焦点对齐，以及多模态之间的状态管理，就能初步实现多模态融合。多模交互融合和跨设备/跨任务交互是密切相关的。本质上来讲，多模交互融合是从人的角度管理交互的焦点和状态，跨设备/任务交互是从机器的角度管理交互的焦点和状态，所以它们是息息相关的。
由于肢体动作识别、手势识别、表情识别仍处于早期阶段，在初步融合阶段商业产品是不会把它们考虑进去的，所以多模交互融合在此阶段更多是基于触控和语言的GUI和VUI融合。GUI和VUI融合更多是指用户可以通过语音、触控的方式操作一个操作系统，而且两种方式不会相互冲突。想了解更多关于GUI和VUI融合的内容请看笔者之前写的文章《VGUI融合的三种实现方式》。
0 3 语义理解阶段

“语义”这个词相信大家在很多领域都听说过。那么什么是语义呢？语义在维基百科中是这样描述的：1883年，法国学者米歇尔·布雷亚尔首次提到了“语义学即意义的科学”，并根据希腊语创造出“语义学”（semantics）这个词汇。现在的语义学是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。
从“语义学即意义的科学”和涉及学科之广可以看出语义的重要性。在语音交互中，语义可以理解为一句指令包含的意思。在图形界面交互中，笔者认为GUI的语义由控件语义和操作语义两部分组成，例如开关控件和滑块控件代表了不同的含义；长按和滚动属于不同的响应事件，两者结合起来可以产生更复杂的语义。

为何初步融合阶段中没有包含肢体动作、手势和表情？因为肢体、手势包含的语义很复杂，涉及到人因学、社会学等多个学科，例如“OK”手势在美国、英国、中国的文化中，这种手势意味着所有的东西都是妥妥的“OK”，但是在土耳其、希腊、巴西和德国的部分地区，“OK”手势是一种极具侮辱的冒犯性手势。加上表情理解的话，整个肢体语言的语义变得更复杂，例如假笑加“OK”手势到底是什么含义，真OK还是假OK？表情识别仍处于起步阶段，只能识别愤怒、恐惧、快乐等表情，而且准确率不高，说不定前文提到的假笑有可能是计算机错误的判断。肢体动作、手势和表情的语义理解缺失会让多模交互融合缺失了很多可用信息，这是多模交互融合的最大瓶颈之一，也导致了当前多模交互融合只能在GUI和VUI上研究语义的融合和理解。

0 4 任务自适应阶段

多模交互融合另外一个最大的瓶颈是我们还不能很好地量化人类的的认知资源和认知负荷。在认知科学中，已经开展了许多研究来理解人类如何处理信息和做出决策。人类是一个单通道的还是并行通道信息处理器呢？一个人可以同时处理来自不同源头的或者不同传感器的信息，或是信息排队等候一个单处理器一次来处理一块数据？

以驾驶汽车为例，在早期的学习驾驶过程中或者司机在承受压力的情况下，大部分的有意识的信息处理是在单通道模式下执行的，这时候司机会很专心地望着前方开车。当司机学习、并获得技能后，许多简单的任务可以同时进行，这时候司机可以在做其他事情的同时不时通过周围视觉来留意前方的路况，从而判断是否继续完成当前任务。

在以上例子上做个补充，当司机全神贯注于什么别的东西时如何到达目的地？当大脑处于积极处理一些其他信息状况时，司机的潜意识（或无意识的）信息处理活动（如果他们是高度熟练的），可以接管并完成驾驶任务，而不需要完全了解情况。

同理，当熟练使用菜刀的你在厨房边听着歌边用刀切菜时，其实你大脑里还能想其他事情，这时候你同时在处理三件事情但你一点都不会手忙脚乱。如果是一个刚学切菜的新手如果边切菜边想其他事情，很有可能会切到自己的手指。在某种程度来说，肌肉记忆已经在帮你完成切菜的任务。

从上面的例子可以看出，如果要完成一系列任务，人类对信息的认知及管理是非常重要的。目前认知心理学更多是通过观察人类的行为然后分析背后的原理，但是不同的学派观察的角度不一样，这导致了认知心理学有着不同的认知理论模型。在工程心理学中，对多模交互研究最有帮助的理论模型目前笔者找到了三个，分别是工作记忆模型理论、多重资源理论和中央瓶颈理论，具体的理论知识笔者就不在这里详细阐述了。
有趣的是，各个学派的研究学者无论怎么努力完善他们的模型，还是会不断出现新的问题，这也导致心理学家从研究人类行为逐渐转向研究人类大脑的活动情况，所以如何理解并量化人类的认知资源和认知负荷仍是一个难以解决的问题。这也导致多模交互融合过程中，信息无法被合理运用到各个模态中，目前我们只能合理地人为地设计一个认知资源和认知负荷的阈值，希望不会引起用户在使用产品过程中出现手忙脚乱的情景，但这个阈值大概是多少，目前还没有定论。
0 5 推荐阅读

什么是多模交互？
AI如何影响智能交互 VGUI融合的三种实现方式