cover_image

AI如何影响智能交互

上周在百度风投基金内部和得到大学的High Tech沙龙活动中分别做了一次分享，分享主题为《AI如何影响智能交互》，现在把主题内容分享给大家 😀

01 自我介绍

‍ 先简单介绍一下我自己。这是关于我的几个数字，我是《AI改变设计》的作者，这是国内第一本关于AI&设计的书籍；我是一名独立开发者，现在线上有两款独立开发的产品；工作以来我拥有13项专利，同时我也是一名自媒体，全网拥有1万读者和50万阅读量。现在我的研究方向是AI设计和多模交互。

0 2 人工智能遇到瓶颈

2019年以深度学习为主的人工智能技术遇到了各种问题。第一是深度学习的不可解释性，深度学习是一个黑箱子，研究人员很难知道它内部究竟发生了什么；深度学习强依赖算力和数据，如果算力的运算速度和数据的质量和数量无法提高，这会导致深度学习算法的准确率无法提高。
第二，AI运算的数据搬运变得更加频繁。当数据访问内存的速度跟不上处理器的运算速度，这会导致算力得不到充分利用，就会形成所谓的“冯·诺伊曼瓶颈”。以冯·诺依曼架构为主的计算结构已经不适合数据驱动的人工智能应用需求。
第三，全世界有80%的数据都是非结构化数据，非结构化数据很难被标签化和组织化，所以它们难以被深度学习利用；加上如何定义和收集隐私数据成为AI发展的最大瓶颈。
尽管以深度学习为主的人工智能在技术上遇到了很大瓶颈。但人工智能还有很多可以探索的领域，例如以人为中心的智能交互。结合AI，整个人机交互会发生很大的变化，它能为我们提供更多的便利，同时生成更多具有结构的数据，反哺整个人工智能的发展。我认为以人为中心的智能交互主要从交互框架和多模交互两个领域发生改变。 0 3 基于AI的交互框架

传统的APP就像一个图书馆，用户找一个内容或者一个功能就像找一本书，需要找到第几排第几列的书架，这些路径都是固定的，这也是我们设计师常说的“信息架构”和“交互框架”，如果APP不更新版本，交互框架是固定不变的。我认为，基于AI的交互框架就跟这个视频的图书馆一样，它是会流动的。就跟下面的视频一样。相比传统交互框架的固定交互路径，基于AI的交互框架它的交互路径是自适应的，它包括了一语直达也就是搜索直达、千人千面也就是功能/内容前置，还有置信度决定交互行为。如果是传统的交互框架，在左侧的红色路径4到右侧绿色路径13最少需要走6步，语音交互可以帮助用户一步直达到，除了页面跳转，语音交互还能帮助用户完成部分操作，例如小爱同学可以帮助用户发微信一样。相信淘宝和抖音大家都不陌生，这两个APP都是通过用户画像的特征实现千人千面，本质上来说，这种做法就是把功能和内容前置到主页，用最短的交互路径满足用户的需求。第三个最能体现AI的价值。深度学习为我们输出的唯一数据就是置信度，例如当我看到一只生物，它有多少几率是一只老虎？60%？80%还是100%，然后我们根据这些数据设计后续的交互行为，这就是AI产品的设计方法，也是设计AI产品的最大挑战。一般来讲，传统的产品设计只要考虑0和1就行，AI产品要兼顾0-1之间的数值，然后定义这些数值是否有价值。以买机票为例，Google Flight结合了过去一年所有航空公司的飞行记录，以及该用户的出行习惯，通过AI帮助用户预测几时是购买机票的最佳时间，这样用户就不用反复查询机票价格，如果AI输出的结果不及预期，Google Flight是不会把这些内容显示出来的。
04 多模交互

基于AI的交互框架能提升我们的使用效率，而多模交互能增加我们的交互方式。多模交互涉及的内容非常多，我挑重点简单讲一下。我认为多模交互有两个重要模块组成，第一个是多通道融合，它包含了GUI、VUI、肢体语言识别和触觉交互四个部分，多通道融合是一种交互手段。第二个是跨设备和跨任务交互，这个是多模交互的目的。简单点说，多通道融合是为了更好帮助用户完成跨设备或者跨任务交互。以下我会讲述AI对VUI和肢体动作识别的影响。
语音交互，也被称为VUI，是多模交互中的一种交互方式。VUI并不是全新的概念。诞生于20世纪70年代的交互式语音应答（Interactive Voice Response, IVR）系统，代表了 VUI 的第一个重要时期。21世纪初期IVR系统成为了主流，用户只要用电话拨打对应电话就能根据语音操作提示收听、点播或发送所需的语音信息，甚至参与聊天、交友等互动式服务。
VUI发展的第二个重要时期是2011年苹果发布的语音助手Siri。得益于深度学习，语音识别在2016年已经达到了97%的准确率，NLU理解和声纹识别也同步发展。随后几年里Google、亚马逊、百度、阿里巴巴、小米相继发布了Google Assistant、Alexa、DuerOS、天猫精灵和小爱同学。市场调研机构Strategy Analytics提供的数据显示，2019年中国大约有3500万家庭拥有智能音箱。并且大部分用户对智能音箱的作用认可，近90％的用户表示它们比预期要有用得多，59％的中国用户表示他们将无法想象没有智能音箱的生活。根据市场研究公司Canalys的报告显示，2019年第三季度全球智能音箱出货量为2860万台，同比增长44.9%。除了智能手机和智能音箱里拥有语音助手功能，汽车生产商逐渐把语音助手视为卖点，2020年Voicebot与Cerence合作发布的《车载语音助手消费者采用率报告》中提到，在美国使用车载语音助手的用户达到近1.3亿，与智能音箱相比，车载语音助手的普及率高出45％以上。
VUI有以下优势： ** 1. ** ** 语音交互的学习门槛低。 ** 从人类进化的角度来看，语音是先于文字产生的，所有的婴儿都是先学会了说话再学会写字，所以小孩在没学习文字读写之前是很难通过电子设备获取信息的；对于老人来说，大部分老人其实很害怕和排斥使用电子设备。所以语音交互对于小孩老人来说尤其方便，可以便捷地获取信息。
** 2. ** ** 不方便使用图形用户界面时提供另外一种交互手段 ** 对于有身体障碍尤其是视障人士来说，语音交互是获取外界信息最有效的交互手段。其次，当用户双眼和注意力被其他事物占据时，例如驾驶过程中或者移动过程中，语音交互总比注视和触摸屏幕要方便安全，还有听觉通道更适合接收紧急和重要的通知。第三，当双手被占用时例如驾驶、烹饪、游戏过程中，语音交互可以减少双手在多任务之间切换的频率。最后，在下暴雨、零下温度等天气恶劣环境下以及用户双手离屏幕距离超过一米导致用户无法使用键盘和屏幕时，语音交互是唯一操控操作系统的交互手段。
** 3. ** ** 语音交互是一种高效的输入方式 ** 语音交互使人们可以按照自己的意愿快速向计算机发送命令。百度、斯坦福大学和华盛顿大学共同完成了一项有关智能手机输入方式对比的研究，研究结果显示，相比于传统的键盘输入，语音输入方式在速度及准确率方面更具优势。利用语音输入英语和普通话的速度分别是传统输入方式的3.24倍和3.21倍，此外，通过加入纠错功能后，语音输入英语及普通话的准确率进一步提高，达到96.43%和92.35%，输入速度仍为键盘输入方式的3倍和2.8倍。此外，语音交互可以一次性下达多条指令，然后分别执行。iOS的应用Shortcuts允许用户设置多个指令，然后命名一条语音指令，用户只要通过Siri说出这条语音指令就能把相关指令按顺序执行。
在肢体识别上，同样得益于深度学习，2017年卡内基梅隆大学机器人学院研发一种可以从头到脚读取肢体语言的计算机系统，名称为OpenPose，它可以实时追踪识别大规模人群的多个动作姿势，包括面部表情和手势，甚至是每个人手指动作。2018年Google在Web和移动端开源了PoseNet模型，它可以通过检测关键身体部位的位置来检测图像或者视频中的人体姿势，手机应用抖音里很多特效都是基于肢体识别实现的。2019年Google开源了手势识别器 MediaPipe。肢体动作识别很早之前就被应用在游戏领域，例如Xbox的Kinect和任天堂的Wii。在商业上美国一家名叫Runnersneed的公司将肢体动作识别运用在卖鞋上，它会要求买家先在跑步机上跑20-30秒，然后通过步态分析为买家推荐合适的鞋。
以上这款名叫Andro Video的AI相机将肢体动作识别技术运用到更多领域，包括健身、安全领域。我个人最近一直在家用Switch游戏机来运动，包括拳击游戏和健身环大冒险。我发现只要配合简单的传感器，个人在家运动也是一件有趣的事情，因为时间可以由自己灵活掌握，第二游戏内容丰富有趣，第三传感器能为我们纠正动作错误，我完全不需要健身教练就能学习拳击和瑜伽。我相信肢体动作识别技术会为整个健身行业带来新的变化。

从以上案例我们可以知道现在的识别技术逐渐成熟起来，但整合起来的信息蕴含丰富的语义，计算机如何将这些信息语义化并理解仍然是一个技术瓶颈，这时候需要设计师发现并设计有明确交互语义的动作。语义化理解是多通道融合的瓶颈，但这不代表现在实现不了多通道融合。只要实现多通道的焦点对齐，以及多通道之间的状态管理，就能初步实现多通道融合。在上文有提到，多通道融合和跨设备/跨任务交互是密切相关的。从这图能很清晰地把多通道融合和跨设备/任务交互的关系表示清楚，本质上来讲，多通道融合是从人的角度管理交互的焦点和状态，跨设备/任务交互是从机器的角度管理交互的焦点和状态，所以它们是息息相关的。跨设备交互一直是人机交互的研究重点。在2019年有一篇名Cross-Device Taxonomy的论文引起了我的注意。这篇论文主要对跨设备计算领域的510篇论文的语料库进行了分析和分类，它为研究人员创建统一的术语和共识，这有助于后续的研究。下面两张图中涵盖了所有跨设备工作的本体和各种术语。这是第二张图。作者总结了一套跨设备设计空间维度的分类法，包括时间、配置、关系、规模、动态和空间6个维度。我简单介绍一下以下六个维度。
** 时间： ** 跨设备工作可以分为同步(同时发生交互)或异步(跨设备进行顺序交互)，在调查过程中的大部分工作属于前一类。
** 配置： ** 此维度对跨设备系统的输入和输出模式进行分类。同步使用中的主要类别是镜像和分布式用户界面。目前最活跃的研究是如何对UI元素进行分布，以及UI界面空间和逻辑分布。异步工作分为两类：第一类是允许跨设备迁移的界面，第二类是跨平台的APP如何在各种操作系统上一致运行。
** 关系： ** 研究涉及不同的人与设备之间的关系，包括一对一，一对多，多对多等等。
** 规模： ** 交互作用可以在规模范围内变化：包括亲密距离、个人距离，社交距离、公共房间内的距离。这里参考了爱德华·霍尔的空间关系理论。
** 动态： ** 动态会影响人和跨设备之间的关系，动态包括固定空间、半固定临时/移动。固定空间通常包括大型的墙面显示器和桌面，而半固定空间则允许一定程度的可重新配置，而临时/移动空间则集中在便携式设备上，从而可以进行动态更改和重新配置。
** 空间： ** 空间维度区分了同地交互和远程交互。大部分跨设备工作涉及共同定位的场景，但是很少有示例解决跨远程分布位置提供跨设备交互的挑战。
除此之外，作者将跨设备交互的实现时间分成了三个阶段，分别是配置阶段、内容参与阶段和脱离阶段。
** 阶段1：配置阶段 ** 这是我们现在处于的早期阶段。第一阶段的重点是建立设备的跨设备配置，包括配对、组合、连接或耦合多个设备。这个阶段的目的是在设备之间建立有意义的语义关系，以实现跨设备活动。在此阶段，主要的输入形式都是基于2D或3D设备进行设计的。除了鼠标、触摸屏，我们还可以考虑使用眼睛、凝视或头部方向，最后会利用整个身体的位置，位置和方向来创建设备之间的语义关系。
** 阶段2：内容参与阶段 ** 第二阶段发生在将设备配置为跨设备使用之后，包括与跨多个设备分布的内容，数据，可视化，应用程序或界面的直接或间接交互。
** 阶段3：脱离阶段 ** 可以让人脱离设备、APP进行跨设备的内容交互，简单点说就像钢铁侠里的画面，Tony Stark可以通过全息界面和人工智能助手进行交互，但是这个阶段仍未得到很好的探讨。
总结一下，多模通道融合和跨设备交互整合在一起，我们有5种交互方式要实现这种交互方式，目前的操作系统是无法支持的，无论是iOS、Android或者Windows系统都是GUI操作系统，在设计前期就没有考虑过融合语音交互，而且部分智能硬件无法支持这些系统，所以实现跨平台交互和数据互通的前提是将GUI操作系统升级为微内核操作系统，现在已经知道的微内核操作系统有Google的Fuchsia OS和华为的鸿蒙 OS。从华为提出的1+8+N战略来看，物联网下一个战场就是实现多模交互和跨设备交互。尽管1+8+N仍是一个战略愿景，但是华为在2019年已经开始布局跨设备交互，例如华为手机、平板、手提电脑和智慧屏的打通，多屏协作是多个设备联合工作的亮点。下面我们来看一下这个视频。在分享的尾声我想聊一下交互设计的本质，交互设计不是设计一大堆界面帮助用户解决问题，交互设计的本质是设计用户和机器行为，帮助用户实现目标。从过去人工智能发展的60年历史来看，想要实现强人工智能是一件非常困难的事情，要打破现有人工智能的瓶颈，以人为本这个原则是必须的，所以人机协作是未来AI和人机交互的趋势。最后，智能交互的愿景是实现普适计算，让所有人类都能享受计算机带来的便利，谢谢大家。 0 5 推荐阅读

什么是多模交互？
影响人工智能发展的五大要素 VGUI融合的三种实现方式