LLM正逐步改变交互系统
去年12月份ChatGPT的出现正在改变整个科技和商业规则,为什么这么说?除了网上各种ChatGPT和GPT3应用陆续推出,连微软和Meta都决定将当前重心放在AI上,扎克伯格在2023年财报电话上是这么说的:“我想介绍一下我们的优先领域的最新情况。 自去年以来,我们的优先事项没有改变。推动我们路线图发展的两大技术浪潮是当前的 AI 和从长远来看的元宇宙……”请注意,“当前”和“更长期”这两个修饰词。 除此之外,从去年12月份到现在,科技文章和ProductHunt几乎有一半的字眼都会涉及“GPT”。为了抵抗微软Bing和OpenAI ChatGPT合作带来的巨大挑战,Google和百度都决定推出搜索+Chatbot的模式,尽管Google的Bard仍处于未完善阶段,Google也要在2月8号提前官宣Bard一事(虽然40分钟发布会里Bard一词没提10次,这也能看出Google为了应付ChatGPT是有多狼狈)。 除了各种网上新闻,相信各位读者也在B站和Youtube上看到很多视频博主主制作了一系列关于ChatGPT的视频,例如有人制作了一个ChatGPT音箱,有人做了一个基于ChatGPT的二次元老婆聊天系统,我在去年12月份也做了一个基于ChatGPT+数字人+语音交互的交互系统,而且它可以根据你的视线实时实现视差效果(算是裸眼3D效果的其中一种)而这个系统我花了不到一个月时间,中间很多代码都是一边问ChatGPT老师一边复制粘贴的。下面是Demo视频(由于结果返回得有点慢,所以看完前3秒可以直接拖到30秒后): 无论是GPT-3、ChatGPT还是Bard,背后的技术都是大语言模型(Large Language Model, LLM),为什么标题说LLM正逐步改变交互系统呢?因为交互系统的本质是为了让人机交互更加自然便捷,从而让人更方便地输入和获取信息,而LLM让“便捷”这个词进入一个更高的境界。如果看完上面数字人的视频还存有疑问,我们再看Bing+ChatGPT的这个视频: 总结一下这个视频想说明什么。
LLM可以帮你完成内容的输出,这意味着跟打字相关的任务和工作会被改变,在这里大家可以看一下我前几天写的 《使用Notion AI后的几点看法》 。
查询内容和总结内容变得异常简单,曾经我们需要阅读整篇文章或者书本以及记忆、做笔记才能获取和掌握知识,现在LLM能直接帮我们总结内容、提取重点…而这点已经有很多利用GPT3的开源项目在运作着(包括我另外一个项目)。
通过更自然的对话方式完成任务,相信用过ChatGPT的读者对这点都印象深刻。
相信大家也听说过ChatGPT可以帮忙写各种代码的事情,在这里我再提供一个新闻:苹果正在研究一种允许用户使用Siri来为VR头显构建应用程序的方法。这意味着低代码甚至零代码生成应用已经不是难事,那未来有没有一种可能是你和机器交互的过程中,机器会随着你的问题甚至意图在实时生成相关的应用来获取以及展示信息来满足你的需求?我相信这个事情会在未来的某个时间点发生。 除了代码,语音交互→LLM→生成Prompt→驱动生成模型生成图像或者3D模型还可以做到很多事情,例如下面这个视频中我们可以通过语音交互对AR内容进行生成和修改。 如果我们不把步子迈得这么远,我们还可以关注一下LLM和GUI的结合:去年Google发布了一篇关于GUI整合LLM工作的论文 Enabling Conversational Interaction with Mobile UI using Large Language Models ,我来概括一下论文的重点内容:
LLM可以基于屏幕的元素自动生成可理解的相关问题,准确率较高。
LLM可以获取屏幕内容并生成摘要,而且生成质量很高。
LLM可以对屏幕内容进行解析并与用户进行问答,而且这个可以零样本完成。
将指令映射到UI操作的准确率跟提示有关,整体质量有待提高。
前三点都可以在零样本下完成,这也意味着实现VUI+GUI融合的成本,尤其是内容运营成本可以大幅度下降,第四点质量不太行是因为牵涉的因素太多,感兴趣的朋友可以在知识星球获取论文的中英文版本。
有了LLM,基于内容的交互将发生彻底的变化,而这会直接影响交互的动作和行为,所以“LLM改变交互系统”的命题是成立的。曾经我们认为微软已经落后苹果和Google太多了,有了ChatGPT的加持,再加上微软的Windows系统、Office全家桶、Github、Visual Studio以及微软在XR上的布局(例如MRTK3,尽管都裁光了),我认为一个基于人工智能的新型交互系统在未来将会逐渐浮出水面,期待那一天的到来!
预览时标签不可点
微信扫一扫
关注该公众号
轻触阅读原文
薛志荣