构建层次性视频摘要，使短视频对于视障用户更易访问

论文总结

研究机构

University of Texas at Austin, Cornell University

摘要

本文研究了如何使短视频（如TikTok和YouTube Shorts）对盲人和视障人士（BLV）更易于访问。研究人员通过访谈和观察7位经常观看此类视频的BLV用户，发现他们常遇到音频与视觉内容不匹配、音乐或音频覆盖等问题。为了解决这些问题，研究团队开发了名为ShortScribe的系统，该系统提供了多层次的视觉摘要，包括短描述（简洁概述）、长描述（详细信息）和逐帧描述（视频每一帧的文字说明）。通过使用大型语言模型GPT-4对提取的视觉信息进行总结，用户可以根据兴趣选择性地获取更多信息。研究结果表明，ShortScribe能够帮助视障用户提高对短视频的理解，并提供了他们感兴趣的视频内容的筛选工具。该系统为BLV用户提供了一个改善观看体验并决定观看哪些视频的选择平台。

问题发现

视频与音频不匹配导致理解困难
音乐或流行语音频覆盖视觉信息
缺乏对快速变化和复杂视觉内容的描述
社交媒体平台上的文字描述不足

解决方案

开发ShortScribe系统，提供多层次视频摘要
使用GPT-4生成视觉信息和音频的详细描述
提供短描述、长描述和逐帧描述，用户可按需获取
通过界面设计让用户灵活控制视频播放

结果

用户研究显示ShortScribe提高了视频理解并提供独特的观看体验
参与者一致表示愿意使用ShortScribe，并认为它提升了观看短视频的体验
与基础接口相比，用户对ShortScribe提供的描述更有用且能提高视频理解度

举一反三

Q1：视频内容与音频如何匹配？

A1：在我们的研究中，参与者报告称，当视频的音频与视觉内容无关时（如背景音乐或覆盖的音频），这使得他们难以确定屏幕上发生了什么。这种不匹配对视障用户的观看体验造成了挑战。

Q2：短形式视频的无障碍性有哪些独特挑战？

A2：短形式视频的无障碍性面临独特挑战，包括快速变化的视觉、持续的音频（没有添加描述的间隙）、趋势性的音频重用和可能令人困惑的反应或评论视频。这些因素使得视障用户难以理解视频内容并决定是否观看。

Q3：如何改善视障用户在浏览和观看短形式视频时的体验？

A3：可以通过提供多层级的视觉摘要（如简短描述、详细描述和逐帧描述）来改善体验，让用户根据兴趣灵活获取信息。同时，清晰的视频标题、易于使用的控制、以及对屏幕上的文本和视觉元素的访问也是关键改进点。

信息来源

https://dl.acm.org/doi/fullHtml/10.1145/3613904.3642839

内容由MiX Copilot基于大语言模型生成，有可能存在错误的风险。