用户与Midjour程的互动之旅:文本到图像生成工具中的提示策略、评估与挑战
论文总结
研究机构
乔治亚理工学院(Georgia Institute of Technology)
摘要
本研究通过深度访谈的形式,探索了用户在使用文本-图像生成AI工具时的提示旅程。研究者们采访了19位Midjourney平台的使用者,以理解他们如何构建、评估和优化提示,以及他们在这一过程中遇到的挑战。结果揭示了用户的提示结构(如详细描述、模板化、概述+细节等)、评价标准(如目标具体性、内容代表性)以及提升策略(如添加主题、调整视图等)。同时,研究也发现了用户在意图与AI输出对齐,以及掌握提示创作知识方面的挑战。这些发现为设计更具个性化的文本-图像工具提供了方向,并强调了明确设定目标和提供恰当支持的重要性。
问题发现
- 用户在使用文本-图像生成工具时,面对的主要问题是意图和AI生成内容之间的不匹配,这可能导致用户感到沮丧或困惑。
- 用户在提示创作过程中面临的挑战包括过多的信息量、对参数效果的理解不足以及如何有效地利用社区资源。
- 缺乏个性化的工具支持,使得用户难以根据不断变化的目标来调整提示。
解决方案
- AI工具需要提供更明确的指导和反馈机制,帮助用户理解AI的工作原理和限制,以更好地实现目标对齐。
- 设计者可以开发更多个性化、适应性强的提示结构,以满足不同用户的创作需求。
- 鼓励社区内的学习与模仿,并通过共享提示策略来降低学习复杂环境的成本。
结果
- 用户在使用文本-图像工具时采用的常见提示结构包括详细描述、模板化、概述+细节等。
- 评价AI生成内容时,用户关注目标的具体性、内容的代表性和视觉设计(如色彩、构图)等因素。
- 提示优化策略包括添加主题、调整视图、重新排序或重述以及利用社区资源。
- 面临的主要挑战包括意图与输出对齐困难和掌握提示创作知识。
结论
用户在使用文本-图像AI工具时的提示旅程是一个复杂且社交的过程,他们通过不断试验和学习来构建、评估和优化提示。未来的研究可以进一步探索不同提示策略的有效性,并考虑如何在更大规模的数据集中量化这些发现。同时,对于目标设定、解释性和模型局限性的明确沟通,以及对用户社区的更多支持,将有助于改善用户与AI工具的互动体验。
举一反三
Q1:用户在使用Midjourney时的图像评价标准是什么?
A1:用户在评价 Midjourney 生成的图像时,通常会考虑目标的具体性、内容的代表性以及他们所期望的现实主义程度。他们的评估标准包括主题、色彩、构图、纹理、清晰度、感觉和连贯性等。
Q2:用户如何通过迭代过程来改进提示?
A2:用户在改进提示时,会采用多种策略,如增加描述细节(例如添加形容词或新词汇)、调整参数、改变单词顺序或句式、重新排列提示或重述,甚至利用模型生成的多样性来测试不同的版本。
Q3:如何根据研究结果改善文本到图像工具以更好地满足用户需求?
A3:为了更好地支持用户与生成式AI工具的互动,可以考虑提供更个性化的提示结构选项,以适应用户的不同目标和创造力。此外,清晰地传达工具的优势和限制,并基于用户行为预测他们可能需要的解释,将有助于提高用户的理解并优化体验。同时,解决人机语言逻辑之间的差异,提供提示转换功能以及阐明模型在语言理解上的局限性,也有助于缩小这一差距。
原文地址:https://dl.acm.org/doi/fullHtml/10.1145/3613904.3642861
内容由MiX Copilot基于大语言模型生成,有可能存在错误的风险。