用户与Midjour程的互动之旅：文本到图像生成工具中的提示策略、评估与挑战

论文总结

研究机构

乔治亚理工学院（Georgia Institute of Technology）

本研究通过深度访谈的形式，探索了用户在使用文本-图像生成AI工具时的提示旅程。研究者们采访了19位Midjourney平台的使用者，以理解他们如何构建、评估和优化提示，以及他们在这一过程中遇到的挑战。结果揭示了用户的提示结构（如详细描述、模板化、概述+细节等）、评价标准（如目标具体性、内容代表性）以及提升策略（如添加主题、调整视图等）。同时，研究也发现了用户在意图与AI输出对齐，以及掌握提示创作知识方面的挑战。这些发现为设计更具个性化的文本-图像工具提供了方向，并强调了明确设定目标和提供恰当支持的重要性。

问题发现

用户在使用文本-图像生成工具时，面对的主要问题是意图和AI生成内容之间的不匹配，这可能导致用户感到沮丧或困惑。
用户在提示创作过程中面临的挑战包括过多的信息量、对参数效果的理解不足以及如何有效地利用社区资源。
缺乏个性化的工具支持，使得用户难以根据不断变化的目标来调整提示。

解决方案

AI工具需要提供更明确的指导和反馈机制，帮助用户理解AI的工作原理和限制，以更好地实现目标对齐。
设计者可以开发更多个性化、适应性强的提示结构，以满足不同用户的创作需求。
鼓励社区内的学习与模仿，并通过共享提示策略来降低学习复杂环境的成本。

结果

用户在使用文本-图像工具时采用的常见提示结构包括详细描述、模板化、概述+细节等。
评价AI生成内容时，用户关注目标的具体性、内容的代表性和视觉设计（如色彩、构图）等因素。
提示优化策略包括添加主题、调整视图、重新排序或重述以及利用社区资源。
面临的主要挑战包括意图与输出对齐困难和掌握提示创作知识。

结论

用户在使用文本-图像AI工具时的提示旅程是一个复杂且社交的过程，他们通过不断试验和学习来构建、评估和优化提示。未来的研究可以进一步探索不同提示策略的有效性，并考虑如何在更大规模的数据集中量化这些发现。同时，对于目标设定、解释性和模型局限性的明确沟通，以及对用户社区的更多支持，将有助于改善用户与AI工具的互动体验。

举一反三

Q1：用户在使用Midjourney时的图像评价标准是什么？

A1：用户在评价 Midjourney 生成的图像时，通常会考虑目标的具体性、内容的代表性以及他们所期望的现实主义程度。他们的评估标准包括主题、色彩、构图、纹理、清晰度、感觉和连贯性等。

Q2：用户如何通过迭代过程来改进提示？

A2：用户在改进提示时，会采用多种策略，如增加描述细节（例如添加形容词或新词汇）、调整参数、改变单词顺序或句式、重新排列提示或重述，甚至利用模型生成的多样性来测试不同的版本。

Q3：如何根据研究结果改善文本到图像工具以更好地满足用户需求？

A3：为了更好地支持用户与生成式AI工具的互动，可以考虑提供更个性化的提示结构选项，以适应用户的不同目标和创造力。此外，清晰地传达工具的优势和限制，并基于用户行为预测他们可能需要的解释，将有助于提高用户的理解并优化体验。同时，解决人机语言逻辑之间的差异，提供提示转换功能以及阐明模型在语言理解上的局限性，也有助于缩小这一差距。

原文地址：https://dl.acm.org/doi/fullHtml/10.1145/3613904.3642861

内容由MiX Copilot基于大语言模型生成，有可能存在错误的风险。