我要投稿

如何让生成式AI更懂你？全新交互模型IAI，重塑人机协同范式

发布日期：2026-04-09 18:09:17 浏览次数： 1524

作者：微软亚洲研究院

微信搜一搜，关注“微软亚洲研究院”

（本文阅读时间：10分钟）

随着生成式AI逐步走入设计、数据分析和程序开发等工作流程，甚至点餐、购物等生活场景，人们开始频繁与AI“对话”。然而，设计师反复修改提示词却始终难以贴近心中的画面；数据分析师难以用文字精确指代图表局部；程序员也很难仅凭文字就让AI准确理解特定的代码结构——“说不清楚”，正成为生成式AI时代普遍存在的交互瓶颈。

文字提示灵活却天然模糊，GUI界面交互精准却表达受限，两者之间始终缺少一座连接用户意图与AI理解的桥梁。

为系统性破解这一难题，来自微软亚洲研究院、香港科技大学和佛罗里达州立大学的研究团队，在人机交互领域顶级会议ACM CHI 2026上提出了交互增强指令（Interaction-Augmented Instruction，IAI）模型，并荣获CHI 2026最佳论文荣誉提名奖（Best Paper Honorable Mention）。该工作尝试从根本上回答一个关键问题：如何让人类的意图，被AI更准确地理解与执行？

点击文末相关链接，了解更多技术详情。

图1：IAI模型研究概览

一个模型，六个实体：重新刻画“人机对话”的本质

IAI模型首先解决的是“如何描述人与AI的交流”，也就是描述力（Descriptive Power）。研究团队从两条最基本的人机交互路径出发——"提示词驱动生成"与"GUI直接操作产物"，提炼出六个不可或缺的核心实体：人类（Human, H）、交互（Interaction, I）、文字提示（Text Prompt, T）、增强指令（Interaction-Augmented Instruction, Aug）、生成式AI（GenAI, G）、产物（Artifact, A）。

其中最关键的创新，是引入了"增强指令（Aug）"这一独立实体，代表超越文本之外的指令信息。将Aug作为AI的显式输入，让研究者与设计者能够清晰地比较不同工具在"如何把人的意图翻译成AI能理解的信息"这一核心问题上的本质差异。

现实中，交互对指令的贡献方式千差万别：有时交互只是操作文字本身，如点击替换关键词，提示词依然以纯文本直接送入AI，并未引入Aug；有时交互在操作文本之余还引入了额外的信息，如将多个提示词片段组织成层级树，组织逻辑本身被编码进Aug，送入AI；有时交互直接携带非语言信息，如手绘素描或空间标注，被编码为像素掩码、坐标范围后，与文字共同构成复合指令；有时交互直接作用于产物而不产生Aug，如拖动滑块调整色调；还有时与产物的交互结果，比如用户框选的图像区域、高亮的代码片段，作为具体引用与文字描述共同构成Aug送入AI。正是通过Aug这一实体，IAI模型得以在同一框架下精确刻画这些差异，而不是将它们笼统归入"非文本交互"的宽泛标签。

最终，研究团队在严格的语义原则约束下保留了12条有意义的实体间关系，构建出一张既简洁、精确又富有表达力的实体-关系图，将纷繁复杂且场景多样的人机交互流程"翻译"成可比较、可分析的结构化语言。

图2： IAI 模型架构图

12种交互范式，给未来设计师的一份“设计词典”

基于IAI模型，研究团队系统梳理了66个结合了提示词与图形交互的AI工具，将每个工具的交互流程分解为一个或多个"原子范式图"，并归纳出12种具有代表性的原子交互范式 (P1-P12)，充分验证了IAI模型的精准区别不同交互方式的能力，也就是判别力（Discriminative Power）。

以生成杂志封面的任务为例，可以看到不同范式的差异变得清晰可感。在使用AI执行生成任务之前：

用户可以直接与提示词本身交互，比如图3-B所示，点击提示词中的"artistic lighting"关键词，系统会弹出候选风格列表（pastel tones、minimal black-and-white style等），用户一键切换即可完成提示词的精准微调，无需重新措辞。这对应P1（交互增强提示词）。
当用户的意图难以用语言描述时，图3-C展示了另一种思路，用户可通过手绘草图等非语言信号成为指令的一部分。这是P3（交互作为指令的组成部分）。
如果已有初步结果，图3-D则展示了更精准的操控方式：用户直接在图上框选出项链应该出现的位置，再配合文字说明，让AI严格依照这个空间引用来生成。这对应P4（引用产物作为指令的一部分），彻底消除"在哪里加"的指代歧义。

图3：六种在生成杂志封面过程中可以使用的交互方式

唤醒AI执行一次生成任务之后，交互范式更加丰富多样：

如图3-E，AI在生成图像的同时，还自动在界面上生成了"Attention"滑块和色轮控件，用户无需修改任何文字，直接拖动滑块就能调节"high fashion"等关键词的权重，或调整"artistic lighting"的色调。这是P7（生成式提示词控制组件）。
图3-F则呈现出另一种完全不同的逻辑：AI主动分析已生成的封面图，然后向用户发起一系列结构化询问，用户逐一勾选确认后，AI会将这些选择组合成结构化指令，最终生成封面文案。这是P9（产物到结构化指令）。

这些范式不仅解释了现有工具的设计差异，更为未来相关技术与服务提供了一套可复用、可组合的“设计词典”。

从分析到创造：IAI如何成为“交互创新引擎”

IAI模型的第三重价值，在于其生成力（Generative Power）。该能力不仅能分析已有范式，还能设计出全新的交互方式。比如应用IAI模型推导新场景下的交互范式，微调范式图结构，精化现有工具的交互设计，或者借助IAI模型推演全新的原子范式。

研究团队从P11范式（基于产物的提示词增强）出发，通过"反转"对话发起方，推演出一种尚未被充分探索的AI主动发起交互的新范式。想象一下，当你走进食堂，AR眼镜中的个人AI助理可基于环境感知与用户历史偏好，主动推送个性化饮食建议，并提供可调节荤素比例的结构化控件，而这整个过程都无需用户发起请求。这一应用场景，正是IAI模型从已有范式中"推导"出来的，指向了更主动、更情境感知的人机协作新方向。

图4：使用IAI模型创新交互设计范式的例子

为下一代人机协作奠定基础

从早期的“命令行”到图形界面的“直接操纵”，人机交互的演进本质上是在不断降低表达意图的门槛。生成式AI的出现带来了前所未有的能力上限，而 IAI模型则为其提供了一套更精准、更灵活的“神经接口”。

这项研究也预示着一个重要的转变，人机交互设计正在从“提示词工程（Prompt Engineering）”走向更具包容性的“指令设计（Instruction Design）”。未来，IAI模型有望成为全球AI开发者、产品经理与交互设计师的通用语言，推动构建更加透明、可控且富有创造力的人机协同范式。

Interaction-Augmented Instruction: Modeling the Synergy of Prompts and Interactions in Human-GenAI Collaboration

论文链接：
https://www.microsoft.com/en-us/research/publication/interaction-augmented-instruction-modeling-the-synergy-of-prompts-and-interactions-in-human-genai-collaboration/

*本研究由微软亚洲研究院AFMR合作项目及香港研究资助局GRF项目共同支持

#CHI #IAI #交互增强指令 #大模型 #人机交互 #GUI #HCI