微信扫码
添加专属顾问
我要投稿
让生成式AI真正理解你的意图!微软亚洲研究院等团队提出革命性IAI模型,解决人机交互核心痛点。核心内容: 1. 当前生成式AI交互存在的普遍瓶颈:文字提示的模糊性与GUI界面的局限性 2. IAI模型六大核心实体解析:引入"增强指令"实现人机意图精准传递 3. 12种实体关系框架:系统化解决从文本提示到GUI操作的全谱系交互难题
(本文阅读时间:10分钟)
随着生成式AI逐步走入设计、数据分析和程序开发等工作流程,甚至点餐、购物等生活场景,人们开始频繁与AI“对话”。然而,设计师反复修改提示词却始终难以贴近心中的画面;数据分析师难以用文字精确指代图表局部;程序员也很难仅凭文字就让AI准确理解特定的代码结构——“说不清楚”,正成为生成式AI时代普遍存在的交互瓶颈。
文字提示灵活却天然模糊,GUI界面交互精准却表达受限,两者之间始终缺少一座连接用户意图与AI理解的桥梁。
为系统性破解这一难题,来自微软亚洲研究院、香港科技大学和佛罗里达州立大学的研究团队,在人机交互领域顶级会议ACM CHI 2026上提出了交互增强指令(Interaction-Augmented Instruction,IAI)模型,并荣获CHI 2026最佳论文荣誉提名奖(Best Paper Honorable Mention)。该工作尝试从根本上回答一个关键问题:如何让人类的意图,被AI更准确地理解与执行?
点击文末相关链接,了解更多技术详情。
图1:IAI模型研究概览
IAI模型首先解决的是“如何描述人与AI的交流”,也就是描述力(Descriptive Power)。研究团队从两条最基本的人机交互路径出发——"提示词驱动生成"与"GUI直接操作产物",提炼出六个不可或缺的核心实体:人类(Human, H)、交互(Interaction, I)、文字提示(Text Prompt, T)、增强指令(Interaction-Augmented Instruction, Aug)、生成式AI(GenAI, G)、产物(Artifact, A)。
其中最关键的创新,是引入了"增强指令(Aug)"这一独立实体,代表超越文本之外的指令信息。将Aug作为AI的显式输入,让研究者与设计者能够清晰地比较不同工具在"如何把人的意图翻译成AI能理解的信息"这一核心问题上的本质差异。
现实中,交互对指令的贡献方式千差万别:有时交互只是操作文字本身,如点击替换关键词,提示词依然以纯文本直接送入AI,并未引入Aug;有时交互在操作文本之余还引入了额外的信息,如将多个提示词片段组织成层级树,组织逻辑本身被编码进Aug,送入AI;有时交互直接携带非语言信息,如手绘素描或空间标注,被编码为像素掩码、坐标范围后,与文字共同构成复合指令;有时交互直接作用于产物而不产生Aug,如拖动滑块调整色调;还有时与产物的交互结果,比如用户框选的图像区域、高亮的代码片段,作为具体引用与文字描述共同构成Aug送入AI。正是通过Aug这一实体,IAI模型得以在同一框架下精确刻画这些差异,而不是将它们笼统归入"非文本交互"的宽泛标签。
最终,研究团队在严格的语义原则约束下保留了12条有意义的实体间关系,构建出一张既简洁、精确又富有表达力的实体-关系图,将纷繁复杂且场景多样的人机交互流程"翻译"成可比较、可分析的结构化语言。
图2: IAI 模型架构图
基于IAI模型,研究团队系统梳理了66个结合了提示词与图形交互的AI工具,将每个工具的交互流程分解为一个或多个"原子范式图",并归纳出12种具有代表性的原子交互范式 (P1-P12),充分验证了IAI模型的精准区别不同交互方式的能力,也就是判别力(Discriminative Power)。
以生成杂志封面的任务为例,可以看到不同范式的差异变得清晰可感。在使用AI执行生成任务之前:
用户可以直接与提示词本身交互,比如图3-B所示,点击提示词中的"artistic lighting"关键词,系统会弹出候选风格列表(pastel tones、minimal black-and-white style等),用户一键切换即可完成提示词的精准微调,无需重新措辞。这对应P1(交互增强提示词)。
当用户的意图难以用语言描述时,图3-C展示了另一种思路,用户可通过手绘草图等非语言信号成为指令的一部分。这是P3(交互作为指令的组成部分)。
如果已有初步结果,图3-D则展示了更精准的操控方式:用户直接在图上框选出项链应该出现的位置,再配合文字说明,让AI严格依照这个空间引用来生成。这对应P4(引用产物作为指令的一部分),彻底消除"在哪里加"的指代歧义。
图3: 六种在生成杂志封面过程中可以使用的交互方式
唤醒AI执行一次生成任务之后,交互范式更加丰富多样:
如图3-E,AI在生成图像的同时,还自动在界面上生成了"Attention"滑块和色轮控件,用户无需修改任何文字,直接拖动滑块就能调节"high fashion"等关键词的权重,或调整"artistic lighting"的色调。这是P7(生成式提示词控制组件)。
图3-F则呈现出另一种完全不同的逻辑:AI主动分析已生成的封面图,然后向用户发起一系列结构化询问,用户逐一勾选确认后,AI会将这些选择组合成结构化指令,最终生成封面文案。这是P9(产物到结构化指令)。
这些范式不仅解释了现有工具的设计差异,更为未来相关技术与服务提供了一套可复用、可组合的“设计词典”。
IAI模型的第三重价值,在于其生成力(Generative Power)。该能力不仅能分析已有范式,还能设计出全新的交互方式。比如应用IAI模型推导新场景下的交互范式,微调范式图结构,精化现有工具的交互设计,或者借助IAI模型推演全新的原子范式。
研究团队从P11范式(基于产物的提示词增强)出发,通过"反转"对话发起方,推演出一种尚未被充分探索的AI主动发起交互的新范式。想象一下,当你走进食堂,AR眼镜中的个人AI助理可基于环境感知与用户历史偏好,主动推送个性化饮食建议,并提供可调节荤素比例的结构化控件,而这整个过程都无需用户发起请求。这一应用场景,正是IAI模型从已有范式中"推导"出来的,指向了更主动、更情境感知的人机协作新方向。
图4: 使用IAI模型创新交互设计范式的例子
从早期的“命令行”到图形界面的“直接操纵”,人机交互的演进本质上是在不断降低表达意图的门槛。生成式AI的出现带来了前所未有的能力上限,而 IAI模型则为其提供了一套更精准、更灵活的“神经接口”。
这项研究也预示着一个重要的转变,人机交互设计正在从“提示词工程(Prompt Engineering)”走向更具包容性的“指令设计(Instruction Design)”。 未来,IAI模型有望成为全球AI开发者、产品经理与交互设计师的通用语言,推动构建更加透明、可控且富有创造力的人机协同范式。
Interaction-Augmented Instruction: Modeling the Synergy of Prompts and Interactions in Human-GenAI Collaboration
论文链接:
https://www.microsoft.com/en-us/research/publication/interaction-augmented-instruction-modeling-the-synergy-of-prompts-and-interactions-in-human-genai-collaboration/
*本研究由微软亚洲研究院AFMR合作项目及香港研究资助局GRF项目共同支持
#CHI #IAI #交互增强指令 #大模型 #人机交互 #GUI #HCI
你也许还想看:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-04-07
不再触发Claude使用限制,大幅降低Token的10个有效习惯!
2026-03-31
Harness 不是加一行规则那么简单——我从三家顶级公司学到了什么
2026-03-27
别再死磕 PMF 了!AgaaS 时代,中国 To B 创业者的最后一张船票
2026-03-26
7 个 Karpathy 式提示词,让 Claude 变成你的研究员、工程师和思考搭档
2026-03-26
Claude Code终极指令速查表
2026-03-22
SooKool AI 入门系列之 “上下文”
2026-03-18
别再裸用 Claude Code,这 20 个隐藏命令,太爽了
2026-03-16
TRAE 技术专家推荐:6个技巧让你的 Agent 更听话
2026-01-13
2026-02-26
2026-01-29
2026-01-18
2026-01-30
2026-01-17
2026-01-10
2026-02-24
2026-02-04
2026-01-18
2026-02-28
2026-02-12
2026-02-12
2026-02-08
2026-02-05
2026-02-05
2026-01-23
2026-01-21