我要投稿

如何构建“agent;类人的认知模型？

发布日期：2024-06-24 04:44:31 浏览次数： 2274

作者：北冥星眸

微信搜一搜，关注“北冥星眸”

深度agent解析

< 第三篇 >

Creating a new species of intelligence is the greatest mission of our generation

（上期回顾）

这篇文章是“深度agent解析”系列的第三篇。我们探讨如何通过“感知流”结构再现人类认知思维的一般模式。

传统的RAG通过向量化外界知识库创造检索，在对话中通过向量检索创造联想，把相关应该要联想到的知识文本嵌入对话生成的GPTapi中，从而让相关知识影响表达生成。但这种方式做知识问答尚可，如果要让GPT深度使用知识就很困难。

有了感知流之后我们有一种新的选择。我们可以先对原始知识进行知识抽取，对抽取后的知识分类存储。然后感知流中的不同角色在运作时，联想这些抽取后的知识。比如认知相关的三个角色，求解者、推知者的运作会受到因果知识的影响，而好奇者的运作会受到关注维度的影响。

这样，相比于传统RAG模式——知识直接嵌入对话生成GPTapi，在“感知流模式下”知识先通过影响思绪流中的认知相关角色，影响了认知过程，改变了长期存储中的认知结论的存储，然后把认知结论信息向量化在对话中创造联想，嵌入对话生成GPTapi发挥作用。这是人类使用知识的方式：通过知识影响认知思维，从而影响对话。借助感知流我们能超越传统RAG对知识的浅层使用，实现类人的对知识的深度应用。

#01

·· 认知相关三角色··

有3类角色是和人类认知能力的形成高度相关

···

好奇者

解答者

推知者

第一类是回应感知流中“陈述信息”进行好奇提问的“好奇者”。我们可以反思当一个陈述信息出现在我们的感知流中，我们经常会抛出一个相关问题。比如：听到“mike眼睛都是红血丝”，我们可能在脑中发问“为什么mike眼睛都是红血丝”；听到“mike昨晚熬夜”，又会好奇“mike为什么昨晚熬夜”，“mike经常熬夜吗？”这个提问过程像是随机游走，每次提出一个问题获得回答，又会以回答为起点展开新的好奇提问。

第二类是回应感知流中“问题”进行求解“解答者”。人类在求解一个问题时会自然从长期记忆中联想求解所需的背景信息。这个过程对于人很多时候是一瞬间完成的，不容易被反思到，但却是存在的。关键背景信息的缺失时，思维会向感知流抛出一个新的问题。新问题又可能因为关键背景信息缺失抛出另外一个问题……从而形成一个递归的过程。

第三类是回应感知流中“陈述信息”推知意味着什么的“推知者”。这个推知者会利用因果类型的知识，根据原始信息的信念和因果知识的充分性，推知的信息也会有信念。这些被推知的信息我们称为印象，有些印象信念很低，需要重复的印象冲击积累信念。信念突破阈值的印象会形成猜想。当一个猜想有很高的关注，AI想知道这个猜想是否真实，就会形成一个问题。这又会被第二类角色“解答者”捕获。

#02

·· 统计正确性&印象冲击 ··

···

统计正确性说的是：即使样本中绝大部分比例是无效或是错误的，但只要无效或错误的样本分布偏随机，正确的样本分布偏集中，那么正确的样本就能在频次强度上凸显出来，此时样本在统计上是反应真实情况的。因为统计正确比样本正确宽松很多，能利用统计正确原理获得有效信息的系统容错能力强。

印象冲击正是建立在“统计正确性”上发挥作用——推知者推知的每个印象都有可能是错的，但只要错误印象的分布偏随机，那么正确印象就能凸显出来，变成猜想。

植物性认知的印象冲击模型中，生成的印象是带有信念的，根据因果类知识的充分性不同，原始信息的信念不同，推知信息的信念也不同（这些复杂的运算在MTSagent中我们完全交付给GPT完成），在信念突破阈值时，变为猜想。为什么信念运算是必要的？因为会存在很多单次的推知非常微弱，需要积累才能变为一个较为可靠的猜想（此时才写入感知流被意识到），比如每句对话都可能形成对对方性格的推知，但作用都很微弱；而部分推知一次就能得到合理的猜想，如果一个人喉咙痛，在一般情况下就可以合理地猜想对方是否感冒了。为了计算累积多少的印象能形成猜想，我们需要信念。

推知者会推知信息，同样的信息在一段时间内被重复推知，印象会不断累计，突破阈值会变成猜想。那么这里一段时间的标准是怎样的呢？比如推知人的性格时效性就很长，因为性格在很长的时间不怎么发生改变。而一个人感冒的印象时效性就很短，一个月前留下的“某人感冒”的印象，留存到当前进行印象冲击没有太大的意义。

这里处理这个印象时效性的机制大概如此，在生成印象时会需要让GPTapi同时输出这个印象的时效，然后按照这个时间让印象的信念进行衰减。时效越长信念衰减越慢，时效越短衰减越快。比如感冒的印象衰减就很快，可能几天就衰减没有了；性格的印象几年都不会衰减完。所以一个印象只要在一段时间内信念累加超过阈值变成一个显著猜想，就可以变为一个带时间的具体事件长期记忆被存储。

#03

·· 私有知识干预认知过程··

···

认知的过程和知识高度关联。知识中描述着事件、对象的关注度会参与到关注度的标注中；事件类的关注度参与到“好奇者”好奇心的生成中。因果类型的知识会参与到“推知者”的印象生成，形成猜想；也会参与到“解答者”背景信息需求的生成中，也决定了“解答者”问题的分解。

在深度进入情境的咨询中，比如心理咨询、企业咨询可以想象如果知识不同，那么关注点会不同，产生的好奇会不同，形成的猜想，得到结论，以及建议都会不同。如果我们能让私有知识发挥作用，我们就可以进行思想复刻，我们就能让不同的专家在咨询中体现出自己坚守的流派的风格。

Agent可以拥有私有化的、以向量形态存在的知识存储，这类知识和GPT内蕴的知识不同，能被更加可控和深度的使用。工程实操上，通过在认知相关的GPTapi中（可以视为是思维执行）嵌入知识联想，再要求GPT参考联想到的知识完成执行，那么就可以让私有化的知识在这些执行中发挥作用。这些思维执行包括了关注度标注、好奇者角色api（生成好奇），推知者角色api（生成印象）、解答者角色api（生成答案或分解问题）

#04

·· 认知深度和认知耗散模型··

···

我们看到在我们所构建的类人认知模型中，原始问题会不断分解。问题有的重要有的不重要，agent如何控制一个原始求解对运算资源的消耗呢。

原始问题写入感知流后，会被求解者捕获。求解者为了求解问题会形成对背景信息的搜索语句。获得背景需求问题后，系统优先在q-a数据库（视角记忆）中进行搜索，因为回溯求解时，之前搜不到的背景提示问题，可能因为前面的分解求解行为，已经能够搜到了。其次选择从客观记忆中进行搜索，再其次抛出一个问题到感知流中进行求解。求解到怎样的深度，取决于原始问题的求解动机和背景信息重要度（0-1）的乘积。能触发到哪一步求解取决于每一步分解剩余的求解动机（原始问题的求解动机和关注度有关）。这个是MTS工厂模型中“求解耗散模型”的重现。当然耗散模型还内蕴了一个选择机制“二级存储”：对于存储的信息根据关注度划分了优先求解的区域和普通区域。求解能量较低时只在激活的高关注记忆区中进行求解。

#05

·· 发散提问和收敛提问的配合 ··

···

类似随机游走的发散提问（来自“好奇者”）和提问总是贡献于原始问题的收敛提问（第来自“解答者”）是两个对立的过程，但是在认知过程中它们又是相互配合的。对于一个原始问题，最高效的求解方式一定是收敛提问，但如果收敛提问受挫。好奇者角色就会被激活，在相关范围内进行广泛的好奇提问，解答者获取提问进行尝试解答（过程中有可能继续分解问题）。无论如何都会在相关范围内形成非针对性的，但是广泛的认知信息。

因为“解答者”是否能成功求解和相关背景信息的质量有关，而需要知晓什么背景信息也和相关背景信息的质量有关（背景信息搜索语句生成api工作记忆的一部分也来自背景信息）。由此我们可以看到这种在原始问题相关范围内广泛好奇提问的意义。很多原始问题“求解者”在一开始通过收敛提问未必能获得高质量答案，但是经过“好奇者”广泛提问后，求解的质量就能获得显著提升。这背后蕴含了造物主很美妙的设计，这点就是本书重点要讨论并希望在工程上实现的“不严格认知能力”。

#06

·· 深度进入情境的咨询 ··

···

类似心理咨询、企业咨询、司法咨询我们称为“深度进入用户情境的连续咨询”。“深度进入用户情境”是相对于向搜索引擎的咨询，是在知识层面的，向人类专家的咨询则是进入“用户处境”的；“连续”是指心理、身体状况、案件进展会随时间变化，用户不希望每次情况发生进展时需要把之前的情况和AI重复讲一遍，要其像人类专家那样有长期记忆，记住之前情形的演变过程。

“深度进入用户情境”是认知相关三角色支持的，“连续”则是被长期记忆支持的。我们来看一下深度进入情境咨询的反应模式。

首先会有诱导性提问。比如在心理咨询中会说“谈谈你的小时候”，在企业咨询中会说“讲讲你们公司的盈利模式”等。诱导性提问属于好奇提问的范畴，在早期偏宽泛，之后在有具体情境信息后会变得具体，它贯穿整个咨询过程，是由“好奇者”角色驱动的。

对话者不一定完全针对问题回答，对话者也有可能自主陈述。表达中的陈述信息会被“推知者”摄取，输出陈述信息意味的信息，形成印象，比如这个人可能属于什么人格，可能拥有某种防御倾向；重复被冲击的印象，在信念超过阈值时变为猜想写入感知流，比如“对话者似乎有讨好型人格”；关注高的重要猜想，会形成问题——“猜想是否是真的”，比如“对话者是否是讨好型人格”，从而被解答者角色摄取；解答者又可能在背景信息缺失时创造新的问题，比如在这个例子中会根据“讨好者人格”的儿时经历（该人格的诱因），或是讨好者人格的其他表现，寻找相关背景信息，如果背景信息缺失，新的问题就会在感知流中产生，部分可以向对话者询问的问题就会形成对话中的提问；无法询问的问题写入感知流，划归到初始状态被求解，有可能被进一步分解。

这个过程会不断在长期记忆中累积用户情境相关的认知信息团，比如在心理咨询中，会形成来访者的人格、防御倾向、什么样的儿时经历导致这样的人格，当前的处境，当前的风险，和如何改善当前的情况等等。当这个信息团变得越来越完备，AI的对话输出就更多转向认知结论的陈述，表象的归因，背后机理的描述，以及建议等等，而这些表达目标会从长期记忆中联想前面认知过程形成的“认知相关信息团”中的信息。

#07

·· 不严格认知特性 ··

···

人类的自由探索没有流程化的思维过程。过程中思维会有无效的杂质，会有错误的结论，但这不影响人类在持续研究一个问题时能最终获得有效结论。这个能力我们称为不严格认知能力。不严格认知能力是造物主赋予人的一个非常伟大的能力。让人类能慢慢腐蚀掉一个认知目标。

在原始问题的求解中，假设我们让agent思考如何治愈肝癌，agent会因为背景信息缺失不断分解问题，形成了一个认知相关的信息团：这个信息团中有很多分解出的长在“分解树”上的问题（q），也有过程中尝试求解获得答案（a），也有由推知者产生的推知（a-a）。

因为这个信息团中每个q再次求解背景信息大概率会落在信息团内，而求解的输出又在改变这个信息团，这构成了一个反馈环。如果求解质量和记忆整理的质量能概率上让这个认知相关信息团变优，那么投入更多的算力——不断重算信息团中的q，就是有意义的，能让求解不断逼近正确的答案。

不严格认知是一个意义非凡的特性。如果认知过程统计优化无法达成，那么重复求解意义是不大的，只会让存储中的“认知相关信息团”越来越乱。如果能够达成，我们可以通过让AI对一个认知目标怀有更高更持续的动机，让AI投入更多的运算资源，而这种投入是有助于更好地求解目标获得答案的。

▼

-END-

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业