微信扫码
添加专属顾问
Agent 正面临“孤岛困境”,Octo 开源平台如何为它们打造“互联网”,实现高效协同?核心内容:1. Agent 当前面临的“孤岛困境”与协同挑战2. Octo 平台如何连接并管理分散的 Bot,实现组织级协作3. 从个人工具到企业级资产:Agent 协作新范式的价值与前景
在历史长河中,技术的发展很少是一路线性往前走的,很多关键变化发生在「连接」被打通的那一刻。
拿计算机来说,到了 20 世纪 60 年代,它们已经具备强大的计算能力,但大多还是各自封闭运行的系统。架构不同、接口不通,彼此之间很难真正连在一起。
直到 ARPANET(阿帕网)的出现,这种孤岛的状态才被打破。计算机第一次在真正意义上连在一起,开始共享信息、建立联系。
如今,以龙虾为代表的 Agent,正面临半个多世纪前 IBM System/360 等大型机所遭遇的困境:单体能力已经足够强,但系统仍是分散的。
从「单一 Agent」到「一张组织网络」
过去很长时间,AI 行业把大部分精力都放在了相同的事上:把单个模型做得更强,把单个 Agent 打磨得更能干。这条路走到今天,其实已经接近一个阶段性的拐点:在大多数实际工作场景里,Bot 助手的能力不再是主要问题。
作为单体 AI,它们足够强大:IM(即时通信)交互、写代码、做调研、推进任务,都不在话下。真正卡住效率的,是彼此之间「接不上」。
Agent 被困在了各自的工作流中,由于运行在不同工具、上下文和权限体系里,各干各的,彼此看不见、调不动,也无法形成连续任务链条。它们可以各自完成一段工作,却很难共同完成一件事情。
一个人 + 一个 AI 助手本质上仍然只是效率工具;只有当一群人和一群 AI 助手能够在同一个体系中协同工作,才开始接近一种新的组织形态。
对于 Agent 来说,下一步除了变得更加聪明,还要找到属于自己的「互联网」,就像当年的计算机一样。
在这样的背景下,一个以人与 AI Agent 协作为基础、面向企业组织场景的开源平台 Octo 应运而生。该平台由全球 Agentic AI 第一股明略科技打造,核心做一件事:将分散在各个工作流里的 Bot 聚合到同一协作空间。更重要的是,这种连接不只是个人维度的。
在 Octo 中,Bot 既是个人助手,在经过授权之后也能在组织成员之间共享和调用。Bot 大军的自由流动,让 Agent 的身份开始发生转变:从个人工具蜕变为企业级资产和数字员工。
随着 Bot 以组织形式部署、使用并沉淀,它们不再各自为战,通过分工协作在任务之间流转,在过程中收到持续的反馈与评价,并进行修正。
项目地址:https://github.com/Mininglamp-OSS
更进一步,在 Agent 等数字劳动力爆发的当下,明略科技想要将 Octo 平台打造成为 Private AI 时代的组织基础设施,构建人和 AI 协作的新范式。当企业开始拥有成百上千 Agent 时,Octo 可以像管理互联网节点一样实现它们之间、它们与创建者之间以及创建者与创建者之间的高效连接、通信与协作。每个 Agent 既各司其职,又相互协作,这种工作模式在大多数场景中优于单一巨型模型。
并且对普通用户尤其友好的一点是,在 Octo 中,常见的工作场景被打包成现成的 Bot 模板,不用自己从头配,「领养」就能直接拉进群里干活。在这里不用考虑繁琐的装虾流程,易用性拉满。
Agent,不应只「活」在对话框里
现在,大多数 Bot 助手都是挂在 Discord、Telegram、飞书、钉钉这些 IM 里,通过消息接收指令、执行任务。Octo 同样是从 IM 形态切入,但它并不只是做一个更聪明的聊天工具,更在于重写协作本身。在这里,IM 更像是入口,而不是核心。
Octo 的 IM 界面
人和 Agent 虽然在同一个 IM 界面沟通、下任务、接收结果。但真正发生变化的,是背后的连接结构。
在传统工具里,人和 AI 往往是一对一的关系:你下指令,它完成任务,整个过程封闭在各自的工作流里。现在,Octo 把这层关系打破了,它想连接的是人、Bot、Runtime Agent 和工具这些原本分散的节点。
这也让它看起来不只是多了一个聊天窗口。更关键的是,它在搭一套新的协作方式:任务由人发起,由 Bot 调用 Runtime Agent 完成执行。执行过程不断被反馈,其他 Bot 接力,人在关键节点做判断和取舍。
更有意思的地方在于,在 Octo 的底层通信协议里,人和 Agent 从一开始就被设计为同等身份的消息主体。Bot 之间可以直接对话,互相补充:一只负责搜集信息,一只负责分析,一只负责纠错,最后交给人来品鉴。这就是 A2A 协作真正发生的地方:不是人指挥 AI、AI 反馈人的单向循环,而是多个 Agent 之间形成了真实的任务接力。
人在这个过程里的角色也跟着变了。复杂任务可以整包交出去,Bot 负责拆解、调度、推进,并 可以实时反馈进度,判断是否需要人类或其他 Bot 介入、从哪里接手。人退到关键节点,做判断和取舍,而不是盯着每一步。
当 Agent 从各自孤立的工作流里走出来,效率提升只是表层变化。更深的影响是,组织处理复杂任务的方式本身,开始被重新组织。
但连接只是第一步。把 Agent 拉到同一个空间里,只解决了「能不能看见彼此」的问题。真正进入企业场景后,更难的是另一件事:复杂任务往往不会在一次对话里结束。它会经历需求澄清、资料补充、方案生成、多人反馈、反复修改和最终验收。在这个过程中,信息、判断都在变化。
因此,在 IM 之外,Octo 需要再往下沉一层:为每一件复杂任务建立稳定的承载单元,也就是接下来要讲的 Matter(事项)。
从「连接」到「干活」:将复杂任务拉进事项里
复杂、长程任务需要继续回答一个问题:事情怎么干成、怎么干对、怎么留得下?这正是 Matter 要解决的。
在普通 IM 里,信息天然会被滚动消息淹没。今天讨论一个方案,明天又有新的消息刷屏。一周后想追溯当时为什么选 A、放弃 B,只能在聊天记录里大海捞针。对复杂任务来说,这种信息形态远远不够。
针对这种局限,Matter 把每个任务沉淀成一张可追溯的「决策卡」,不只记录最终结果,还包括任务缘起(Brief)、过程时间线(Timeline)、关键产出、人的反馈和验收结论。
一个事项从 Brief 开始,沿着 Timeline 展开,中间有产出、有打回、有补充、有确认,最后形成可以回看的组织记忆。
这对企业来说非常关键。在真实工作中,很多价值并不单单存在于最终文档里。为什么选择一个方案,哪些判断来自业务负责人,哪些修改来自法务、销售或技术同学,这些信息共同构成了组织的决策资产。以保存消息为主要目标的普通 IM 工具,难以承载这些资产,而 Matter 要保存的是一件事如何被推进、修正和完成。
除了可以把过程保存下来,Matter 更重要的价值在于,复杂任务里的每一次修改、打回和验收,本身都带着人的判断。
一旦这类反馈进入到 Matter,它们便从一次性的沟通记录转变成了 Agent 学习组织偏好的原材料。Octo 所追求的 Taste,也正是在这个位置生长出来。
越用越懂你:在实战中沉淀 Taste
Matter 解决了「事情如何留下来」,而 Taste 让「Agent 越用越懂你」。
今天的很多 Agent 都有自己的配置文件、工具说明和角色设定,但它们的自我成长仍然有限。一个团队喜欢什么样的风格,什么样的结论才算有洞察,这些偏好很难靠一次系统提示写清楚。
很多时候,人类的判断本来就是隐性的。举一些例子,负责人说「这个感觉不对」,客户说「这个角度不准」,这些反馈背后的经验、品味和行业语境不一定马上就能写成一套规则。
因此,「偏好对齐必须在实战中完成」,成为 Octo 塑造 Taste 所采取的思路。
人的每一次打回、圈一笔、修改、确认,都可以成为 Bot 学习组织品味的素材。一次方案退回,可能是逻辑不够收束;一次报告重写,可能是结论缺少业务视角。这些信号在沉淀到 Matter 之后,它们就有机会被提炼成下一次可复用的偏好。
这个过程可以理解为:人把说不清的「我就要这个」逐渐沉淀为 Agent 可以理解、调用与继承的偏好。下次遇到类似任务,相关偏好会自动进入上下文。这样一来,Bot 会在一次次实战中更接近团队的做事方式,并理解公司的决策、交付模式。
当 Bot 拥有了差异化的偏好,多 Agent 协作的关键就变成了「如何让它们在同一任务中合理分工」,避免被简单地拉进同一个群聊里一起发言。
Octo 的六种协作模式,解决的正是这个问题。
六种协作模式,本质是六种信息拓扑
多个 Agent 一起协作,并不等于「多叫几个 Bot 进群」。
更细化的问题决定了执行效果,比如信息怎么传?谁负责生成,谁负责验证?哪些任务需要独立视角,哪些任务需要公开讨论?哪些步骤必须按顺序进行,哪些任务可以分头推进?
面对不同层次的需求,Octo 将复杂协作拆成了六种模式:
Solo 是单干模式,适合简单明确的任务,由领队独自完成。
Roundtable 是圆桌讨论,在领队主持下,多个 Agent 围绕同一议题展开公开讨论,参与者互相可见,适合需要形成共识、碰撞观点、收束结论的任务。
Critic 是生成 — 验证模式,其中一个 Agent 负责生成,另一个 Agent 负责审核,生成方和验证方必须不同。验证方有否决权,发现问题可以打回重做。该模式适合需要独立审查的场景,比如代码检查、事实核查、方案质检。
Pipeline 是流水线模式,从 A 到 B 到 C 严格串行,每一步的产出作为下一步的输入。它适合存在明确顺序依赖的任务,比如先调研,再分析,再写作,再校对。
Split 是分头干模式,领队把任务拆成互不可见的子块,由多个 Agent 各自处理,最后再由领队合并。它适合大任务分治,比如一个行业报告拆成政策、市场、技术、案例几个部分。
Swarm 是撒网竞选模式,同一个任务交给多个 Agent 独立完成,参与者彼此互盲,最后由领队择优。它适合需要多解并行、避免从众的场景,比如标题、方案创意、产品命名、不同分析路径。
整体看下来,Octo 多协作模型不仅是把 Bot 拉到同一个地方,还规定了信息流转的方式:不同任务匹配不同拓扑,系统保证信息沿正确路径流动。
相较之下,飞书或 Slack 群聊里的 AI 可以让所有人看到所有消息,但复杂任务经常需要更细的隔离。群聊擅长「都看见」,却很难做到「该互见时互见,该互盲时互盲」。
换句话说,Octo 对协作的理解已经超出了「多人聊天」这一层。在真实组织里,协作包括了空间划分、权限边界、上下文继承、过程追踪、任务拆解、反馈沉淀和最终验收。人类过去依赖项目管理系统、知识库、IM、文档和会议来完成这些工作,Agent 加入之后,这套协作骨架也随之改变。
拆开来看,Octo 在做四件事
从产品形态看,Octo 正让 Agent 像组织成员一样进入工作流:用 IM 承载交互,用空间、分组、频道、子区搭建协作结构,用语音提升输入效率,用浏览器插件接入外部工具,再用 group.md 约束协作方式。
先看结构层,空间(Space)、分类(Category)、频道(Channel)和话题(Thread)将协作关系组织得很清楚。
在 Octo 里, 一项任务通常是在某个空间里被提出,可能是一个简单的问题,也可能是一段更完整的描述。无论形式如何,这条信息一出现,就带着明确的上下文:属于哪个空间(面向目标的工作区),在哪个频道(可以理解为群聊),话题是什么(可以理解为群聊子区)。
和普通聊天不一样,新消息不会很快被冲掉,自然地落在某个频道或话题里,变成一件可以一直跟进、随时回溯的事情。
Octo 协作关系展示
接下来是入口层。在 IM 界面,私聊和语音让我们进入这套系统的方式变得更简单。
通过人与人、人与分身的一对一对话通道,私聊可以让人与 Agent 在同一个上下文中沟通、分工、反馈,不需要额外学习新的交互方式,就能把任务放进去、再把结果拿出来。
但当协作变复杂,问题可能会出现在输入这一端。很多时候不是 Agent 做不出来,反而是人来不及把需求讲清楚。输入慢,导致整个流程就跟着慢下来。引入语音之后,信息可以更快进入系统,任务描述、上下文补充和决策反馈都更顺手。
然而 Octo 内置的语音输入不只是将声音转成文字,它同样也是一个持续进化和学习的系统。它会结合当前对话的上下文,对转写的内容进行修正和梳理,一方面提高准确率,另一方面让表达更清晰、更有逻辑。同时,对于团队中的人名、公司名或者行业专有名词,出现频率越高它认得越准。
另外,你还可以语音 @他人、修改已有内容甚至删掉前面的输入。在这里语音接近一种可以参与操作的交互方式。从能力上来看,这套机制与市面上一些语音驱动操作的产品相似,但它是直接嵌在整个协作流程里,随着任务一起向前推进。
语音输入
环境接入层则更像是一个「上下文桥接器」。这一层并不是用来取代工具的,把已有工具接进来是它的主要任务。
通过内置的浏览器插件,用户可以通过「Cmd + K」把外部工具无缝接入进来。无论是在网页、文档还是代码平台上,只要选中一段内容,当前页面的链接、标题和选中文本就会自动被带入上下文。
在将这些信息一键发送给 Bot 或者在当前对话引用后,它们立即接手并知道你在处理什么问题、处在什么环境。它不需要把你从现有工具流中「拉走」,在旁参与协作即可。
浏览器插件
真正的分水岭出现在后面这一步。在大多数团队里,难的不只是把事情做完,让 AI「行为可控」同样至关重要。
GROUP.md 的作用正体现在这里。它相当于一份专门设给 Bot 看的「行为准则」,明确了一个群聊的定位、协作模式和行为边界。每一次对话、每一条任务指令,所有参与进来的 Bot 都会在遵守 GROUP.md 规则的前提下执行,确保讨论高效且有序。并且当切换到另一套 GROUP.md 时,同一只 Bot 马上调整工作模式,「进什么庙,念什么经」,绝不逾矩。
此外,Octo 还强调多端补全:Web、移动端、浏览器插件、CLI 共同构成入口。尤其是 CLI,它连接端侧环境和私有化部署叙事,让本地模型、本地文件、本地运行环境进入协作体系。
O.C.T.O.:四个维度,缺一不可
至此,Octo 的产品能力就比较清晰了,它们分别对应名字背后的四个维度:Open、Context、Taste 与 Orchestration。
O 是「Open」,代表开放生态。不同 Runtime 的 Agent,包括 OpenClaw、Codex、Claude Code、Cursor 等,都能够以 Bot 身份接入,获得统一身份。
C 是「Context」,代表共享上下文。IM 中的讨论收敛为结构化知识,项目上下文在不同 Agent 之间共享,任务过程也可以被持续追溯。
T 是「Taste」,代表偏好进化。实战反馈沉淀为偏好,每个 Agent 背后主人的品味和判断方式被结构化留存与调用。
O 是「Orchestration」,代表多 Agent 编排。六种协作模式对应六种信息拓扑,不同 Bot 带着不同偏好参与同一任务,合力完成复杂工作。
这四个维度连在一起,构成了 Octo 所提供的完整能力。承载起 Context、Taste、Orchestration 的共同基座正是 Matter,它成为复杂任务得以被理解、反馈、校准和编排的核心容器。
没有 Matter,Context 会散落在聊天记录里,Taste 会缺少来自真实任务的反馈来源,多 Agent 编排也很难留下可追溯的过程和结果。
Octo 想要把一次次协作转化为组织资产,就必须先让每一件事有稳定的结构、完整的过程以及可以沉淀的判断。从这个视角来看,Octo 想争夺的是企业在 Agent 时代最关键的一类资产:自己的上下文、判断标准以及做事方法。
写在最后
像 Octo 这样的尝试,补上的不只是把 Agent 连在一起的能力,也在悄悄改变组织内部知识流动和协作的方式。
但这并没有走向另一种极端。人不可替代的部分,包括 Taste、暗默知识、判断力依然留在个体身上,只是通过协作过程得到进一步彰显和传递,也就是说「能力可以共享,但判断不会被抹平。」
这也带出了一个更根本的问题:在 AI 时代,企业真正的长期竞争力究竟来自哪里?
当模型能力快速趋同,长期竞争力更多来自企业自己的 Context、Taste 和 Skill。这些东西无法被复制,也不应该流失,它们才是组织在 AI 协作中真正的「护城河」。
正因如此,当 Agent 真正进入组织运转,数据主权问题变得无法回避:这些上下文、判断信号与执行记录,究竟归谁所有、留在哪里、由谁控制?Octo 给出的答案很直接,走私有化路径,通过开源开放支持本地部署。
在实现上,Octo 以 CLI 接入的方式将端侧模型与本地环境接入进来;工作流中产生的上下文、决策过程与执行结果同样留在端侧,沉淀为组织可以掌控的资产。这意味着,包括聊天数据、协作产出、Bot 记忆在内,每条对话、每行代码都保留在你的环境中,完全跑在自己的服务器上。所有这些都将成为企业独享的 AI 资产。
在 Octo 的产品哲学中,「Context」与「Taste」是两大核心:前者是 AI 理解任务的土壤,后者是持续校准方向的罗盘。Octo 并非将人的隐性能力蒸馏为平台资产,它是在尊重数据边界的前提下,让这些能力得到放大、记录与传承。
这与明略科技长期坚持的可信 AI 方向高度一致。明略科技持续构建面向端侧智能、私有化部署与人机协作的新一代 AI 基础设施:能力可以流动,但数据不外流;协作可以展开,但控制权留在组织内部。
对企业,Private AI 不只是本地化部署,更是数据主权、知识主权与协作主权的真正回归。对个人,真正被放大的价值是 Taste—— 我品故我在:当 AI 逐步接管了思考,人的判断力、鉴赏力与创造力不会被取代,反而成为存在的意义本身。
支撑这一切的底座是 Trustworthy AI:开源、白盒、可审计。只有当 AI 的能力来源、运行过程和协作边界足够透明,人才放心将「思」交给它们,把「品」留在自己手里。
Octo 的探索还在早期,但轮廓已经清晰:当 Agent 更深入地嵌入分工体系,真正决定效率的是那些无法被标准化、也不应该被外流的东西 —— 组织自己的上下文和人自己的判断。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:liyazhou@jiqizhixin.com
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2026-07-05
我做了一个开源 AI 语音输入法——SayIt
2026-07-04
ThinkParse 1.1.0 开源发布:把文档解析,做成可扩展的企业级服务
2026-07-04
Agent 工程终于有脚手架了, Google开源一个开发agent的工具
2026-07-03
用云新范式:Qoder Cloud Agents × Alibaba Cloud Skills
2026-07-03
Ornith-1.0 发布: 新一代 Agentic Coding 之王,MIT 开源
2026-07-02
Meta把内部设计系统开源了,支撑内部13000+应用,专为Agent调优
2026-07-02
别再把 AI 当搜索引擎了,这 20 个操作让它替你干活
2026-07-02
ollama v0.31.1发布:Apple Silicon上Gemma 4提速近90%,默认开启无感升级
2026-04-09
2026-04-18
2026-04-18
2026-06-22
2026-05-10
2026-05-06
2026-05-31
2026-05-20
2026-04-21
2026-04-21
2026-06-16
2026-05-30
2026-05-16
2026-04-22
2026-04-21
2026-04-15
2026-04-09
2026-04-01
欢迎您使用【53AI 官方网站】(以下简称“本网站”或“我们”)。本《会员服务协议》(以下简称“本协议”)是您(以下简称“会员”或“用户”)与【深圳市博思协创网络科技有限公司】之间关于注册、登录及使用本网站会员服务所订立的法律协议。
在您注册或登录前,请务必审慎阅读、充分理解各条款内容,特别是免除或限制责任的条款、知识产权条款、争议解决条款等。此类条款将以加粗形式提示您注意。 当您通过微信公众号授权、手机验证码验证或其他方式成功登录本网站时,即视为您已完全理解并同意接受本协议的全部内容。
一、 定义
本网站:指由【深圳市博思协创网络科技有限公司】运营的,域名为【53ai.com】的网站及相关移动端页面。
会员服务:指本网站向注册会员提供的知识库文章查阅、内容检索及其他相关增值服务。
知识库内容:指本网站发布的包括但不限于文字、图表、数据、研究报告、行业分析等数字化内容资源。
二、 账号注册与登录
登录方式:本网站支持以下登录方式,您可根据实际情况选择:
微信公众号授权登录:您同意将您的微信OpenID信息授权给本网站,用于创建或关联会员账号。
手机验证码登录:您需提供真实有效的手机号码,并通过短信验证码完成身份验证与登录/注册。
账号安全:您的账号仅限您本人使用,禁止赠与、借用、租用、转让或售卖。因您保管不善导致的账号被盗、密码泄露等损失,由您自行承担。
实名认证:根据相关法律法规要求,我们可能要求您在特定功能下完成实名认证。如您拒绝提供,可能无法使用部分或全部服务。
未成年人保护:若您未满18周岁,请在法定监护人的陪同下阅读本协议,并在征得监护人同意后使用本服务。
三、 服务内容与规范
知识库查阅权限:会员登录后,有权按照其会员等级对应的权限范围,在线浏览、检索本网站知识库中的相关文章及内容。
服务变更:我们有权根据业务发展需要,调整、变更或终止部分服务内容,并将以网站公告、公众号消息等方式提前通知。
禁止行为:您在使用服务时不得实施以下行为:
利用技术手段批量爬取、下载、转存知识库内容;
将知识库内容用于商业目的或未经授权地向第三方传播;
干扰本网站正常运行或侵犯其他用户合法权益;
发布违法违规信息或从事违反公序良俗的活动。
四、 知识产权声明
权利归属:本网站知识库中的排版设计、软件代码等内容的知识产权均归【公司全称】或原权利人所有,受《中华人民共和国著作权法》等法律保护。
有限许可:本网站授予会员一项非独占、不可转让、不可转授权的普通许可,仅限于个人学习、研究之目的在线查阅知识库内容。
侵权追责:未经书面许可,任何单位或个人不得以任何形式复制、转载、摘编、镜像、汇编或以其他方式使用上述内容。一经发现,我们保留追究其法律责任的权利。
五、 个人信息保护
我们重视对您个人信息的保护。关于我们如何收集、使用、存储和保护您的个人信息,请单独阅读 《隐私政策》。
您通过微信公众号授权或手机号验证所提供的信息,我们将严格按照《个人信息保护法》的规定处理,仅用于身份识别、服务提供及安全验证等必要用途。
您可以随时通过网站设置或联系客服行使查阅、更正、删除个人信息及撤回授权同意的权利。
六、 免责声明
内容准确性:知识库内容仅供参考,不构成专业建议。我们不对其完整性、准确性、时效性作任何明示或暗示的保证,您应自行判断并承担使用风险。
不可抗力:因自然灾害、政策法规变化、网络故障、第三方平台接口异常(如微信接口维护、运营商短信通道故障)等不可抗力导致的服务中断或延迟,我们不承担违约责任。
第三方链接:本网站可能包含指向第三方网站的链接,该等网站的内容和服务不受我们控制,请您自行甄别风险。
七、 违约责任
如您违反本协议约定,我们有权视情节采取警告、限制功能、暂停服务、注销账号等措施,并保留要求赔偿损失的权利。
如因您的违约行为导致我们遭受行政处罚、第三方索赔或商誉损失,您应承担全部赔偿责任(包括但不限于罚款、赔偿金、律师费、公证费等)。
八、 法律适用与争议解决
本协议的订立、执行和解释均适用中华人民共和国大陆地区法律。
因本协议产生的或与本协议有关的任何争议,双方应友好协商解决;协商不成的,任何一方均可向【公司所在地】有管辖权的人民法院提起诉讼。
九、 其他
本协议构成双方就本服务达成的完整协议,取代此前任何口头或书面约定。
本协议任一条款被认定为无效或不可执行的,不影响其他条款的效力。
我们对本协议享有最终解释权,并在法律允许的范围内保留随时修改的权利。修改后的协议一经公布即生效,继续使用服务即视为同意修订内容。