微信扫码
添加专属顾问
我要投稿
Pokee AI突破传统参数堆叠思路,用7B模型打造研究智能体,在推理稳定性和事实可靠性上实现创新突破。核心内容: 1. RLAIF+RLOO强化学习框架实现无人工标注优化 2. 研究-验证双模式循环提升推理稳健性 3. 10项权威基准测试中7B量级最佳表现
锦秋基金已完成 Pokee AI 的投资。
锦秋基金,作为 12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商业模式的通用人工智能初创企业。
在大模型纷纷卷规模的当下,锦秋基金被投企业——Pokee AI选择了一条不同的路——推出研究智能体PokeeResearch,让 AI 学会如何像研究员一样思考与验证。
他们最新发布的一款面向“深度研究”场景的 7B 参数智能体,采用“来自 AI 的反馈强化学习”(RLAIF)与链式思维的多轮自校验推理脚手架,聚焦解决浅层检索、对齐度量薄弱、工具使用脆弱三大痛点。
这是一款专为“深度研究”场景打造的智能体模型,不靠更大的参数堆叠,而是在“推理稳定性”和“事实可靠性”上实现了新的突破。
根据团队实验,PokeeResearch 在 10 项深度研究/开放域问答基准上取得同规模(7B)最佳平均表现。
➡️ 项目已在 GitHub 以 Apache 2.0 协议开源推理与模型代码
➡️ https://github.com/Pokee-AI/PokeeResearchOSS
训练范式
基于 RLAIF + RLOO 的统一强化学习框架,不依赖人工标注,直接围绕事实正确性、引文忠实度、指令遵循等“人类在意指标”优化策略。
推理稳健性
引入“研究—验证”双模式循环与多调用自纠错**机制,遇到工具失败可诊断和恢复,并对候选答案进行自我核验以过滤显性错误。
7B模型量级中表现最佳
在 HLE、GAIA、BrowseComp 及 NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA 共10项权威基准上,均取得 7B 量级同类最优平均成绩(mean@4)。
开源与复现:
MIT 许可开源,提供可复现实验设置与推断代码,便于社区复评与落地集成。
RLAIF 奖励设计
以外部 LLM 作为“客观评审”,对生成答案的语义正确性进行判定,避免 F1/EM 等纯词汇重合指标的偏差;训练中采用 RLOO 获得更稳健、近乎无偏的策略梯度估计。
研究—验证循环
研究模式中执行“分解问题—检索—阅读—综合”,并允许多次工具调用与自我修正;验证模式对答案做一致性与可用性检查,不通过则回到研究模式继续迭代。
工具链
面向互联网检索与网页内容提要的标准化工具接口,服务于证据收集—证据综合—结论生成的闭环。
信息寻址/网页浏览能力:
HLE、GAIA、BrowseComp 取得 7B 规模最优均值表现。
开放域/多跳问答:
在 NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA 等基准上,均录得同尺度最佳。
注:完整分数、评测设定与样本量详见论文正文与附录表格/图示。
深度检索与事实核查:
多源证据汇聚、引用可追溯。
复杂长链路问答:
跨文档、多跳推理、过程自校验。
研究写作与情报分析:
面向报告、备忘与策略建议的结构化输出。
论文题目
PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold
作者
Yi Wan*, Jiuqi Wang*, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu(Pokee AI)
开源地址:https://github.com/Pokee-AI/PokeeResearchOSS
(*为共同一作)
Pokee AI 专注于打造面向真实业务场景的研究级智能体与自动化工作流,以开放、稳健的技术路线推动生产力工具的下一代体验。
作为全球首个可连接数千种工具的通用基础 AI 智能体 ,Pokee 无需定制集成、MCP 服务器或重新训练 ,便能将最热门的 AI 工具与最常用的互联网平台整合,为用户实现日常工作的全自动化 。真正做到“一个智能体,上千工具,丝滑体验” 。当前,Pokee AI 已在数十个互联网平台上线,并提供无缝衔接的安全登录方式 。
联络邮箱:hello@pokee.ai
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-27
终于有个简单的办公Agent入门教程了,京东云JoyAgent上大分
2025-10-27
发现一个超神的Github开源OCR项目,国产多模态杀疯了
2025-10-27
MiniMax悄悄发布M2,8%价格打出Claude级性能
2025-10-25
Agent从0到1落地实施:以「小智伴」为例,产品需求(一)
2025-10-25
Claude Agent SDK实战:打造开源版DeepWiki
2025-10-24
法律人需要有自己的GitHub和Cursor
2025-10-24
MineContext:字节开源的主动式上下文感知 AI 工具,助力高效信息管理
2025-10-24
10 大开源 OCR 模型对比
2025-08-20
2025-09-07
2025-08-05
2025-08-20
2025-07-31
2025-08-26
2025-08-22
2025-07-31
2025-09-06
2025-08-06
2025-10-13
2025-09-29
2025-09-17
2025-09-09
2025-09-08
2025-09-07
2025-09-01
2025-08-16