免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


锦秋基金被投企业Pokee AI 推 7B 研究智能体 PokeeResearch,RLAIF + 推理脚手架重塑深度研究

发布日期:2025-10-27 22:05:59 浏览次数: 1514
作者:锦秋集

微信搜一搜,关注“锦秋集”

推荐语

Pokee AI突破传统参数堆叠思路,用7B模型打造研究智能体,在推理稳定性和事实可靠性上实现创新突破。

核心内容:
1. RLAIF+RLOO强化学习框架实现无人工标注优化
2. 研究-验证双模式循环提升推理稳健性
3. 10项权威基准测试中7B量级最佳表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

锦秋基金已完成 Pokee AI 的投资。

锦秋基金,作为 12 年期的 AI Fund,始终以长期主义为核心投资理念,积极寻找那些具有突破性技术和创新商业模式的通用人工智能初创企业。

在大模型纷纷卷规模的当下,锦秋基金被投企业——Pokee AI选择了一条不同的路——推出研究智能体PokeeResearch让 AI 学会如何像研究员一样思考与验证

他们最新发布的一款面向“深度研究”场景的 7B 参数智能体,采用“来自 AI 的反馈强化学习”(RLAIF)链式思维的多轮自校验推理脚手架,聚焦解决浅层检索、对齐度量薄弱、工具使用脆弱三大痛点。

这是一款专为“深度研究”场景打造的智能体模型,不靠更大的参数堆叠,而是在“推理稳定性”和“事实可靠性”上实现了新的突破。

根据团队实验,PokeeResearch 在 10 项深度研究/开放域问答基准上取得同规模(7B)最佳平均表现。

➡️ 项目已在 GitHub 以 Apache 2.0 协议开源推理与模型代码

➡️ https://github.com/Pokee-AI/PokeeResearchOSS



01

核心看点

训练范式

基于 RLAIF + RLOO 的统一强化学习框架,不依赖人工标注,直接围绕事实正确性、引文忠实度、指令遵循等“人类在意指标”优化策略。

推理稳健性

引入“研究—验证”双模式循环多调用自纠错**机制,遇到工具失败可诊断和恢复,并对候选答案进行自我核验以过滤显性错误

7B模型量级中表现最佳

在 HLE、GAIA、BrowseComp 及 NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA 共10项权威基准上,均取得 7B 量级同类最优平均成绩(mean@4)。

开源与复现

MIT 许可开源,提供可复现实验设置与推断代码,便于社区复评与落地集成。


02

技术要点

RLAIF 奖励设计

以外部 LLM 作为“客观评审”,对生成答案的语义正确性进行判定,避免 F1/EM 等纯词汇重合指标的偏差;训练中采用 RLOO 获得更稳健、近乎无偏的策略梯度估计。

研究—验证循环

研究模式中执行“分解问题—检索—阅读—综合”,并允许多次工具调用与自我修正;验证模式对答案做一致性与可用性检查,不通过则回到研究模式继续迭代。

工具链

面向互联网检索与网页内容提要的标准化工具接口,服务于证据收集—证据综合—结论生成的闭环。


03

数据与结果

信息寻址/网页浏览能力

HLE、GAIA、BrowseComp 取得 7B 规模最优均值表现

开放域/多跳问答

在 NQ、TriviaQA、HotpotQA、2Wiki、Musique、Bamboogle、PopQA 等基准上,均录得同尺度最佳


注:完整分数、评测设定与样本量详见论文正文与附录表格/图示。


04

典型场景

    深度检索与事实核查

    多源证据汇聚、引用可追溯。

    复杂长链路问答

    跨文档、多跳推理、过程自校验。

    研究写作与情报分析

    面向报告、备忘与策略建议的结构化输出。



    05

    研究团队与论文信息

    论文题目

    PokeeResearch: Effective Deep Research via Reinforcement Learning from AI Feedback and Robust Reasoning Scaffold

    作者

    Yi Wan*, Jiuqi Wang*, Liam Li, Jinsong Liu, Ruihao Zhu, Zheqing Zhu(Pokee AI)
    开源地址:https://github.com/Pokee-AI/PokeeResearchOSS

    (*为共同一作)



    关于 Pokee AI

    Pokee AI 专注于打造面向真实业务场景的研究级智能体自动化工作流,以开放、稳健的技术路线推动生产力工具的下一代体验。

    作为全球首个可连接数千种工具的通用基础 AI 智能体 ,Pokee 无需定制集成、MCP 服务器或重新训练 ,便能将最热门的 AI 工具与最常用的互联网平台整合,为用户实现日常工作的全自动化 。真正做到“一个智能体,上千工具,丝滑体验” 。当前,Pokee AI 已在数十个互联网平台上线,并提供无缝衔接的安全登录方式 。

    联络邮箱:hello@pokee.ai





    图片
    推荐阅读:

    53AI,企业落地大模型首选服务商

    产品:场景落地咨询+大模型应用平台+行业解决方案

    承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

    联系我们

    售前咨询
    186 6662 7370
    预约演示
    185 8882 0121

    微信扫码

    添加专属顾问

    回到顶部

    加载中...

    扫码咨询