微信扫码
添加专属顾问
我要投稿
Kimi深度研究实测对比OpenAI和Gemini,国产AI在文献综述领域能否后来居上?核心内容: 1. Kimi-Researcher在数据汇总报告任务中的表现与细节展示 2. 与OpenAI/Gemini深度研究产品的字数与质量对比 3. 关键数据验证与信息可信度的实际测试结果
Kimi作为国产AI技术派的一股清流,长文本功能一直很不错。去年娜姐也写过几篇文章介绍:
Kimi:作为一款超长文本AI工具,我是怎么用它来卷论文的?
Kimi在联网搜索和信息整合方面表现不错,检索出来的信息源质量和新鲜度都还是很高的,它的网页总结插件我也一直在用。
不过,自从去年第一波火出圈之后,Kimi一直没什么大的动静。期间,OpenAI和Gemini 陆续发布了deep research(深度研究)产品,并迭代了好几次。娜姐也进行了深度测评:
Deep research深度研究:ChatGPT/ Gemini/ Perplexity/ Grok哪家最强?(实测对比分析)
谷歌 Gemini 2.0 Flash 升级版深度研究:能否超越 OpenAI deep research?(实测对比)
最近,Kimi也要发布深度研究产品Kimi-Researcher了。娜姐拿到了内测资格,第一时间进行了多个场景的对比测试,看看在科研学术场景中Kimi深度研究究竟表现如何。
案例1:数据汇总报告
对于某个主题的综合数据的调研,需要综合最新的数据源,还要排除不可信的数据源。保证数据是最新且准确的。人工查证需要综合多个网页的信息源进行筛选、判断和信息综合。
深度研究这类Agentic工具,可以自主浏览多个网页,期间调用多个工具,进行信息检索、筛选、判断和综合,很适合这类任务。
前几天,有学员跟我抱怨:娜姐,Perplexity给的报告中的数据,一查引用源,都对不上。确实,AI有幻觉,但是如果准确度太低,错误频出,对于用户来说,体验感就会差很多。
我们来看看Kimi-Researcher对这类任务的完成度怎么样?
和其他的深度研究产品一样,Kimi-Researcher会针对用户的问题,第一轮对齐颗粒度:把你的问题进一步细化,让生成的报告更合用户心意:
等你回复之后,Kimi就会针对每一项子主题逐一检索,右侧会显示检索源:
经过10分钟左右的等待,Kimi生成了一份7500字的报告,
娜姐同时针对该主题,对比了OpenAI和Gemini的deep research。
字数对比:OpenAI deep research 3000字;Gemini 7000字。再来对比一下报告的质量和可信度:
全文较长,截取一个小的主题对比:
Kimi的报告:
数据验证显示,三个平台在核心指标上基本一致,Kimi在数据维度和细节展示方面相对更全面,并且关键信息加粗高亮了出来。
最后,Kimi-Researcher还生成了一份可视化报告供你快速浏览:
Gemini虽然字数和Kimi差不多,也有一些数据,但是很多内容偏离了主题,开始研究政策演变和国家行动计划:
综合三者在数据调查报告方面的表现:
Kimi报告全面,数据可信度高,很能打。就是时间稍长。OpenAI是扣题的,就是报告比较精简(应该是OpenAI比较鸡贼,在成本方面进行了克扣)。Gemini的深度研究,倾向于生成大而全的报告,反而稀释了我想要的数据信息。
(刚开始,我看着Kimi的检索足迹是一些中文的口水信息网站,我还在担心,完了,这出来的报告能用吗?还好,Kimi用于信息判断和筛选的agent还是靠谱的,它前期的搜索可能就是这种广撒网的策略。所以,也导致这个报告生成的时间Kimi最长,几乎是OpenAI和Gemini的两倍时间。
还好,最后数据报告的深度、完整性和准确度,Kimi都是值得这2倍的时间等待的。期间,你可以让它自主运行你去做别的事。 )
案例2:主题综述
文献综述是科研人员的高频需求场景。无论是写论文、项目书,做PPT汇报,前期都需要做一个主题综述,了解这个领域的概况,更新汇总前人的研究成果。
OpenAI和Gemini的主题综述用法,娜姐之前测试过不少。我们来看看Kimi:
给一个主题,让Kimi-Researcher形成一篇主题综述研究:
Kimi会针对你的大纲,把子主题拆分,进一步和你对齐目标。之后就开始逐项检索:
检索了117个网页之后,形成了一份1w+字的报告:
在机制的论述方面,有一定的深度(还可以再深入一点)。大纲各个部分的完成度也很不错,综述很有参考性。
关于参考文献引用,点击引文链接,在右侧可以看到高亮的英文原文,方便用户核实信息源:
虽然大部分是英文来源,且按照要求是近几年的;但是也有一部分是引用的英文论文的中文新闻稿。这一点不够好。不论是中文还是英文引用源,希望更多的引用原文,而不是翻译和二次加工创作的来源。
OpenAI deep research:
5分钟,生成一篇1.1w字综述。
不得不说,涉及机制、原理类主题的综述报告,OpenAI的写作深度是最好的。梳理的细节和完整性都比其他AI更好。可能是o3模型对于英文文献检索的更全面。总之,如果你的主题涉及机制和原理的细节阐述,可以选择OpenAI deep research。
Gemini深度研究:
也是1w+字,速度最快。但是,是我最不满意的。
首先,这个文字风格很奇怪,已经不是学术综述的中立、正式的文风:
根据我给的主题和框架,应该能看出来是一篇学术类主题综述。这写出来的已经类似DeepSeek的风格了。然后,内容方面,也偏离了我给的内容框架,各种金属离子与AD的正负向作用原理一点没写,直接跳过了。
不知道最近的Gemini deep research基座模型动了哪里,刚刚换到Gemini 2.5 pro的时候还是非常好用的。
总结一下:
主题综述的写作效果:OpenAI > Kimi > Gemini deep research
Kimi-Researcher能够严格遵从主题框架,针对每一部分展开信息检索、分析和汇总,质量很能打。写作深度上比OpenAI稍弱。此外,如果信息源上能够去除二次创作的新闻稿,就更好了。
案例3 找领域大牛
找某一个特定领域近几年比较活跃的研究人员,可以用来帮自己找导师候选人,或者投稿的时候找preferred reviewer。
Kimi关注的这两个点非常合适:
1 是否有更细化具体的研究方向?2 倾向于理论研究还是机制研究?
确定之后它就开始干活了。最后筛选出了国内外多位大牛:
大牛们的研究方向,代表性成果,近期发文情况,都给你总结的清清楚楚。真的太方便了,省了自己无数个网页查找、筛选和汇总信息。最后生成的可视化报告,可以直接做PPT宣讲了:
通过三个典型场景的对比测试:
Kimi Researcher在中文信息处理和报告详实度方面表现突出,特别适合需要深度挖掘中文资料的研究场景。虽然耗时较长,但能够提供更全面的信息覆盖。
OpenAI Deep Research在生成效率和英文文献处理方面具有明显优势,适合时间紧迫或以英文资料为主的需求。
Gemini Deep Research表现下滑,在主题聚焦度上仍有提升空间。
对于追求报告深度和中文资料丰富度的用户,Kimi Researcher非常适合。
如果非要提建议,娜姐有两点改进意见:
1 等待时间过长。
我做了一个对比,每一项主题研究花费的时间:
Gemini < OpenAI < Kimi
可能正是因为检索的信息源很多,所以报告质量才更好。
当然,对于Kimi官方来说,干活时间长,消耗的token就更多。对于用户来说,如果报告质量足够高,多等一会也还能接受。
2 引用源只能在线点击查看,不能下载。
Kimi-Researcher有一个“下载”和“复制”按钮,但是都自动剔除了引用源。这对于科研人员太不友好了,希望能加上。
---
今天就介绍到这里。大家对Kimi深度研究感兴趣的,可以到主页https://www.kimi.com/ 对话框下方“申请深度研究内测”,正式版本应该很快能用上了。期待!
如果觉得有用,欢迎在看、转发和点赞!娜姐继续输出有用的AI辅助科研写作、绘图相关技巧和知识。
AI绘图:
SCI论文写作与发表:
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-07-04
最全的Ollama使用详解
2025-07-04
Serverless JManus: 企业生产级通用智能体运行时
2025-07-04
大模型开源,厂商靠什么盈利?
2025-07-04
构建AI Agents-你一定要知道的10大开源利器
2025-07-03
阿里发布信息检索Agent,可自主上网查资料,GAIA基准超越GPT-4o | 模型&数据开源
2025-07-03
OpenAI首席研究官没有博士学位,你的985还有用吗?
2025-07-02
Higress 新增 MCP 服务管理,助力构建私有 MCP 市场
2025-07-02
别再只盯着分数线!手把手教你用AI挖掘最适合你的大学和专业(附提问模板)
2025-06-17
2025-06-17
2025-04-13
2025-04-29
2025-04-12
2025-04-10
2025-04-29
2025-04-15
2025-04-29
2025-05-29
2025-07-04
2025-07-03
2025-06-28
2025-06-25
2025-06-25
2025-06-21
2025-06-16
2025-06-15