我要投稿

Agent 如何用搜索？这家最懂 AI 搜索的团队，把踩过的坑都分享出来了

发布日期：2025-11-17 18:48:50 浏览次数： 1976

作者：Founder Park

微信搜一搜，关注“Founder Park”

「过去，我们作为人类用户使用搜索的习惯和要求，与现在 AI 对搜索的需求截然不同。」

过去人类的一次搜索动作，未来可能会变成 Agent 的 10 次搜索。一个复杂的指令，Agent 会拆成多个子问题，来进行多轮、迭代式的检索。

给人用的搜索和给 AI 用的搜索，不管是交互逻辑、内容呈现、还是接口配置，完全不一样。在搜索成为 AI 产品必备功能的当下，如何给你的产品配备一个高质量的搜索服务，是一个很现实的问题。

为 Agent 提供搜索服务的小宿科技，作为 AI Agent 基础设施的提供商，服务了国内超过一半的头部 AI 原生应用，对于各类不同的 AI 产品如何接入搜索，坑在哪里，可能没人比他们更懂了。

基于闭门 Workshop，在进行一些脱敏处理后，Founder Park 整理了分享的精华内容。

本期分享嘉宾：

William 杜知恒，小宿科技联合创始人兼 CEO
杨政骥：小宿科技智能搜索产品经理，专注搜索领域，十多年搜索产品经验。

TLDR:

AI 时代的搜索与传统搜索的根本区别在于，人类搜索是「一次性」的静态检索，而 AI 使用的搜索是动态、流式、可追问的，一个任务可能引发多轮、数次甚至数十次的搜索请求。
AI 应用多数都需要搜索能力来满足实时数据的需求，因为模型本身的数据有局限性，而搜索能够很好地解决模型的幻觉和时效性内容需求。
不同场景下的 AI 应用在接入搜索能力时，实际遇到的难点都不太一样。比如，办公类 Agent 应用的关键在于指令拆解后再搜索；金融、学术等垂直行业应用的难点在于，返回权威且被认可的信源站点；AI 硬件类产品的核心在于保证搜索结果相关性的同时满足低时延响应速度。
在多数场景下，AI 搜索的准确性比速度更重要。有时候慢就是快，保证质量在很多场景下作用更大。
向量检索的优点是入手门槛极低，但技术原理限制了其上限，如果要做更精准的多义理解、消歧等，语义理解更重要。
模型的成本远高于搜索成本。多搜索几次来提升内容质量，减少模型推理成本，是更经济的策略。

⬆️关注 Founder Park，最及时最干货的创业分享

超 15000 人的「AI 产品市集」社群！不错过每一款有价值的 AI 应用。

邀请从业者、开发人员和创业者，飞书扫码加群：

进群后，你有机会得到：

最新、最值得关注的 AI 新品资讯；
不定期赠送热门新品的邀请码、会员码；
最精准的AI产品曝光渠道

01 AI 需要的搜索，

跟人类用的大不相同

在 AI 时代，人使用的搜索和 AI 使用的搜索发生了本质的变化。过去人类用户使用搜索的习惯和要求，与现在 AI 对搜索的需求有非常大的区别。

在过去，人类的搜索更多是静态检索：一个 query 过来，理解 query，做一次召回、一次排序，给客户提供结果，用户从结果中点击一两个感兴趣的链接去看。而 RAG 是一个动态的、流式的反应，它会不断追问。比如问了今天的股票，还会再追问问题。比如，现在大家提得更多的 Agentic RAG 中，有一个 reflection 的动作，这会让回答同一个问题的搜索次数呈数量级增长。

同时，现在 AI 模型的能力越来越强，大模型的幻觉和数据时效性的问题还没有得到本质解决。更强、更新的大模型一直在更新，幻觉问题有所降低，但无法根除；数据的时效性问题也需要用各种工具来解决。

传统搜索引擎的厂商，是把 C 端的搜索结果打包成 API，但这种方式对于现在各种 AI Agent 并不适用，第一是需要多语言搜索，第二是权威性的重要性大幅提升，第三是需要更长、更完整的信息。

第一，现在全球化的 Agent 需要服务全球用户，多语言的内容索引构建非常重要。同时，人类使用搜索引擎受限于语言能力，对不同语言的内容接受是有障碍的，但是 Agent 没有语言障碍，多语言内容都可无障碍理解。

第二个重大变化是权威性的重要性大幅提升。因为 Agent 要根据搜索结果直接生成答案，如果源内容不权威，整段结果就可能出错甚至违规，而且「权威」的标准在不同国家、语言下都不一样，我们必须按语言、按地区去定义权威性规则。第三个区别是 Agent 需要更完整的内容返回。传统搜索引擎结果只有短摘要，但 Agent 需要读完整内容才能理解上下文。所以我们为 Agent 的搜索默认提供长摘要的内容返回，这也是与传统搜索的根本差别。

另外，过去给人用的搜索引擎，最重要的标准是前几条结果点击率高不高，用户点得多，就说明排序做得好。那时候，相关性是核心：前十条结果要足够相关、时效性强，而现在给 AI Agent 用的搜索完全不一样。Agent 同时会读取 10 到 50 条结果，所以不再只关注「第一条是不是最好」，而是要保证前 10 条甚至前 50 条的整体质量。这里的「好」不是吸引点击，而是覆盖信息全面、无虚假内容、结构清晰。

简单说：以前人类搜索看重「黄金前三条」，现在 Agent 搜索更看重「全员及格线」。

Agent 需要帮用户解决更复杂的问题，这是传统搜索没有办法支持的。举个例子，以前用户可能会问：「华中师范大学去年的录取分是多少？」这是传统搜索能解决的问题。但是「我的分数能上吗？能读什么专业？」这类问题就得需要搜索和模型配合，通过多轮搜索和 Agent 的协同来解决。这其中除了调用搜索 API，还可能调用垂直知识库，以及提供网页信息、PDF 信息等，最后产生一个完整的信息循环。

小宿科技的搜索业务分为两大块：智能搜索和内容读取。这两大块业务都属于 Agent 获取信息的基础工具。

第一块是智能搜索，这是一个自下而上自研构建的搜索引擎。通过爬虫建立千亿规模的数据索引库，再通过语义理解、召回排序等技术，最终通过 API 接口，返回适配 Agent 的结果。与传统搜索结果不同，这样 AI 可以一次性获得包含长摘要的 50 条信息，同时还特别优化了策略，剔除了 AI 生成内容的污染，更侧重于权威性与时效性，来满足 AI 的使用需求。
第二块业务是内容读取。当 AI 需要进行深度研究或任务规划时，仅靠搜索结果的短摘要是远远不够的。内容读取就像一个「AI 时代的浏览器」，可以深入读取网页或 PDF 的内容，把内容解析为 AI 易于理解的、有序的干净格式，比如 Markdown 或纯文本。

基于这两项能力，组成了整个 AI Agent 应用场景的数据支撑。目前，小宿科技现在的主要客户包括行业分析、通用 Agent、Chatbot、个人助手，智能硬件（如陪伴玩具）等等，这些都是 ToB 搜索能够提供的服务。一句话来讲，AI 应用多数都需要搜索能力来满足数据需求，因为模型本身的数据有局限性，而搜索能够很好地解决模型的幻觉和时效性内容需求。

我们相信 Token 的消耗量会以十倍、百倍甚至千倍的速度增长。C 端、B 端用户有个性化的需求，而 Agent 有个性化的服务能力，两者相乘可能会营造出一个百花齐放的 Agent 生态。所以小宿科技做的事情，除了搜索之外，其实是一个一站式的 AI Agent 基础设施平台。除了最底层的算力和传统的通用云服务，主要在模型层和工具层做工作。

02 实例拆解：AI 浏览器、通用 Agent，

应该怎么接搜索？

在拆解实际场景的案例前，需要先简单回顾下 AI Agent 调用搜索的整个过程。分为以下几个步骤：

首先，用户输入一个指令，Agent 会进行需求理解和任务拆解，分析哪些东西需要调用外网数据来补全。它会把任务拆解成对应的关键词，去请求搜索接口；
外部的搜索接口会基于对 query 的理解，从库里做召回和排序。这一步，会考虑到内容的相关性、权威性和丰富度。举个例子，AI 可能在问 A，但实际需要回答 A 本身以及 A+ 的延伸性内容。
然后，把召回的结果给到 AI Agent 应用，在 Agent 拿到数据后，可能会有循环请求，因为任务拆解过程中需要更深层次的挖掘，可能需要递归搜索。在所有信息拿到之后，它会做最终的推理总结，返回给用户。

这也是为什么我们看到 AI 在满足用户需求时，可能会经历几十秒甚至更长的时间，因为它经历了多次的任务拆解和搜索。

办公类 Agent 产品

在办公场景下，AI 类似于助手或实习生的角色，接收到的指令通常很复杂。这对 Agent 的挑战就比较高，需要对指令做复杂的分析，拆解成多个维度。

通常的情况是，在拆解完一大堆 prompt 后，直接全部丢给搜索，导致搜索返回的结果不好。

关键解法是，在拆解完 prompt 后，需要把其中的核心关键词或关键方向再进一步拆解成明确的关键词去请求搜索。

比如，拆解出 50 个关键词，首先这些关键词之间是有关系的；其次，读取的结果里哪些有用，哪些没用，把有用的结果挑选出来，再基于关键词之间的关系做一次聚合，然后回到 prompt 里做进一步的组合和模型推理，最终返回结果。

同时，还可以做一些 query 改写的工作，基于 AI 的特性，将原始的 query 改写成对搜索更友好的关键词，让系统更好地理解，从而返回更高质量的结果。

通用性 AI Agent 产品（需要做复杂任务规划或深度研究）

Agent 在做任务规划和工具使用的过程中，需要参考海量、完整的信息。举个例子，大家用 Deep Research 问一个问题，它会洋洋洒洒地回答几百字甚至几千字，深入浅出地讲解来龙去脉，并做延伸，最终生成一个完整的报告。

但传统搜索往往拿不到足够的内容。因为传统搜索的核心特点是高效，精准满足用户的问题。因此，只会提供信息量较少的短摘要，且不会做过多的延伸。

这时候的调整，是在搜索 API 层，将一次返回的结果从 10 条增加到 50 条，同时提供包含更多信息的长摘要，保证数据格式的适配性，让 AI 在瞬间读取和筛选大量信息。

Agent 浏览器工具

在 Agent 浏览器工具的场景中，需要对特定、已经的网页信源做深度分析。这里遇到的核心问题是，常规的关键词搜索（query-based search）满足不了这种需求，因为它可能需要精准读取页面中的特定区域内容，甚至是进行递归下钻来读取第二层页面。

小宿科技推出了内容读取器，能够解决读取成功率和解析完整性的问题。同时，支持 PDF 解析、图片&PDF 源文件（base64）返回等能力。

不同场景的垂类应用

面向金融、学术、新闻等不同垂直行业的应用，通常会面临网络公开数据质量参差不齐的情况，很难达到业务预期的效果。

比如，金融行业的应用，客户需要获取金融领域的实时数据，用于行业分析、财报解读、市场政策研判等。但全网公开数据存在大量 AI 生成的低质内容，或者不专业的内容。

在短期内的解决方案是，做站点指定。指定一些权威的、认可的信源，确定返回的结果在这个范围内，来保证内容的纯净度和权威性。

在专业的学术领域也类似。学术领域是一个十分专业的圈子，但传统搜索的结果通用性太强，专业度无法满足需求。除沿用金融领域的解决方案外，还能以垂类搜索优化——建立独立数据库，叠加影响因子、期刊、发表时间等元数据排序，输出精准专业结果。

智能写作 Agent 助手

智能写作 Agent 助手的需求是，能够根据模糊描述来支持覆盖多个场景的搜索结果。同时，且在多场景写作时，需要丰富且准确的词汇推荐。但传统的搜索结果太短又不够全面，没办法满足精细化的要求。

因此，解决方案还是回到一个核心的关键点：数据的丰富度。不仅包括索引库的规模，还包括如何从超大量的数据中快速检索到想要的高质量内容。

小宿科技在这方面做了很多工作，比如储备了高质量、大规模的数据，以及能够快速返回结果。同时，还做到了即使用户输入中文 query，也能返回高质量的英文内容。

AI 硬件

对于 AI 硬件类产品，以小宿最近合作的一个出海的情感陪伴类产品为例，

一方面，是客户对成本的控制需求，控制 token 消耗；另一方面，是 AI 陪伴类玩具需要拟人化的实时交互，用户对于延迟的感知会特别高。

怎么解决？首先是降低成本，我们给客户做了一个「动态摘要」，这种摘要介于比短摘要和未经筛选的长摘要之间，能够保证结果的相关性，同时减少 token 消耗。其次，是通过对整个超大型搜索系统的协同优化，来确保 API 能够在毫秒内及时响应，满足实时的交互需求。

03 搜索的时效性、准确性与速度如何取舍？

Q：搜索的响应时间和搜索精度/准确度，如何取舍？

杜知恒：「搜索快」的来源很简单，就是只做向量检索，不做几百亿的检索库。向量检索快，但质量不行，在 70%-80% 的场景下表现可以，但 corner case 特别多。如果不建一个大的检索库，再从中筛选出一个几十亿的热库，质量会有非常明显的问题。不同客户有不同的场景需求，有的场景快很重要，比如像豆包这样的 Chatbot，对吐字速度要求非常高。但在大部分场景，比如做 PPT、写文档，准确度要比快重要得多。

杨政骥：还有一种「快」的方式，是通过牺牲精准度和准确度来保证响应时间，总结为两个字：缓存。这种方式确实能保证更快的响应，但会影响效果。我们觉得，有时候慢就是快，保证质量可能在很多场景下作用更大。

Q：AI 搜索，语义理解更重要还是向量检索更重要？

杨政骥：向量检索的优点是入手门槛极低，可以快速上手做到六七十分的效果。但如果要长期做，或者对内容要求更高，还是需要语义理解。向量检索有其技术原理的上限，如果要做更精准的多义理解、消歧等，语义理解更重要。

Q：搜索结果的时效性怎么保证？

杨政骥：时效性也特别重要。最直观的就是用户问一个问题，返回的是不是最新的消息，这背后对整个超大型系统的要求特别高。我们的解决方案核心还是算法能力，我们储备了很多技术，比如通过站点特征去发现高热的 hub 页，保证高频发现新内容；通过监测机制及时发现初期的热点线索等。最简单的方式是对所有东西做高频监测，但这不现实，成本太高。所以需要有更精细化的策略，在保证效果的同时，去平衡成本和性能。

Q：在粗排阶段拿到 50 个结果后，针对政策、法规类这些有时效性的内容，是通过什么方式过滤的？

杨政骥：同时多个方面去做过滤。Agent 可以通过 Prompt 工程来做限定，这是最直接的方式。在搜索本身，我们对所有的语料内容都有时间信息的特征。政策法规的发布时间是明确的，我们的 API 入参也可以指定时间范围。通过利用这些原始数据自带的特征，可以做到更精准的时间维度内容过滤。

Q：对于垂类领域的知识库，比如法律、审计，只有几百万条高质量语料，能做到较高的搜索精度吗？

杨政骥：结论是可以的。对搜索系统来说，百万级的语料库其实非常小。高质量的语料会大大降低检索系统的难度。但是，需要在这个基础之上，针对这个垂直领域的语境和场景做一些定制化的特殊处理，比如调整召回逻辑和一些权重因子。通过这些微调，就可以达到比较好的效果。

Q：和国内外竞品相比，小宿的优势是什么？

杜知恒：跟国内外厂商相比，小宿科技最明显的优势就是支持多语种，内容质量在头部水平，服务做得更好。最近，一家头部 Agent 客户把他们 90% 的搜索流量从 Tavily 切换到了我们。主要原因是，我们的性价比更高一些，Tavily 定价 8 美金/千次调用的费率太贵。其次是，在客户的核心场景中，我们的搜索结果质量更好，尤其是在亚洲语系方面有明显优势。最后一点，我们提供 7*24 小时的客户快速响应服务。

04 搜索比模型成本低，可以多用

Q：如何提高 AI 搜索的质量，控制 AI 搜索的轮数、深度吗？

杨政骥：提升 AI 搜索质量，除了 AI 模型本身外（比如模型的幻觉率、是否做过微调 SFT），搜索也起很大作用。我们如果能提供更高质量、更有效的内容，AI 做数据整理和推理的成本也会低很多。行业内现在有一些基本的 benchmark，但还没有规范的标准。

杜知恒：从我们现在的客户角度出发，模型的成本比搜索的成本高一个数量级。大家思考更多的还是怎么少用点模型，搜索多搜两次，成本其实不是很高。

Q：一次研究任务平均会搜索多少轮？

杜知恒：我感觉大概要搜二三十次。总的来说，这取决于你是在写一页的报告还是写一个十页的 PPT，差别比较大。

Q：搜索除了向量搜索和类似的 ES 全文检索外，还有什么新方法吗？

杨政骥：主流的还是这些方式，但不是唯一的。在搜索系统里，我们会应用向量检索，也会做 ES 的数据建设，这些都是服务于最终的检索性能。从架构设计上，我们会经过粗排、精排，并采用倒排索引的方式来保证效果和性能。至于新的方法，其实向量检索本身就是近些年开始大规模应用的新方法。同时，我们现在也在尝试一些新的方向，比如在搜索领域引入大模型，但在保证不折损时效性的前提下，让模型来辅助完成一些原本做不到的事情，这也是一种新的方式。

Q：大部分搜索 API 返回的是摘要（snippet），如何保证 snippet 包含了完整的信息？

杨政骥：没有办法保证，因为 snippet 就是短摘要，它为了适配有限的页面布局，做了信息的取舍，必然会导致信息折损甚至变形。对于 AI 来说，更多情况下需要去分析原始的、我们称之为「长摘要」的更完整的落地页信息。当然代价是消耗相对多的 token，但确实能满足更完整的信息诉求。实践证明，snippet 对 AI 的作用比较小。

Q：数据清洗过程中，最重要的关键点是什么？是完全自动还是会加入人工审核？

杨政骥：数据清洗的核心目标就是提高数据纯度，把「歪瓜裂枣」都干掉。关键点可能没有「最」关键的，而是围绕这个目标采取一系列措施，比如基于低质关键词、低质数据源、向量相似度等多种维度进行清洗。

至于是否自动化，对于大规模数据清洗，最具性价比的方式还是自动完成。但是如果遇到作弊能力极强的对手，我们会采用「模型 + 人工」的方式。模型能解决大部分的问题，然后通过少量的人工来做方向性指引，比如检查模型的缺点并迭代优化，或者对模型置信度不高的内容进行复核。具体采用哪种方式，要结合业务的规模和需求来考量。

Q：对于向量检索出来的分块（chunk）数据，如果它们来源于同一个文件，在合并和排序上有没有好的方案？

杨政骥：我们在做数据向量化之前，会先做一个数据的归一化和去重处理。这个过程相当于在检索之前，就先保证了数据的有效性，避免出现大量冗余的重复数据。我们基本上是在数据层面先做好这个工作。

05 GEO 比 SEO 难，

做出好内容更重要

Q：AI 搜索的未来方向是什么？Agent 和搜索的未来会结合吗？

杜知恒：我觉得未来搜索就是 Agent 的工具。我自己对 Agent 极度乐观，觉得明年 token 量能涨 100 倍。原因有几个：第一，模型的智能短期内看不到超快的提升，但钱和创业者的投入在以非常快的速度涌入，那大家只能靠堆 token 解决问题；第二，现在 Agent 的渗透率太低了。即使是最头部的也就十万、二十万日活，这比起移动互联网时代差太远了。现在 AI 替代人类工作的比例可能只有 0.01%，未来人类一大半的重复劳动肯定都会被 AI 替代。Agent 会涨很多，token 会涨很多，那搜索就是服务好 Agent 就行了。

Q：AI 生成的内容会影响搜索结果吗？怎么避免大模型幻觉问题？

杨政骥：会影响。所以我们现在的返回结果是会把 AI 的内容剔除掉的。从权威性出发，把 AI 生成内容以及其他人类生产的虚假、低质信息都干掉，保证吐给模型的结果是真实有效的，来帮助模型解决幻觉问题。

杜知恒：先说结论，完全剔除非常难。有很多环节都要筛，从最开始爬取时的网址特征，到爬回来之后的内容结构，但还是有很多内容非常像人类生成的，我们只能靠日积月累的经验来解决。这里面有很多机制，包括黑名单、白名单，以及不同场景下站点之间的关联等等。

在这里延展开，有一个观点很有意思。AI 生成的东西不一定全是差的。但目前，我们觉得人类生产的资料在互联网上的占比越来越低，这时候，搜索起到的作用就更关键了。

Q：怎么看待 GEO？它会污染大模型吗？

杨政骥：GEO 还是从 SEO 衍生出来的。现在还比较早期，核心分两个阶段：第一，你的内容怎么更好地被我们这样的 ToB 搜索认可并拿到；第二，这个数据给到 AI 后，AI 是否会采纳并最终曝光在用户面前。这会污染大模型吗？会的。

我前两天刚看到一篇论文，研究者通过 AIGC 和媒体合作，用 AI 做了一批内容，通过 GEO 的方式快速给 AI「投毒」，内容得到了很多头部 AI 的采纳。

这可以对标 SEO 的黑帽和白帽。我还是推荐大家良性地去研究整个 ToB 搜索和 AI 的运转模式。你的内容更好，就能获得更多曝光，也能促进整个生态。黑帽虽然短平快，但对整个生态的危害是长远的。

Q：怎么定义内容有深度、高质量？

杨政骥：首先，最简单的标准是，当一个内容足够好时，你不需要刻意去定义它，你凭直觉就知道，这是一个实在的准则。同时，我们内部确实有一些评价标准，比如信息含量，甚至会精准到语句层面来判定其深度和质量，还会看内容价值是否包含独特的观点。最直接的方式就是把内容给你的朋友或同行看，看他们是否觉得好。如果是专业领域的内容，给专业人士一看，他能快速判定内容的深度和质量。

Q：被抓取的页面要如何更好地适配搜索 API？权威性是如何考量的？

杨政骥： 如何适配搜索 API，其实是回到了类似 SEO 的方式。核心在于，搜索 API 想要的是对 AI 更友好、内容更深度、更广泛的内容。首先你的内容质量要好；其次，比如网站的性能，稳定性要得到保证。当你持续维护自己的页面，就能逐渐建立起搜索 API 对你的信任度。

对于权威性是如何考量的，我们会对每个网站和站点建立多维度的属性。当网站在长期积累后被我们认可为高频更新、高质量内容的来源时，我们会在内容抓取和排序的过程中给予优待。权威性的考量不止一个因子，PageRank 是一种站点维度的因子，但我们的权威性、时效性、相关性等每个方向都是一个综合的考量，背后可能有上百个 Feature，包括原生的特征和基于模型计算的后期特征，共同决定最终结果。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业