我要投稿

告别 RAG？Google 用 URL 上下文 Grounding 持续发力

发布日期：2025-10-12 08:41:47 浏览次数： 2069

作者：AI大模型观察站

微信搜一搜，关注“AI大模型观察站”

Google 在 AI 相关产品上的热潮势不可挡。就在几周前，它为 Gemini 推出了一款新工具——URL context grounding。

URL context grounding 可以单独使用，也可以结合 Google search grounding，用来深入挖掘网络内容。

什么是 URL Context Grounding？

简单来说，这是一种让 Gemini 程序化地读取、理解并回答关于单个网页 URL（包括指向 PDF 的链接）内容的提问方式，而无需进行传统的 RAG（Retrieval-Augmented Generation）处理。

换句话说，你不需要提取 URL 的文本和内容、分块、向量化、存储等等繁琐步骤。你只要告诉 Google 你感兴趣的 URL，然后就能直接上手。接下来你会看到，它的代码实现非常简单，而且准确率很高。

正因如此，我才说，这可能是给 RAG 棺材钉上的又一颗钉子。

但它真的好用吗？我们来看几个例子。

我先在 Windows 的 Ubuntu WSL2 上搭建开发环境。你可以跟着做，或者用你习惯的方式。

$ uv init url_context
$ cd url_context
$ uv venv url_context
$ uv pip install jupyter
$ uv pip install "google-genai>=1.16.0"

你还需要一个 Google API key。如果你还没有，可以去 Google AI Studio 注册，设置你的密钥。链接在仪表板页面的右上角附近。

Google AI Studio
aistudio.google.com

在你的 shell 运行以下命令，会在浏览器中打开一个新的 Notebook 标签页：

$ jupyter notebook

需要注意的一些限制

在开始写代码示例之前，有几点关于 URL context grounding 的限制和约束你需要知道：

每次请求最多支持 20 个 URL。
单个 URL 检索的内容最大为 34MB。
以下内容类型不受支持：

付费墙内容
YouTube 视频
Google Workspace 文件，如 Google Docs 或电子表格
视频和音频文件

了解了这些，我们开始看例子吧！

示例 1 — 解析复杂的在线 PDF

我测试 RAG 或类似处理 PDF 数据时，常用的测试文件是特斯拉的 10-Q 季度财报。这份文件很长，大约 50 页，包含复杂的表格和其他布局元素。

作为 SEC 备案文件，它的内容是公开的，完全免费使用。

如果你想自己看看，这份文件在这里：

https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf

对于这个 PDF，我的问题一直是：

“2022 年和 2023 年的总负债和总资产是多少？”

答案在文件的第 4 页。以下是那一页的内容。

图片来自特斯拉 10-Q SEC 备案文件

对人类来说，答案很好找。你可以看到，2022/2023 年的总资产（单位：百万美元）分别是 $82,338 和 $93,941，总负债分别是 $36,440 和 $39,446。

在过去（大概 18 个月前！），用传统 RAG 方法从这份文件中提取信息可不容易。

那 Google URL context grounding 表现如何呢？

在你的 Jupyter notebook 中，输入以下代码：

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY HERE')

# 我们可以使用大多数 Gemini 模型，比如 2.5 Flash 等
MODEL_ID = "gemini-2.5-pro"

prompt = """
  根据这个 PDF 的内容 https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf，2022 年和 2023 年的总负债和总资产是多少？请按以下格式列出：
                   September 30 2023    December 31, 2022
Total Assets         $123               $456
Total Liabilities    $67                $23

不要输出其他内容，仅输出以上信息
"""

config = {
    "tools": [{"url_context": {}}],
}

response = client.models.generate_content(
    contents=[prompt],
    model=MODEL_ID,
    config=config
)

display(response.text)

就这么几行代码，看看输出结果吧：

September 30 2023    December 31, 2022
Total Assets         $93,941              $82,338
Total Liabilities    $39,446              $36,440

完全正确！表现不错。

我们再看看它能不能提取其他信息。PDF 末尾有一封写给即将离职员工的信，概述了他们的离职条款。URL context grounding 能判断出信中提到的离职日期为什么用星号（***）标记吗？以下是信的片段：

图片来自特斯拉 10-Q SEC 备案文件

离职日期被掩盖的原因在脚注中说明：

图片来自特斯拉 10-Q SEC 备案文件

除了 prompt 外，其他代码不变，我只展示 prompt 部分：

...
prompt = """
  根据 https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf，员工离职信中提到的离职日期为什么用 *** 标记？
"""
...

输出结果是：

根据提供的文件，员工离职信中的离职日期用 “[***]” 标记，是因为公司将某些非重要信息视为私密或机密，故意从公开文件中省略。

文件中有一条说明：“某些特定信息已从本文件中省略，因为这些信息不重要且公司视为私密或机密，并用 ‘[***]’ 标记省略处。”

再次精准命中！

URL Context Grounding 的其他用途

在我看来，它开启了许多新机会，包括：

深入内容分析与综合
该工具可以从多个 URL 提取特定信息，如价格、名称或关键发现。
文档比较
它可以分析多份报告、文章甚至 PDF，找出差异并跟踪趋势。
内容创作
通过整合多个 URL 的信息，AI 可以生成准确的摘要、博客文章或报告。例如，开发者可以用它比较两个不同网站的食谱，分析食材和烹饪时间。
代码和文档分析
开发者可以将 AI 指向 GitHub 仓库或技术文档，让它解释代码、生成设置说明或回答具体问题。
复杂的工作流
结合 Google Search 的广泛发现能力和 URL context 工具的深入分析，可以构建复杂多步骤任务。AI 代理可以先搜索相关文章，再用 URL context 工具深入“阅读”并综合最相关的搜索结果信息。
Gemini CLI
一个开源 AI 代理，利用 URL context 工具的 web-fetch 命令，让开发者可以快速总结网页、提取关键信息或直接从终端翻译内容。
提升事实准确性，减少幻觉
通过将回答基于特定网页内容，AI 的事实准确性提高，减少生成错误或捏造信息的可能性。它还能为回答提供引用，增强用户信任。
支持多种内容类型

PDF
：AI 可以提取文本并理解 PDF 中的表格结构，适合处理报告和手册。
图片
：它可以处理和分析多种格式（PNG、JPEG、BMP、WebP）的图片，利用多模态能力理解图表和图形。
网页和数据文件
：继续支持 HTML、JSON、XML、CSV 和纯文本文件，适用性广泛。

示例 2：在线产品价格比较

第二个例子，假设我们要买一副新耳机。我们将几个在线商店的 URL 喂给代码，让模型找出符合我们规格的三款最便宜的产品。

这个例子可能有点多余，因为网上有不少购物比较网站，但它只是为了展示这个工具的潜力。

假设我们想买 Sony WH-1000XM5 无线降噪耳机，找到了几家价格最具竞争力的在线商店，但价格几乎每天都在变。我们来写一个脚本，随时运行都能返回三家最便宜的商店。

代码与第一个例子相同，只有 prompt 不同：

prompt = """
  根据以下 URL，输出 Sony WH-1000XM5 耳机的三个最便宜价格及对应商店：

  https://electronics.sony.com/audio/headphones/headband/p/wh1000xm5-b?srsltid=AfmBOopJmjebTtZEieUvHEf5xEke7C7piVi3BdlSUdTPJH3wuBfTksJy
  https://tristatecamera.com/product/TRI_STATE_CAMERA_Sony_WH-1000XM5_Wireless_Noise-Canceling_Over-Ear_Headphones_Black_1_Yr_WH1000XM5BS2.html?refid=279&KPID=SONWH1000XM5BS2&fl=GSOrganic&srsltid=AfmBOoqnE7vgc1uOELadhkaRlhHuJx3HGRTV5ICN7ihNkFXI_UEuImZ2gXU
  https://poshmark.com/listing/Sony-WH-1000xm5-Headphones-672d0ab515ad54b37949b845#utm_source=gdm_unpaid
  https://reverb.com/item/91492218-sony-wh-1000xm5-wireless-noise-canceling-over-the-ear-headphones-silver?utm_campaign=US-Shop_unpaid&utm_medium=cpc&utm_source=google
  https://www.thetedstore.com/products/sony-wh-1000xm5blk-us?currency=USD&variant=40129045889085&utm_source=google&utm_medium=cpc&utm_campaign=Google%20Shopping&stkn=b659bcb48606&gad_source=1&gad_campaignid=22537557305&gbraid=0AAAAADAmM1cNpON24l2EbowMzKB_XcqWW&gclid=Cj0KCQjwqqDFBhDhARIsAIHTlkskFykBTXEOuxY_je01HYLPKmho4LhM3je8NJSR24vOzxXK6OCx-hIaAj5tEALw_wcB
  https://www.newegg.com/p/0TH-000U-00JZ4?item=9SIA29PK9N4805&utm_source=google&utm_medium=organic+shopping&utm_campaign=knc-googleadwords-_-headphones+and+accessories-_-sony-_-9SIA29PK9N4805&source=region&srsltid=AfmBOooONnd3a1lju0DgyhpdXlT1VtUp_skJdsx_uYH1DdHKLWPNe_DWBuY&com_cvv=8fb3d522dc163aeadb66e08cd7450cbbdddc64c6cf2e8891f6d48747c6d56d2c
"""

输出结果：

根据提供的 URL，Sony WH-1000XM5 耳机的三个最便宜价格如下：

1. **$145.00** 在 Reverb
2. **$258.99** 在 Teds Electronics
3. **$329.99** 在 Sony

示例 3 — 公司财务分析与比较

这个例子中，我们将比较亚马逊和微软 2025 年第二季度的财报。我们要求模型分析两份报告，提取关键信息，并总结两家公司的关键优势和战略。数据来自公开的 SEC 10-Q 财报。

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY_HERE')

MODEL_ID = "gemini-2.5-pro"

microsoft_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0000789019/000095017025100235/msft-20250630.htm"
amazon_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0001018724/000101872425000086/amzn-20250630.htm"

prompt = f"""
请扮演资深财务分析师，对亚马逊和微软的最新季度财报进行比较分析。

请访问并彻底分析以下两个 URL 的内容：
1. **微软财报**：{microsoft_earnings_url}
2. **亚马逊财报**：{amazon_earnings_url}

仅基于这两个文件的信息，执行以下任务：

1. **提取和比较关键财务指标**：
   - 提取两家公司的总收入、净利润和每股摊薄收益（EPS）。
   - 用清晰的 Markdown 表格格式展示这些核心指标，便于比较。

2. **分析和总结管理层评论**：
   - 审阅包含 CEO（微软：Satya Nadella，亚马逊：Jeff Bezos）和 CFO 引言的部分。
   - 为每家公司写一段总结，概述他们强调的主题。根据他们的说法，业绩的主要驱动因素是什么？评论的整体语气如何（例如，乐观、谨慎）？

3. **识别和对比战略重点**：
   - 指出每家公司强调的主要增长驱动业务板块或产品类别（例如，微软的 Cloud 和 AI，亚马逊的 AWS 服务等）。
   - 对比本季度的主要战略重点。一家更专注于企业/云服务，另一家更注重消费者硬件和生态系统增长吗？

4. **综合结论性执行摘要**：
   - 写一段简洁的总结，综合分析结果。基于这些报告，比较两家公司的整体健康状况和当前战略态势。例如，总结哪家公司在本季度表现出更强的增长，以及在哪些领域。

仅输出最终分析，无需输出中间步骤或数据。
"""

config = {
    "tools": [{"url_context": {}}],
}

response = client.models.generate_content(
    contents=[prompt],
    model=MODEL_ID,
    config=config
)

display(Markdown(response.text))

输出结果：

以下是对亚马逊和微软最新季度财报的比较分析。

1. 关键财务指标

指标	亚马逊 (Q2 2025)	微软 (FY25 Q2)
总收入	1437 亿美元	619 亿美元
净利润	104 亿美元	219 亿美元
每股摊薄收益	1 美元	2.94 美元

2. 管理层评论分析

微软：

微软的管理层，以 CEO Satya Nadella 为首，保持高度乐观的语气，强调 AI 对业务的变革性影响。Nadella 的评论突出 Microsoft Cloud 作为主要业绩驱动因素，提到它帮助客户大规模应用 AI。CFO Amy Hood 进一步指出，强劲的季度业绩由 Microsoft Cloud 推动，收入增长 23%。微软领导层的核心主题是，AI 投资不仅带来回报，还从根本上重塑了产品和客户关系，带来显著增长和市场领导地位。

亚马逊：

亚马逊的领导层，包括 CEO Jeff Bezos，展现出自信和前瞻性的视角。评论突出 AWS 的强劲表现，以及公司在 AI 领域的持续创新，特别是 Bedrock 服务和定制 AI 芯片的开发。Bezos 强调公司以客户为中心的长期创新。整体语气充满乐观，明确传递出亚马逊在 AI 和云计算的投资正带来丰厚成果，并将继续成为战略核心。

3. 战略重点对比

微软：

微软本季度的战略重点高度集中于企业和云服务，特别强调人工智能。报告反复提到 Microsoft Cloud 是成功的关键，具体提到 Azure、Dynamics 365 和 Microsoft 365 等产品，这些产品都融入了 AI 功能。CEO Satya Nadella 明确指出，帮助客户大规模应用 AI 是公司的关键差异化和增长驱动力。

亚马逊：

亚马逊的战略重点虽然也大力投资于 AWS 的云和 AI，但范围更广，涵盖了其庞大的电子商务和面向消费者的业务。报告强调 AWS 的收入和营业收入增长，突出其在 AI 领域的创新，如 Bedrock 服务。但与微软不同，亚马逊的报告还提到其消费者业务的实力，注重选择、价格和便利性，以及广告服务的增长。

4. 执行摘要

根据最新季度报告，微软和亚马逊都展现出强劲的财务健康状况，并战略性地定位于云计算和人工智能的增长。微软的报告显示出更聚焦的战略，Microsoft Cloud 及其集成的 AI 能力是增长的主要引擎，带来令人印象深刻的盈利能力。亚马逊在 AWS 领域也实现了显著增长，但其战略更多元化，平衡了企业云业务与庞大的电子商务和广告业务。在本季度，微软在净利润和每股收益上表现出更强劲的增长，反映了其企业软件和云业务的高利润率。

示例 4 — 使用 Google Search Grounding

我之前提到，你可以结合 Google search grounding 和 URL grounding 使用，但 search grounding 到底是什么？

简单来说，search grounding 适用于需要当前信息或外部知识的查询。使用 Google Search，Gemini 可以访问几乎实时的信息，提供更好的回答。

要启用 Google Search Grounding，在 generate_content 的 config 中添加 google_search 工具，如下：

...
config={
      "tools": [
        {
          "google_search": {}
        }
      ]
    },
...

现在我们可以提问了。九月最后一个周末举办的 Ryder Cup 是一场激动人心的 golf 赛事。但哪位选手确保了欧洲队卫冕成功？

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY_HERE')

MODEL_ID = "gemini-2.5-pro"

response = client.models.generate_content(
    model=MODEL_ID,
    contents="哪位选手的推杆确保了 2025 年 Ryder Cup 欧洲队的卫冕？",
    config={"tools": [{"google_search": {}}]},
)

display(Markdown(response.text))

输出结果：

Shane Lowry 的关键推杆确保了 2025 年 Ryder Cup 欧洲队的卫冕，欧洲队在 Bethpage Black 以 15-13 击败美国队的最后一天激烈反扑。

欧洲队在周日单人赛前以 11.5-4.5 的领先优势进入，只需再拿 2.5 分即可卫冕。美国队奋力反击，赢得了前七场比赛中的五场，制造了紧张的下午。

在压力之下，爱尔兰选手 Shane Lowry 贡献了决定性一刻。他的推杆确保欧洲队达到 14 分，锁定卫冕冠军。Tyrrell Hatton 随后为欧洲队锁定了彻底的胜利。

这是欧洲队自 2012 年以来首次在美洲土地上赢得 Ryder Cup。比赛并非没有争议，一些观众对欧洲队的不友好行为引发了讨论。

答案完全正确！

虽然我这里没有具体展示，但你应该能看出，结合 Google search grounding 和 Google URL context grounding 构建引人注目的数据检索工具是多么简单。

总结

本文介绍了 Google 为 Gemini 推出的新功能 URL context grounding，它让开发者可以直接查询和分析特定网页 URL（包括 PDF）的内容，而无需传统 RAG 流程，如文本提取、分块和向量化。

我通过 Jupyter notebook 展示了它的易用性，成功从特斯拉的 10-Q SEC 备案文件中检索数据，比较在线商店的产品价格，并分析了亚马逊和微软 2025 年第二季度的财务表现。

尽管有不支持付费墙内容和某些媒体内容的限制，这篇文章强调了 URL context grounding 在深入文档查询、数据提取、比较和综合方面的能力——通过基于真实来源的回答提升准确性。

对于许多用例，这个工具有效替代了传统 RAG 工作流，特别是结合 Google Search grounding 时，能实现更复杂的代理工作流、事实可靠性以及多模态内容分析。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业