免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


告别 RAG?Google 用 URL 上下文 Grounding 持续发力

发布日期:2025-10-12 08:41:47 浏览次数: 1526
作者:AI大模型观察站

微信搜一搜,关注“AI大模型观察站”

推荐语

Google最新推出的URL Context Grounding工具,让AI直接理解网页内容,无需繁琐的RAG处理步骤,准确高效。

核心内容:
1. URL Context Grounding的工作原理与优势
2. 工具的使用方法与开发环境搭建
3. 实际应用示例与当前限制

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

Google 在 AI 相关产品上的热潮势不可挡。就在几周前,它为 Gemini 推出了一款新工具——URL context grounding

URL context grounding 可以单独使用,也可以结合 Google search grounding,用来深入挖掘网络内容。

什么是 URL Context Grounding?

简单来说,这是一种让 Gemini 程序化地读取、理解并回答关于单个网页 URL(包括指向 PDF 的链接)内容的提问方式,而无需进行传统的 RAG(Retrieval-Augmented Generation)处理。

换句话说,你不需要提取 URL 的文本和内容、分块、向量化、存储等等繁琐步骤。你只要告诉 Google 你感兴趣的 URL,然后就能直接上手。接下来你会看到,它的代码实现非常简单,而且准确率很高。

正因如此,我才说,这可能是给 RAG 棺材钉上的又一颗钉子。

但它真的好用吗?我们来看几个例子。

我先在 Windows 的 Ubuntu WSL2 上搭建开发环境。你可以跟着做,或者用你习惯的方式。

$ uv init url_context
cd url_context
$ uv venv url_context
$ uv pip install jupyter
$ uv pip install "google-genai>=1.16.0"

你还需要一个 Google API key。如果你还没有,可以去 Google AI Studio 注册,设置你的密钥。链接在仪表板页面的右上角附近。

Google AI Studio
aistudio.google.com

在你的 shell 运行以下命令,会在浏览器中打开一个新的 Notebook 标签页:

$ jupyter notebook

需要注意的一些限制

在开始写代码示例之前,有几点关于 URL context grounding 的限制和约束你需要知道:

  • 每次请求最多支持 20 个 URL。
  • 单个 URL 检索的内容最大为 34MB。
  • 以下内容类型不受支持:
    • 付费墙内容
    • YouTube 视频
    • Google Workspace 文件,如 Google Docs 或电子表格
    • 视频和音频文件

了解了这些,我们开始看例子吧!

示例 1 — 解析复杂的在线 PDF

我测试 RAG 或类似处理 PDF 数据时,常用的测试文件是特斯拉的 10-Q 季度财报。这份文件很长,大约 50 页,包含复杂的表格和其他布局元素。

作为 SEC 备案文件,它的内容是公开的,完全免费使用。

如果你想自己看看,这份文件在这里:

https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf

对于这个 PDF,我的问题一直是:

“2022 年和 2023 年的总负债和总资产是多少?”

答案在文件的第 4 页。以下是那一页的内容。



图片来自特斯拉 10-Q SEC 备案文件

对人类来说,答案很好找。你可以看到,2022/2023 年的总资产(单位:百万美元)分别是 $82,338 和 $93,941,总负债分别是 $36,440 和 $39,446

在过去(大概 18 个月前!),用传统 RAG 方法从这份文件中提取信息可不容易。

那 Google URL context grounding 表现如何呢?

在你的 Jupyter notebook 中,输入以下代码:

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY HERE')

# 我们可以使用大多数 Gemini 模型,比如 2.5 Flash 等
MODEL_ID = "gemini-2.5-pro"

prompt = """
  根据这个 PDF 的内容 https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf,2022 年和 2023 年的总负债和总资产是多少?请按以下格式列出:
                   September 30 2023    December 31, 2022
Total Assets         $123               $456
Total Liabilities    $67                $23

不要输出其他内容,仅输出以上信息
"""


config = {
    "tools": [{"url_context": {}}],
}

response = client.models.generate_content(
    contents=[prompt],
    model=MODEL_ID,
    config=config
)

display(response.text)

就这么几行代码,看看输出结果吧:

September 30 2023    December 31, 2022
Total Assets         $93,941              $82,338
Total Liabilities    $39,446              $36,440

完全正确!表现不错。

我们再看看它能不能提取其他信息。PDF 末尾有一封写给即将离职员工的信,概述了他们的离职条款。URL context grounding 能判断出信中提到的离职日期为什么用星号(***)标记吗?以下是信的片段:


图片来自特斯拉 10-Q SEC 备案文件

离职日期被掩盖的原因在脚注中说明:

图片来自特斯拉 10-Q SEC 备案文件

除了 prompt 外,其他代码不变,我只展示 prompt 部分:

...
prompt = """
  根据 https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf,员工离职信中提到的离职日期为什么用 *** 标记?
"""

...

输出结果是:

根据提供的文件,员工离职信中的离职日期用 “[***]” 标记,是因为公司将某些非重要信息视为私密或机密,故意从公开文件中省略。

文件中有一条说明:“某些特定信息已从本文件中省略,因为这些信息不重要且公司视为私密或机密,并用 ‘[***]’ 标记省略处。”

再次精准命中!

URL Context Grounding 的其他用途

在我看来,它开启了许多新机会,包括:

  • 深入内容分析与综合
    该工具可以从多个 URL 提取特定信息,如价格、名称或关键发现。
  • 文档比较
    它可以分析多份报告、文章甚至 PDF,找出差异并跟踪趋势。
  • 内容创作
    通过整合多个 URL 的信息,AI 可以生成准确的摘要、博客文章或报告。例如,开发者可以用它比较两个不同网站的食谱,分析食材和烹饪时间。
  • 代码和文档分析
    开发者可以将 AI 指向 GitHub 仓库或技术文档,让它解释代码、生成设置说明或回答具体问题。
  • 复杂的工作流
    结合 Google Search 的广泛发现能力和 URL context 工具的深入分析,可以构建复杂多步骤任务。AI 代理可以先搜索相关文章,再用 URL context 工具深入“阅读”并综合最相关的搜索结果信息。
  • Gemini CLI
    一个开源 AI 代理,利用 URL context 工具的 web-fetch 命令,让开发者可以快速总结网页、提取关键信息或直接从终端翻译内容。
  • 提升事实准确性,减少幻觉
    通过将回答基于特定网页内容,AI 的事实准确性提高,减少生成错误或捏造信息的可能性。它还能为回答提供引用,增强用户信任。
  • 支持多种内容类型
    • PDF
      :AI 可以提取文本并理解 PDF 中的表格结构,适合处理报告和手册。
    • 图片
      :它可以处理和分析多种格式(PNG、JPEG、BMP、WebP)的图片,利用多模态能力理解图表和图形。
    • 网页和数据文件
      :继续支持 HTML、JSON、XML、CSV 和纯文本文件,适用性广泛。

示例 2:在线产品价格比较

第二个例子,假设我们要买一副新耳机。我们将几个在线商店的 URL 喂给代码,让模型找出符合我们规格的三款最便宜的产品。

这个例子可能有点多余,因为网上有不少购物比较网站,但它只是为了展示这个工具的潜力。

假设我们想买 Sony WH-1000XM5 无线降噪耳机,找到了几家价格最具竞争力的在线商店,但价格几乎每天都在变。我们来写一个脚本,随时运行都能返回三家最便宜的商店。

代码与第一个例子相同,只有 prompt 不同:

prompt = """
  根据以下 URL,输出 Sony WH-1000XM5 耳机的三个最便宜价格及对应商店:

  https://electronics.sony.com/audio/headphones/headband/p/wh1000xm5-b?srsltid=AfmBOopJmjebTtZEieUvHEf5xEke7C7piVi3BdlSUdTPJH3wuBfTksJy
  https://tristatecamera.com/product/TRI_STATE_CAMERA_Sony_WH-1000XM5_Wireless_Noise-Canceling_Over-Ear_Headphones_Black_1_Yr_WH1000XM5BS2.html?refid=279&KPID=SONWH1000XM5BS2&fl=GSOrganic&srsltid=AfmBOoqnE7vgc1uOELadhkaRlhHuJx3HGRTV5ICN7ihNkFXI_UEuImZ2gXU
  https://poshmark.com/listing/Sony-WH-1000xm5-Headphones-672d0ab515ad54b37949b845#utm_source=gdm_unpaid
  https://reverb.com/item/91492218-sony-wh-1000xm5-wireless-noise-canceling-over-the-ear-headphones-silver?utm_campaign=US-Shop_unpaid&utm_medium=cpc&utm_source=google
  https://www.thetedstore.com/products/sony-wh-1000xm5blk-us?currency=USD&variant=40129045889085&utm_source=google&utm_medium=cpc&utm_campaign=Google%20Shopping&stkn=b659bcb48606&gad_source=1&gad_campaignid=22537557305&gbraid=0AAAAADAmM1cNpON24l2EbowMzKB_XcqWW&gclid=Cj0KCQjwqqDFBhDhARIsAIHTlkskFykBTXEOuxY_je01HYLPKmho4LhM3je8NJSR24vOzxXK6OCx-hIaAj5tEALw_wcB
  https://www.newegg.com/p/0TH-000U-00JZ4?item=9SIA29PK9N4805&utm_source=google&utm_medium=organic+shopping&utm_campaign=knc-googleadwords-_-headphones+and+accessories-_-sony-_-9SIA29PK9N4805&source=region&srsltid=AfmBOooONnd3a1lju0DgyhpdXlT1VtUp_skJdsx_uYH1DdHKLWPNe_DWBuY&com_cvv=8fb3d522dc163aeadb66e08cd7450cbbdddc64c6cf2e8891f6d48747c6d56d2c
"""

输出结果:

根据提供的 URL,Sony WH-1000XM5 耳机的三个最便宜价格如下:

1. **$145.00** 在 Reverb
2. **$258.99** 在 Teds Electronics
3. **$329.99** 在 Sony

示例 3 — 公司财务分析与比较

这个例子中,我们将比较亚马逊和微软 2025 年第二季度的财报。我们要求模型分析两份报告,提取关键信息,并总结两家公司的关键优势和战略。数据来自公开的 SEC 10-Q 财报。

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY_HERE')

MODEL_ID = "gemini-2.5-pro"

microsoft_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0000789019/000095017025100235/msft-20250630.htm"
amazon_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0001018724/000101872425000086/amzn-20250630.htm"

prompt = f"""
请扮演资深财务分析师,对亚马逊和微软的最新季度财报进行比较分析。

请访问并彻底分析以下两个 URL 的内容:
1. **微软财报**:{microsoft_earnings_url}
2. **亚马逊财报**:{amazon_earnings_url}

仅基于这两个文件的信息,执行以下任务:

1. **提取和比较关键财务指标**:
   - 提取两家公司的总收入、净利润和每股摊薄收益(EPS)。
   - 用清晰的 Markdown 表格格式展示这些核心指标,便于比较。

2. **分析和总结管理层评论**:
   - 审阅包含 CEO(微软:Satya Nadella,亚马逊:Jeff Bezos)和 CFO 引言的部分。
   - 为每家公司写一段总结,概述他们强调的主题。根据他们的说法,业绩的主要驱动因素是什么?评论的整体语气如何(例如,乐观、谨慎)?

3. **识别和对比战略重点**:
   - 指出每家公司强调的主要增长驱动业务板块或产品类别(例如,微软的 Cloud 和 AI,亚马逊的 AWS 服务等)。
   - 对比本季度的主要战略重点。一家更专注于企业/云服务,另一家更注重消费者硬件和生态系统增长吗?

4. **综合结论性执行摘要**:
   - 写一段简洁的总结,综合分析结果。基于这些报告,比较两家公司的整体健康状况和当前战略态势。例如,总结哪家公司在本季度表现出更强的增长,以及在哪些领域。

仅输出最终分析,无需输出中间步骤或数据。
"""


config = {
    "tools": [{"url_context": {}}],
}

response = client.models.generate_content(
    contents=[prompt],
    model=MODEL_ID,
    config=config
)

display(Markdown(response.text))

输出结果:

以下是对亚马逊和微软最新季度财报的比较分析。

1. 关键财务指标

指标
亚马逊 (Q2 2025)
微软 (FY25 Q2)
总收入
1437 亿美元
619 亿美元
净利润
104 亿美元
219 亿美元
每股摊薄收益
1 美元
2.94 美元

2. 管理层评论分析

微软

微软的管理层,以 CEO Satya Nadella 为首,保持高度乐观的语气,强调 AI 对业务的变革性影响。Nadella 的评论突出 Microsoft Cloud 作为主要业绩驱动因素,提到它帮助客户大规模应用 AI。CFO Amy Hood 进一步指出,强劲的季度业绩由 Microsoft Cloud 推动,收入增长 23%。微软领导层的核心主题是,AI 投资不仅带来回报,还从根本上重塑了产品和客户关系,带来显著增长和市场领导地位。

亚马逊

亚马逊的领导层,包括 CEO Jeff Bezos,展现出自信和前瞻性的视角。评论突出 AWS 的强劲表现,以及公司在 AI 领域的持续创新,特别是 Bedrock 服务和定制 AI 芯片的开发。Bezos 强调公司以客户为中心的长期创新。整体语气充满乐观,明确传递出亚马逊在 AI 和云计算的投资正带来丰厚成果,并将继续成为战略核心。

3. 战略重点对比

微软

微软本季度的战略重点高度集中于企业和云服务,特别强调人工智能。报告反复提到 Microsoft Cloud 是成功的关键,具体提到 Azure、Dynamics 365 和 Microsoft 365 等产品,这些产品都融入了 AI 功能。CEO Satya Nadella 明确指出,帮助客户大规模应用 AI 是公司的关键差异化和增长驱动力。

亚马逊

亚马逊的战略重点虽然也大力投资于 AWS 的云和 AI,但范围更广,涵盖了其庞大的电子商务和面向消费者的业务。报告强调 AWS 的收入和营业收入增长,突出其在 AI 领域的创新,如 Bedrock 服务。但与微软不同,亚马逊的报告还提到其消费者业务的实力,注重选择、价格和便利性,以及广告服务的增长。

4. 执行摘要

根据最新季度报告,微软和亚马逊都展现出强劲的财务健康状况,并战略性地定位于云计算和人工智能的增长。微软的报告显示出更聚焦的战略,Microsoft Cloud 及其集成的 AI 能力是增长的主要引擎,带来令人印象深刻的盈利能力。亚马逊在 AWS 领域也实现了显著增长,但其战略更多元化,平衡了企业云业务与庞大的电子商务和广告业务。在本季度,微软在净利润和每股收益上表现出更强劲的增长,反映了其企业软件和云业务的高利润率。

示例 4 — 使用 Google Search Grounding

我之前提到,你可以结合 Google search grounding 和 URL grounding 使用,但 search grounding 到底是什么?

简单来说,search grounding 适用于需要当前信息或外部知识的查询。使用 Google Search,Gemini 可以访问几乎实时的信息,提供更好的回答。

要启用 Google Search Grounding,在 generate_content 的 config 中添加 google_search 工具,如下:

...
config={
      "tools": [
        {
          "google_search": {}
        }
      ]
    },
...

现在我们可以提问了。九月最后一个周末举办的 Ryder Cup 是一场激动人心的 golf 赛事。但哪位选手确保了欧洲队卫冕成功?

from google import genai
from google.genai import types

from IPython.display import HTML, Markdown

client = genai.Client(api_key='YOUR_API_KEY_HERE')

MODEL_ID = "gemini-2.5-pro"

response = client.models.generate_content(
    model=MODEL_ID,
    contents="哪位选手的推杆确保了 2025 年 Ryder Cup 欧洲队的卫冕?",
    config={"tools": [{"google_search": {}}]},
)

display(Markdown(response.text))

输出结果:

Shane Lowry 的关键推杆确保了 2025 年 Ryder Cup 欧洲队的卫冕,欧洲队在 Bethpage Black 以 15-13 击败美国队的最后一天激烈反扑。

欧洲队在周日单人赛前以 11.5-4.5 的领先优势进入,只需再拿 2.5 分即可卫冕。美国队奋力反击,赢得了前七场比赛中的五场,制造了紧张的下午。

在压力之下,爱尔兰选手 Shane Lowry 贡献了决定性一刻。他的推杆确保欧洲队达到 14 分,锁定卫冕冠军。Tyrrell Hatton 随后为欧洲队锁定了彻底的胜利。

这是欧洲队自 2012 年以来首次在美洲土地上赢得 Ryder Cup。比赛并非没有争议,一些观众对欧洲队的不友好行为引发了讨论。

答案完全正确!

虽然我这里没有具体展示,但你应该能看出,结合 Google search grounding 和 Google URL context grounding 构建引人注目的数据检索工具是多么简单。

总结

本文介绍了 Google 为 Gemini 推出的新功能 URL context grounding,它让开发者可以直接查询和分析特定网页 URL(包括 PDF)的内容,而无需传统 RAG 流程,如文本提取、分块和向量化。

我通过 Jupyter notebook 展示了它的易用性,成功从特斯拉的 10-Q SEC 备案文件中检索数据,比较在线商店的产品价格,并分析了亚马逊和微软 2025 年第二季度的财务表现。

尽管有不支持付费墙内容和某些媒体内容的限制,这篇文章强调了 URL context grounding 在深入文档查询、数据提取、比较和综合方面的能力——通过基于真实来源的回答提升准确性。

对于许多用例,这个工具有效替代了传统 RAG 工作流,特别是结合 Google Search grounding 时,能实现更复杂的代理工作流、事实可靠性以及多模态内容分析。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询