微信扫码
添加专属顾问
我要投稿
Google最新推出的URL Context Grounding工具,让AI直接理解网页内容,无需繁琐的RAG处理步骤,准确高效。核心内容: 1. URL Context Grounding的工作原理与优势 2. 工具的使用方法与开发环境搭建 3. 实际应用示例与当前限制
Google 在 AI 相关产品上的热潮势不可挡。就在几周前,它为 Gemini 推出了一款新工具——URL context grounding。
URL context grounding 可以单独使用,也可以结合 Google search grounding,用来深入挖掘网络内容。
简单来说,这是一种让 Gemini 程序化地读取、理解并回答关于单个网页 URL(包括指向 PDF 的链接)内容的提问方式,而无需进行传统的 RAG(Retrieval-Augmented Generation)处理。
换句话说,你不需要提取 URL 的文本和内容、分块、向量化、存储等等繁琐步骤。你只要告诉 Google 你感兴趣的 URL,然后就能直接上手。接下来你会看到,它的代码实现非常简单,而且准确率很高。
正因如此,我才说,这可能是给 RAG 棺材钉上的又一颗钉子。
但它真的好用吗?我们来看几个例子。
我先在 Windows 的 Ubuntu WSL2 上搭建开发环境。你可以跟着做,或者用你习惯的方式。
$ uv init url_context
$ cd url_context
$ uv venv url_context
$ uv pip install jupyter
$ uv pip install "google-genai>=1.16.0"
你还需要一个 Google API key。如果你还没有,可以去 Google AI Studio 注册,设置你的密钥。链接在仪表板页面的右上角附近。
Google AI Studio
aistudio.google.com
在你的 shell 运行以下命令,会在浏览器中打开一个新的 Notebook 标签页:
$ jupyter notebook
在开始写代码示例之前,有几点关于 URL context grounding 的限制和约束你需要知道:
了解了这些,我们开始看例子吧!
我测试 RAG 或类似处理 PDF 数据时,常用的测试文件是特斯拉的 10-Q 季度财报。这份文件很长,大约 50 页,包含复杂的表格和其他布局元素。
作为 SEC 备案文件,它的内容是公开的,完全免费使用。
如果你想自己看看,这份文件在这里:
https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf
对于这个 PDF,我的问题一直是:
“2022 年和 2023 年的总负债和总资产是多少?”
答案在文件的第 4 页。以下是那一页的内容。
图片来自特斯拉 10-Q SEC 备案文件
对人类来说,答案很好找。你可以看到,2022/2023 年的总资产(单位:百万美元)分别是 $82,338 和 $93,941,总负债分别是 $36,440 和 $39,446。
在过去(大概 18 个月前!),用传统 RAG 方法从这份文件中提取信息可不容易。
那 Google URL context grounding 表现如何呢?
在你的 Jupyter notebook 中,输入以下代码:
from google import genai
from google.genai import types
from IPython.display import HTML, Markdown
client = genai.Client(api_key='YOUR_API_KEY HERE')
# 我们可以使用大多数 Gemini 模型,比如 2.5 Flash 等
MODEL_ID = "gemini-2.5-pro"
prompt = """
根据这个 PDF 的内容 https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf,2022 年和 2023 年的总负债和总资产是多少?请按以下格式列出:
September 30 2023 December 31, 2022
Total Assets $123 $456
Total Liabilities $67 $23
不要输出其他内容,仅输出以上信息
"""
config = {
"tools": [{"url_context": {}}],
}
response = client.models.generate_content(
contents=[prompt],
model=MODEL_ID,
config=config
)
display(response.text)
就这么几行代码,看看输出结果吧:
September 30 2023 December 31, 2022
Total Assets $93,941 $82,338
Total Liabilities $39,446 $36,440
完全正确!表现不错。
我们再看看它能不能提取其他信息。PDF 末尾有一封写给即将离职员工的信,概述了他们的离职条款。URL context grounding 能判断出信中提到的离职日期为什么用星号(***)标记吗?以下是信的片段:
图片来自特斯拉 10-Q SEC 备案文件
离职日期被掩盖的原因在脚注中说明:
图片来自特斯拉 10-Q SEC 备案文件
除了 prompt 外,其他代码不变,我只展示 prompt 部分:
...
prompt = """
根据 https://ir.tesla.com/_flysystem/s3/sec/000162828023034847/tsla-20230930-gen.pdf,员工离职信中提到的离职日期为什么用 *** 标记?
"""
...
输出结果是:
根据提供的文件,员工离职信中的离职日期用 “[***]” 标记,是因为公司将某些非重要信息视为私密或机密,故意从公开文件中省略。
文件中有一条说明:“某些特定信息已从本文件中省略,因为这些信息不重要且公司视为私密或机密,并用 ‘[***]’ 标记省略处。”
再次精准命中!
在我看来,它开启了许多新机会,包括:
第二个例子,假设我们要买一副新耳机。我们将几个在线商店的 URL 喂给代码,让模型找出符合我们规格的三款最便宜的产品。
这个例子可能有点多余,因为网上有不少购物比较网站,但它只是为了展示这个工具的潜力。
假设我们想买 Sony WH-1000XM5 无线降噪耳机,找到了几家价格最具竞争力的在线商店,但价格几乎每天都在变。我们来写一个脚本,随时运行都能返回三家最便宜的商店。
代码与第一个例子相同,只有 prompt 不同:
prompt = """
根据以下 URL,输出 Sony WH-1000XM5 耳机的三个最便宜价格及对应商店:
https://electronics.sony.com/audio/headphones/headband/p/wh1000xm5-b?srsltid=AfmBOopJmjebTtZEieUvHEf5xEke7C7piVi3BdlSUdTPJH3wuBfTksJy
https://tristatecamera.com/product/TRI_STATE_CAMERA_Sony_WH-1000XM5_Wireless_Noise-Canceling_Over-Ear_Headphones_Black_1_Yr_WH1000XM5BS2.html?refid=279&KPID=SONWH1000XM5BS2&fl=GSOrganic&srsltid=AfmBOoqnE7vgc1uOELadhkaRlhHuJx3HGRTV5ICN7ihNkFXI_UEuImZ2gXU
https://poshmark.com/listing/Sony-WH-1000xm5-Headphones-672d0ab515ad54b37949b845#utm_source=gdm_unpaid
https://reverb.com/item/91492218-sony-wh-1000xm5-wireless-noise-canceling-over-the-ear-headphones-silver?utm_campaign=US-Shop_unpaid&utm_medium=cpc&utm_source=google
https://www.thetedstore.com/products/sony-wh-1000xm5blk-us?currency=USD&variant=40129045889085&utm_source=google&utm_medium=cpc&utm_campaign=Google%20Shopping&stkn=b659bcb48606&gad_source=1&gad_campaignid=22537557305&gbraid=0AAAAADAmM1cNpON24l2EbowMzKB_XcqWW&gclid=Cj0KCQjwqqDFBhDhARIsAIHTlkskFykBTXEOuxY_je01HYLPKmho4LhM3je8NJSR24vOzxXK6OCx-hIaAj5tEALw_wcB
https://www.newegg.com/p/0TH-000U-00JZ4?item=9SIA29PK9N4805&utm_source=google&utm_medium=organic+shopping&utm_campaign=knc-googleadwords-_-headphones+and+accessories-_-sony-_-9SIA29PK9N4805&source=region&srsltid=AfmBOooONnd3a1lju0DgyhpdXlT1VtUp_skJdsx_uYH1DdHKLWPNe_DWBuY&com_cvv=8fb3d522dc163aeadb66e08cd7450cbbdddc64c6cf2e8891f6d48747c6d56d2c
"""
输出结果:
根据提供的 URL,Sony WH-1000XM5 耳机的三个最便宜价格如下:
1. **$145.00** 在 Reverb
2. **$258.99** 在 Teds Electronics
3. **$329.99** 在 Sony
这个例子中,我们将比较亚马逊和微软 2025 年第二季度的财报。我们要求模型分析两份报告,提取关键信息,并总结两家公司的关键优势和战略。数据来自公开的 SEC 10-Q 财报。
from google import genai
from google.genai import types
from IPython.display import HTML, Markdown
client = genai.Client(api_key='YOUR_API_KEY_HERE')
MODEL_ID = "gemini-2.5-pro"
microsoft_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0000789019/000095017025100235/msft-20250630.htm"
amazon_earnings_url = "https://www.sec.gov/ix?doc=/Archives/edgar/data/0001018724/000101872425000086/amzn-20250630.htm"
prompt = f"""
请扮演资深财务分析师,对亚马逊和微软的最新季度财报进行比较分析。
请访问并彻底分析以下两个 URL 的内容:
1. **微软财报**:{microsoft_earnings_url}
2. **亚马逊财报**:{amazon_earnings_url}
仅基于这两个文件的信息,执行以下任务:
1. **提取和比较关键财务指标**:
- 提取两家公司的总收入、净利润和每股摊薄收益(EPS)。
- 用清晰的 Markdown 表格格式展示这些核心指标,便于比较。
2. **分析和总结管理层评论**:
- 审阅包含 CEO(微软:Satya Nadella,亚马逊:Jeff Bezos)和 CFO 引言的部分。
- 为每家公司写一段总结,概述他们强调的主题。根据他们的说法,业绩的主要驱动因素是什么?评论的整体语气如何(例如,乐观、谨慎)?
3. **识别和对比战略重点**:
- 指出每家公司强调的主要增长驱动业务板块或产品类别(例如,微软的 Cloud 和 AI,亚马逊的 AWS 服务等)。
- 对比本季度的主要战略重点。一家更专注于企业/云服务,另一家更注重消费者硬件和生态系统增长吗?
4. **综合结论性执行摘要**:
- 写一段简洁的总结,综合分析结果。基于这些报告,比较两家公司的整体健康状况和当前战略态势。例如,总结哪家公司在本季度表现出更强的增长,以及在哪些领域。
仅输出最终分析,无需输出中间步骤或数据。
"""
config = {
"tools": [{"url_context": {}}],
}
response = client.models.generate_content(
contents=[prompt],
model=MODEL_ID,
config=config
)
display(Markdown(response.text))
输出结果:
以下是对亚马逊和微软最新季度财报的比较分析。
微软:
微软的管理层,以 CEO Satya Nadella 为首,保持高度乐观的语气,强调 AI 对业务的变革性影响。Nadella 的评论突出 Microsoft Cloud 作为主要业绩驱动因素,提到它帮助客户大规模应用 AI。CFO Amy Hood 进一步指出,强劲的季度业绩由 Microsoft Cloud 推动,收入增长 23%。微软领导层的核心主题是,AI 投资不仅带来回报,还从根本上重塑了产品和客户关系,带来显著增长和市场领导地位。
亚马逊:
亚马逊的领导层,包括 CEO Jeff Bezos,展现出自信和前瞻性的视角。评论突出 AWS 的强劲表现,以及公司在 AI 领域的持续创新,特别是 Bedrock 服务和定制 AI 芯片的开发。Bezos 强调公司以客户为中心的长期创新。整体语气充满乐观,明确传递出亚马逊在 AI 和云计算的投资正带来丰厚成果,并将继续成为战略核心。
微软:
微软本季度的战略重点高度集中于企业和云服务,特别强调人工智能。报告反复提到 Microsoft Cloud 是成功的关键,具体提到 Azure、Dynamics 365 和 Microsoft 365 等产品,这些产品都融入了 AI 功能。CEO Satya Nadella 明确指出,帮助客户大规模应用 AI 是公司的关键差异化和增长驱动力。
亚马逊:
亚马逊的战略重点虽然也大力投资于 AWS 的云和 AI,但范围更广,涵盖了其庞大的电子商务和面向消费者的业务。报告强调 AWS 的收入和营业收入增长,突出其在 AI 领域的创新,如 Bedrock 服务。但与微软不同,亚马逊的报告还提到其消费者业务的实力,注重选择、价格和便利性,以及广告服务的增长。
根据最新季度报告,微软和亚马逊都展现出强劲的财务健康状况,并战略性地定位于云计算和人工智能的增长。微软的报告显示出更聚焦的战略,Microsoft Cloud 及其集成的 AI 能力是增长的主要引擎,带来令人印象深刻的盈利能力。亚马逊在 AWS 领域也实现了显著增长,但其战略更多元化,平衡了企业云业务与庞大的电子商务和广告业务。在本季度,微软在净利润和每股收益上表现出更强劲的增长,反映了其企业软件和云业务的高利润率。
我之前提到,你可以结合 Google search grounding 和 URL grounding 使用,但 search grounding 到底是什么?
简单来说,search grounding 适用于需要当前信息或外部知识的查询。使用 Google Search,Gemini 可以访问几乎实时的信息,提供更好的回答。
要启用 Google Search Grounding,在 generate_content
的 config 中添加 google_search 工具,如下:
...
config={
"tools": [
{
"google_search": {}
}
]
},
...
现在我们可以提问了。九月最后一个周末举办的 Ryder Cup 是一场激动人心的 golf 赛事。但哪位选手确保了欧洲队卫冕成功?
from google import genai
from google.genai import types
from IPython.display import HTML, Markdown
client = genai.Client(api_key='YOUR_API_KEY_HERE')
MODEL_ID = "gemini-2.5-pro"
response = client.models.generate_content(
model=MODEL_ID,
contents="哪位选手的推杆确保了 2025 年 Ryder Cup 欧洲队的卫冕?",
config={"tools": [{"google_search": {}}]},
)
display(Markdown(response.text))
输出结果:
Shane Lowry 的关键推杆确保了 2025 年 Ryder Cup 欧洲队的卫冕,欧洲队在 Bethpage Black 以 15-13 击败美国队的最后一天激烈反扑。
欧洲队在周日单人赛前以 11.5-4.5 的领先优势进入,只需再拿 2.5 分即可卫冕。美国队奋力反击,赢得了前七场比赛中的五场,制造了紧张的下午。
在压力之下,爱尔兰选手 Shane Lowry 贡献了决定性一刻。他的推杆确保欧洲队达到 14 分,锁定卫冕冠军。Tyrrell Hatton 随后为欧洲队锁定了彻底的胜利。
这是欧洲队自 2012 年以来首次在美洲土地上赢得 Ryder Cup。比赛并非没有争议,一些观众对欧洲队的不友好行为引发了讨论。
答案完全正确!
虽然我这里没有具体展示,但你应该能看出,结合 Google search grounding 和 Google URL context grounding 构建引人注目的数据检索工具是多么简单。
本文介绍了 Google 为 Gemini 推出的新功能 URL context grounding,它让开发者可以直接查询和分析特定网页 URL(包括 PDF)的内容,而无需传统 RAG 流程,如文本提取、分块和向量化。
我通过 Jupyter notebook 展示了它的易用性,成功从特斯拉的 10-Q SEC 备案文件中检索数据,比较在线商店的产品价格,并分析了亚马逊和微软 2025 年第二季度的财务表现。
尽管有不支持付费墙内容和某些媒体内容的限制,这篇文章强调了 URL context grounding 在深入文档查询、数据提取、比较和综合方面的能力——通过基于真实来源的回答提升准确性。
对于许多用例,这个工具有效替代了传统 RAG 工作流,特别是结合 Google Search grounding 时,能实现更复杂的代理工作流、事实可靠性以及多模态内容分析。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-10-12
系统综述:GenAI教育研究仍处于起步阶段
2025-10-12
都是Kimi K2,表现却不同?我们测了多家服务商ToolCall性能,并开源了测试集
2025-10-12
中央网信办、国家发展改革委印发《政务领域人工智能大模型部署应用指引》
2025-10-11
Spring AI Alibaba实践|后台定时Agent
2025-10-11
Google Cloud 重磅发布 Gemini Enterprise,重新定义企业级 AI
2025-10-11
Aiops探索:基于Dify+k8s+prometheus+Loki的aiops方案设计
2025-10-11
Anthropic重磅研究:只需250个文档,就能给任意大模型投毒
2025-10-11
AI Infra的演进与挑战:从OpenAI生产事故到未来展望
2025-08-21
2025-08-21
2025-08-19
2025-09-16
2025-07-29
2025-09-08
2025-08-19
2025-09-17
2025-09-29
2025-08-20
2025-10-09
2025-10-09
2025-10-07
2025-10-04
2025-09-30
2025-09-29
2025-09-28
2025-09-27