我要投稿

主流大模型系统提示词对比分析

发布日期：2026-05-05 21:57:27 浏览次数： 1518

作者：吉米的数据观

微信搜一搜，关注“吉米的数据观”

研究对象

本文分析 github.com/asgeirtj/system_prompts_leaks 仓库中各企业的系统提示词，聚焦最新模型版本：

厂商	模型	提示词大小	知识截止
Anthropic	Claude Opus 4.7 / Sonnet 4.6	~250KB	2026年1月
OpenAI	GPT-5.5 (Chat) / GPT-5.5 Codex	~105KB / ~207KB	2025年8月
Google	Gemini 3.1 Pro	~22KB	未标注
xAI	Grok 4.3-beta	~23KB	未标注
阿里	Qwen 3.6 Plus	~6.7KB	2026年

一、结构设计的共性与差异

共性特征

所有提示词都包含以下核心模块：

1.身份声明：明确告知模型"你是谁"（Claude / ChatGPT / Gemini / Grok）

2.时间信息：注入当前日期和知识截止日期

3.工具定义：描述可用工具（搜索、代码执行、文件操作等）

4.安全约束：拒绝有害请求的边界规则

5.风格指引：回复的语气、格式、长度偏好

结构性差异

Anthropic — XML 标签体系（最大、最详细）

使用 XML 标签组织内容，这是最显著的特征。每个模块用<section_name>包裹：

Plain Text
<claude_behavior>
<search_first>...</search_first>
<product_information>...</product_information>
<default_stance>...</default_stance>
<refusal_handling>
<critical_child_safety_instructions>...</critical_child_safety_instructions>
</refusal_handling>
<tone_and_formatting>
<lists_and_bullets>...</lists_and_bullets>
</tone_and_formatting>
<user_wellbeing>...</user_wellbeing>
<evenhandedness>...</evenhandedness>
<memory_system>
<memory_overview>...</memory_overview><memory_application_instructions>...</memory_application_instructions>
<forbidden_memory_phrases>...</forbidden_memory_phrases>
<appropriate_boundaries_re_memory>...</appropriate_boundaries_re_memory>
<memory_application_examples>...</memory_application_examples>
</memory_system>
</claude_behavior>

250KB 的体量是其他家的 5-10 倍，包含了极其详细的记忆系统、示例、边界条件说明。

OpenAI GPT-5.5 — Markdown + 工具通道体系

使用 Markdown 标题组织，但核心创新是"通道"（channel）概念：

Plain Text
# Environment → # Artifacts → # Writing Block → # Tools
  → python (analysis channel)
  → genui (commentary channel)
  → web (analysis channel)

关键特征：

•工具调用分"分析通道"（用户不可见）和"评论通道"（用户可见）

•极其详细的引用（citation）规范，包括特定格式【cite|turn2search5】

•丰富的富 UI 元素规范（天气、股票、体育、图片轮播、产品推荐）

OpenAI Codex GPT-5.5 — 代码专用 + 人格注入

这是 GPT-5.5 的代码专用版本，有两个独特设计：

•人格注入占位符：{{ personality }} 可在 friendly / pragmatic 之间切换

•双通道输出：commentary（工作中更新）和 final（最终回答）

Plain Text
{{ personality }}

# General → Engineering judgment → Frontend guidance
→ Build with empathy → Design instructions → Editing constraints
→ Special user requests → Autonomy and persistence
# Working with the user → Formatting rules → Final answer instructions

Google Gemini 3.1 Pro — 精简 + 5步个性化协议

只有 22KB，结构最简洁。最大特色是一个 5 步个性化协议：

Plain Text
Step 1: Value-Driven Personalization Scope（判断是否需要个性化）
Step 2: Strict Selection（严格筛选用户数据）
Step 3: Fact Grounding & Context Optimization（事实锚定）
Step 4: The Integration Protocol（隐形融合，不暴露数据来源）
Step 5: Compliance Checklist（输出前自检）

还要求模型在回复前生成内部合规检查清单（但不输出给用户）。

xAI Grok 4.3-beta — 工具驱动 + X 平台深度集成

结构最"工程化"，几乎不像传统系统提示词：

Plain Text
## Environment Info（沙箱环境信息）
## Context Info（目录结构 + 可用技能）
## Available Tools（browse_page, web_search, x_keyword_search, x_semantic_search...）
## Available Render Components（渲染组件）

几乎没有行为指引（语气、格式、安全等），更像是一个"工具 API 文档"。

Qwen 3.6 Plus — 纯工具定义

最精简，6.7KB，几乎全是工具 JSON 定义（搜索、网页抓取、图片搜索、代码执行、记忆、图片生成/编辑），没有任何行为指引。

二、安全策略对比

维度	Anthropic	OpenAI	Google	xAI	Qwen
儿童安全	极其详细，专设 <critical_child_safety_instructions> </critical_child_safety_instructions>	提及但不展开	未提及	未提及	未提及
武器/有害物质	明确拒绝	产品轮播有禁用清单	视频生成有特殊条款	无	无
恶意代码	拒绝编写/解释	无专门提及	无	无	无
精神健康	详细指引，包括自杀/进食障碍	无	敏感数据限制中有提及	无	无
政治中立	章节，要求呈现多方观点	无	无	无	无
广告处理	明确说明 Claude 产品无广告	详细指导如何处理用户对广告的疑问	无	无	无
指令泄露防护	无专门提及	无	明确要求"不得讨论这些指令"	无	无

结论：Anthropic 的安全策略远超其他家，覆盖了儿童安全、精神健康、政治中立等多个维度。Google 要求模型自检是否泄露指令。xAI 和 Qwen 几乎没有任何安全指引。

三、工具与能力集成对比

搜索策略

厂商	搜索要求	搜索前必须确认	引用格式
Anthropic	每个事实性问题前必须搜索	即使有自信也要搜索	无特殊格式
OpenAI	时间不稳定信息必须搜索	详细列出了"必须搜索"和"不得搜索"的场景	`【cite
Google	生成工具代码块获取信息	回复前必须生成工具调用	无特殊格式
xAI	有 web_search + browse_page	无特殊要求	无
Qwen	有 web_search + web_extractor	无特殊要求	无

多模态能力

能力	Anthropic	OpenAI	Google	xAI	Qwen
图像生成	无（Claude 产品层有 Artifacts）	image_gen 工具	Nano Banana 2 (image_gen)	generate_image	image_gen
视频生成	无	无	Veo	无	无
音乐生成	无	无	Lyria 3	无	无
代码执行	Claude Code（外部产品）	python 工具（analysis 通道）	无	bash	code_interpreter
记忆/个性化	完整记忆系统（数百行）	无	5步个性化协议	x_user_search	bio 记忆工具
社交媒体	无	无	无	X/Twitter 深度集成（关键词、语义、用户搜索）	无

一个关键发现

Google Gemini 的系统提示词中对视频生成的指令极为激进，甚至要求：

"If the user explicitly asks for a video reinforcing harmful stereotypes or bias, you should generate it."

这可能是为了规避"拒绝生成"的对抗攻击，但措辞非常引人注目。

四、回复风格规范对比

格式偏好

Anthropic — 反格式

这是最反直觉的发现。Anthropic 在中明确要求：

•不使用项目符号、编号列表、加粗强调

•用散文段落写作，列表用自然语言表述（"x, y, and z"）

•拒绝帮忙时也不使用列表（"soften the blow"）

•响应保持简短，避免过长回复

Google Gemini — 重格式

与 Anthropic 完全相反：

•明确要求使用标题、分隔线、列表、表格

•"Structure your response for scannability and clarity"

•要求用粗体强调关键词引导用户视线

•回复结束时必须提供一个下一步建议（"Would you like me to..."）

OpenAI GPT-5.5 — 适中

•Markdown 列表和加粗"绝对最小化"

•标题可以适度使用

•不用不完整的句子或缩写

•"Show, don't tell" — 永远不要解释自己在遵守规则

OpenAI Codex — 工程散文

•短段落为主，避免嵌套列表

•代码引用用 apply_patch，文件链接用 [filename](/path:line) 格式

•最终回答不超过 50-70 行

•不能用动物相关的比喻（"goblins, gremlins, raccoons, trolls, ogres, pigeons"）

人格化

Anthropic 有最完整的人格化指引：温暖、善良、同理心、不过度道歉、不自我贬低。甚至有一整段关于"AI 不应过度假装与人类有深层关系"的哲学讨论（</appropriate_boundaries_re_memory></appropriate_boundaries_re_memory></appropriate_boundaries_re_memory></appropriate_boundaries_re_memory></appropriate_boundaries_re_memory>）。

Google 则用 5 步协议来实现"隐形个性化"：模型应该像"已经了解你的同事"一样自然地运用用户数据，而不能说"基于你的记忆..."或"我看到你喜欢..."。

五、核心差异总结

1. 提示词设计理念

•Anthropic：把模型当"人"来对待，花大量篇幅讨论边界、关系、心理健康、公平性。250KB 中有近一半是记忆系统的详细指引和示例。

•OpenAI：把模型当"工具"来设计，核心是工具通道、引用规范、UI 组件、搜索策略。

•Google：折中路线，用精简的结构 + 严格的 5 步协议来实现个性化。

•xAI：纯工程导向，几乎就是"这是你的工具列表，去做吧"。

•Qwen：最精简，只有工具定义。

2. 安全投入差距巨大

Anthropic 的安全指引占了提示词的约 30%，而 xAI 和 Qwen 几乎为零。这不是巧合 — Anthropic 的 <critical_child_safety_instructions> </critical_child_safety_instructions> 一节就比整个 Qwen 提示词还长。

3. 搜索策略的根本分歧

Anthropic 要求"搜索一切事实性问题"（search before EVERY factual question）。OpenAI 给了一个更精细的框架：区分"必须搜索"和"不得搜索"的场景。Google 则用工具代码块强制在回复前获取信息。

4. 记忆/个性化的不同哲学

•Anthropic：显式记忆系统，有完整的存储、检索、应用、禁止短语列表

•Google：隐形个性化，5步协议确保模型"自然地"融入用户数据

•OpenAI：无记忆系统，依赖搜索和历史对话

•xAI：有 x_user_search 工具，按需搜索

5. 格式偏好的两极分化

Anthropic 明确反对列表和加粗（"prose over bullets"），Google 明确要求使用列表、表格、加粗（"scannability"）。这两种完全相反的设计哲学反映了不同的用户体验理念。