微信扫码
添加专属顾问
我要投稿
Gemini 3.0中文写作能力令人失望,与Claude 4.5相比差距明显,期待后续改进。核心内容: 1. Gemini 3.0在写作测试中表现不佳,信息密度不足且存在中英混杂问题 2. Claude 4.5在写作能力上展现出明显优势,结构清晰且善于运用类比 3. 主流AI写作模型横向对比,揭示当前中文AI写作能力的真实水平
在 Claude 4.5 面前,Gemini 3.0像个初出茅庐的新兵蛋子
11月19日凌晨,Gemini 的 AI studio 悄悄上线了 3.0 preview 版本。
从之前透露的信息看,这次的升级点侧重在编程能力,尤其是前端代码。
我不是前端开发者,代码写得再好跟我关系不大,所以我只测了:写作能力。
Claude 4.5 Sonnet 在这方面已经让我非常满意了,基本上一次过,不用反复改稿,我在之前的文章已经测过:Claude4.5:第一个让我不用改稿的AI写手
那么 Gemini 3.0 呢?
结果让我挺失望的,在我测试的几个模型里,它的写作能力垫底。
我用的是跟 Claude 4.5 Sonnet 同一个case:基于搜集到的多篇「上下文工程」的技术文章,写成小白能看懂的科普文。
Gemini 3.0 的输出只有1000多字。
(篇幅有限,我就先放开头)
不是说短不好,而是这1000字的信息密度不够,开头用了「你有没有过这样的经历」的套路,中间列了几个观点,但每个观点都点到为止,没有展开,没有让人眼前一亮的类比,也没有足够的例子支撑。
而且,那个老毛病还在,它依然喜欢在中文后面加括号注释英文单词,比如「提示词工程(Prompt Engineering)」「上下文工程(Context Engineering)」...无语😅
这个习惯在Gemini 2.5 Pro时代就有了,我以为3.0会改,结果还是一样,这让整篇文章读起来很割裂,像是在看一份没翻译完的文档。
对比一下其他模型:
Claude 4.5 Sonnet 写了3000字,开头直接用场景描述抓人:「花了大力气搭建的RAG系统,检索到了一堆相关文档,但AI助手给出的答案还是驴唇不对马嘴」,然后用咨询顾问的类比把抽象概念讲透,结尾还能升华到「思维革命」。
GPT-5.1 也不错,标题就很有力:「真正决定 Agent 成败的,不是模型本身,而是你喂进去的世界」,虽然文风没有Claude那么自然,但信息量够,结构清晰,还算ok,改改也能用。
旧版本的 Gemini 2.5 Pro 虽然也有括号病,但起码信息量是够的,该展开的地方会展开,该举例的地方有例子。
而 Gemini 3.0,在写作这件事上,真的是御三家里垫底(起码目前我用起来是这样的,测了别的 case,也一般)
写作这件事,目前还是Claude 4.5 Sonnet最好使。
不是说它完美,而是它真的理解什么时候该铺垫,什么时候该直给;它会用类比和例子,而不是堆砌术语;它甚至能在结尾给你一个「原来如此」的认知冲击。
这种能力,目前其他模型还真做不到。
对于Gemini 3.0,我只能说:这还是preview版本,希望哈基米越做越好。
下面是3.0写的完整版本,你可以自己感受一下:
别再痴迷“提示词魔法”了:Karpathy 力推的“上下文工程”,才是 AI 的下一个进化形态
你有没有过这样的经历:明明用的是最先进的大模型,写了一大段精心雕琢的提示词(Prompt),但 AI 给出的回答依然像个只会背书的书呆子?或者,两个同样接入 GPT-4 的应用,一个聪明得像那个即使你没说完话懂你意思的同事,另一个却像个甚至记不住你名字的客服机器人?
这背后的差距,往往不在于模型本身,也不在于你会不会写“咒语”般的提示词,而在于一个正在席卷 AI 圈的新概念——**上下文工程(Context Engineering)**。
今年 6 月,AI 大神 Andrej Karpathy 在推特上带火了这个词。这不仅仅是一个新术语的诞生,更标志着我们对待 AI 的方式正在发生一场范式转移:从手动“调教”模型,转向构建智能的“信息生态系统”。
这篇深度解读将为你剥离炒作,提炼出“上下文工程”最反直觉、也最具冲击力的 5 个认知升级。
很多人第一反应会问:“这不就是给‘提示词工程’换了个更高级的名字吗?”
大错特错。 语言塑造思维,这次改名至关重要。
“提示词工程”(Prompt Engineering)通常是面向用户的微观操作:你试图通过更好的措辞、扮演角色(Role-playing)或提供示例(Few-shot),来诱导模型输出更好的结果。它更像是在和人聊天时的“话术”。
而“上下文工程”是面向开发者的宏观系统设计。它是一门关于**“在该让模型知道什么的时候,精准地喂给它什么”**的科学。它不再是你写给 AI 的一段话,而是一个动态的、自动化的系统,负责在后台清洗数据、检索知识、剪裁噪音,最终将一个完美的信息包“注入”到模型的短期记忆中。
“上下文工程是一门精心设计填充上下文窗口的艺术与科学。”
—— Andrej Karpathy
如果你还在纠结用什么形容词来修饰 Prompt,你是在做文科题;如果你开始思考如何动态调度信息流,你才是在做上下文工程。
随着各大模型纷纷卷出 100 万甚至 1000 万 token 的超长上下文窗口,一种懒惰的思维开始蔓延:把所有文档、聊天记录、代码库一股脑丢给 AI 不就好了吗?
事实证明,这不仅无效,甚至有害。 上下文工程揭示了一个反直觉的真相:更多的上下文 ≠ 更好的回答。
LangChain 的开发者提出了一个极具洞察力的概念——**上下文病理学**。当过多的信息被塞入窗口时,会出现以下症状:
真正的工程能力,体现在你会如何**做减法**,而非做加法。
如果说 Prompt 是写作,那么上下文工程更像是写 SQL 代码。LangChain 将落地策略极其精准地归纳为四个动作,这完全颠覆了我们对“对话”的理解:
在上下文工程的视角下,AI Agent(智能体)的角色发生了根本性的变化。
过去,我们认为 Agent 是单纯的**消费者**——我们喂给它上下文,它消费信息并产出答案。
现在,Google DeepMind 的研究指出,Agent 必须同时是上下文的**创造者**。
想象一个复杂的任务:帮你规划东京旅行。
Agent 不能只等着你投喂信息。它必须自主判断:“我现在缺少航班价格信息”,然后调用工具去搜索,获取数据,清洗格式,并将这些新信息**回填**到自己的上下文中。
这种“感知缺失 -> 主动获取 -> 构建上下文 -> 再次推理”的闭环,才是智能体能够独立完成复杂任务的秘诀。上下文不是静态的背景板,它是 AI 自己搭建的脚手架。
在深度学习时代,工程师们调侃自己是“炼丹师”或“调参侠”,试图通过调整超参数来获得更好的结果。
在 AI 应用时代,这种“玄学”正在被工程学取代。虽然我们还不能完全摆脱手动写 Prompt 的尝试,但趋势已经非常明显:结构化战胜了直觉。
即使是一个简单的客服场景,优秀的上下文工程也会将“查询重写”、“文档分块”、“系统提示设计”和“结果过滤”变成一套自动化的流水线。Shopify 甚至已经将“能否为 AI 加载正确的上下文”作为衡量员工效率和系统设计的标准。
未来的 AI 竞争,不再是谁的模型参数更大,而是谁的**“外脑”**(上下文构建系统)更精密。
Andrej Karpathy 的推文之所以能激起千层浪,是因为他点破了行业内的一种集体焦虑:我们已经有了爱因斯坦般的大脑(大模型),但我们还在用便利贴(Prompt)给它传递信息。
上下文工程,就是致力于为这个大脑打造一个现代化的图书馆和操作系统。
所以,下一次当你对 AI 的回答不满意时,不妨先停下修改 Prompt 的手,问自己一个更本质的问题:
“如果我是这个 AI,以我目前收到的这些杂乱无章的信息,我能推理出正确答案吗?”
以上,如果这篇文章对你有启发,欢迎分享给更多正在学习 AI 的朋友。
这里是夙愿学长,我不喜欢跟风,只分享亲自实操过的、真正对生活和工作有帮助的AI工具、AI工作流和成长记录。
欢迎加我的微信,备注“公众号”,领取《AI内容创作2.7w字SOP》,助力你的 AI+IP之路,
还可以围观我的朋友圈,围观我的 AI 实战踩坑经验、工具评测等信息。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-19
Google发布Gemini 3,你想看的都在里面
2025-11-19
Gemini 3 Pro 发布了:这一次,Google 终于端出了一盘“真菜”
2025-11-19
低成本构建高价值 AI 应用的时代已来 | 吴恩达最新万字实录
2025-11-19
Snowflake CEO 复盘:为什么 LLM 时代企业需要一个 AI Data Cloud?
2025-11-19
为什么Mac在AI时代更有性价比?
2025-11-19
OpenText Cybersecurity 推出全新功能,为 AI 构建可信基础
2025-11-19
有预告的“梆梆就两拳”,可这只是开始
2025-11-19
刚刚,谷歌发布 Gemini 3:百万上下文 + 全链路 Agent直接封神!Claude 被秒成渣了
2025-08-21
2025-08-21
2025-10-02
2025-09-16
2025-09-19
2025-09-08
2025-09-17
2025-09-29
2025-10-26
2025-09-14
2025-11-19
2025-11-19
2025-11-18
2025-11-18
2025-11-17
2025-11-15
2025-11-14
2025-11-12