免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

GPT 5.2的长上下文厉害了,但是写文真的强吗?

发布日期:2025-12-12 18:34:23 浏览次数: 1534
作者:故事船团

微信搜一搜,关注“故事船团”

推荐语

GPT-5.2的长上下文能力惊艳,但写作质量是否同样出色?本文带你一探究竟。

核心内容:
1. GPT-5.2在长上下文测试中的突破性表现
2. 模型记忆能力与创作能力的本质区别
3. 不同模型在长文本处理上的优劣势对比

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

今天看到 OpenAI 发了 GPT-5.2 ,很快有测试出来,里面一张MRCRv2 的长上下文测试结果很惊艳。

这个测试简单说就是,在一大堆对话里埋几个"针"(特定的问题和答案),然后让模型去找。GPT-5.2 在 4 根针的测试里,一直到 25 万 token 都能保持接近 100% 的准确率。

这什么概念呢?25 万 token 大概是一本 15-20 万字的小说的长度。也就是说,你把一整本书扔给它,在书里随便埋几个细节,它都能准确找出来。

而同样的测试,GPT-5.1 的表现就差很多,随着上下文变长,准确率掉得很厉害。

image.png

但这说明什么?

我觉得这个测试结果是很不错,但要小心解读。

这个测试测的是注意力保持和信息检索能力——就是模型能不能在很长的对话里,一直记得你之前说过的话,能不能准确地把埋在里面的信息捞出来。

而这对于我们日常的咨询类对话来说太重要了。

比如你在和 AI 聊一个复杂的小说设定,在一个窗口里断断续续聊了两个小时,突然问它"我之前说那个反派的动机是什么来着",它能不能准确回答?

或者你在讨论一个社会学话题,铺垫了很多背景,它能不能把这些背景都记住,然后给出一个建立在所有这些上下文之上的回答?

从这个角度说,GPT-5.2 可能真的是当下的长对话咨询之王

特别适合什么场景呢?我觉得是:

  • 作者和 AI 深入地聊小说——讨论人设、世界观、剧情走向,聊上几个小时也不怕它忘记前面说的

  • 自媒体和社科领域的用户讨论深入的思想问题——需要大量铺垫和背景,然后基于这些进行推理

  • 任何需要长期记忆的对话场景

CleanShot 2025-12-12 at 14.55.38@2x.png

但是,输出质量呢?

这就是我想说的重点了。

能记住东西,和能写出好东西,是两回事。

MRCRv2 测的是"找针",不是"织布"。它测的是模型能不能从一大堆文字里准确检索信息,但没有测模型能不能持续输出高质量的长文本。

这两个能力其实挺不一样的。

打个比方:一个人可能是记忆天才,经过训练,他能把一本书的每个细节都记住——但这完全不代表他自己能写出一本同样好的书。

所以 GPT-5.2 在这个测试上碾压其他模型,不一定意味着它写长篇小说的能力也碾压其他模型。这个还需要进一步测试才知道。

比方说今天早上模型刚出来的时候我就简单测了一个安利,让GPT-5.2写仙侠/武侠题材里面的一位女主角出场的场景,凸显人物的魅力。

它写的文笔和场景设计,比起之前5.1可能都有进步,是能看出更丰满一些。凸显GPT-5之后,GPT模型的知识量和智力确实不断在提升。

但是我仔细看之后,觉得那种隐藏的AI味儿,那种强行凹造型凹台词的GPT风味依然存在。

CleanShot 2025-12-12 at 14.54.34@2x.png
CleanShot 2025-12-12 at 14.55.00@2x.png

顺便说说其他模型

Gemini 3 Pro 有个很大的优势:100 万 token 的上下文窗口。这意味着你可以真的把一整本书扔进去让它分析。虽然它在 MRCRv2 的 8 针测试里只拿到 77% 左右,不如 GPT-5.2 的 85%,但人家窗口大啊。窗口大意味着能处理的信息量大,这在某些场景下是决定性优势。

不过 Gemini 3在上下文拉长之后的输出质量一直被吐槽神鬼二象性,虽然创意十足,但是文风崩坏太快,降智也是个问题。

它一次出文的长度也不够,我自己测试经常会强行缩写收尾导致质量时不时崩溃。

所以,"能吃下去"和"能消化好"还是两回事。

Claude 4.5(包括 Sonnet 和 Opus兄弟俩)的情况比较特别。A社没有公布 MRCRv2 的直接数据,而且它的上下文窗口只有 20 万 token(超长上下文测试版不算,一般用户也用不上),没法参与那些 25 万 token 以上的测试。

但是!

在我自己的测试里,Claude 4.5 系列在小说输出上的表现是真的好。Sonnet 和 Opus 都可以非常连贯地输出 2 万字以上的小说,文风和写作方向都很稳定,这在其他模型的 API 里基本是做不到的。

质量嘛,说实话也还过得去。虽然到了 2 万字这个级别,后面的剧情确实会显得比较水,节奏感会变差,有的时候像梦游,但至少它能撑到那个长度,形式上大体不崩。这个"不崩"本身就很难得了。

所以结论是什么

我觉得可以这样理解:

  • GPT-5.2:长对话咨询之王。适合需要大量上下文记忆的对话场景,比如深度讨论小说设定、探讨复杂的思想问题。它能记住你说过的每一句话,不会聊着聊着就忘了。在小说写作、文案写作中,特别适合给你提建议、出点子、聊想法。

  • Gemini 3 Pro:大胃王。能吃下最多的信息,适合需要处理超长文档的分析任务。在短篇幅的写作和内容输出也很不错,知识和创意与另两家不相上下。

  • Claude 4.5:长篇输出能手。虽然窗口不是最大,但在实际的长文本生成上表现最稳定。

不同的能力,适合不同的场景。

今天看这个测试结果最大的收获是:不要看到一个"长上下文"的测试结果好,就觉得这个模型所有跟"长"有关的能力都好。注意力保持、信息检索、持续输出质量,这些是不同的能力维度。

好了,今天就聊到这里。下次有时间了再实测一下 GPT-5.2 和4.5 Opus的长篇输出质量对比,看看“咨询之王”GPT是不是真在写作上和“写作之王”小克平起平坐。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询