我要投稿

GPT 5.2的长上下文厉害了，但是写文真的强吗？

发布日期：2025-12-12 18:34:23 浏览次数： 2899

作者：故事船团

微信搜一搜，关注“故事船团”

今天看到 OpenAI 发了 GPT-5.2 ，很快有测试出来，里面一张MRCRv2 的长上下文测试结果很惊艳。

这个测试简单说就是，在一大堆对话里埋几个"针"（特定的问题和答案），然后让模型去找。GPT-5.2 在 4 根针的测试里，一直到 25 万 token 都能保持接近 100% 的准确率。

这什么概念呢？25 万 token 大概是一本 15-20 万字的小说的长度。也就是说，你把一整本书扔给它，在书里随便埋几个细节，它都能准确找出来。

而同样的测试，GPT-5.1 的表现就差很多，随着上下文变长，准确率掉得很厉害。

但这说明什么？

我觉得这个测试结果是很不错，但要小心解读。

这个测试测的是注意力保持和信息检索能力——就是模型能不能在很长的对话里，一直记得你之前说过的话，能不能准确地把埋在里面的信息捞出来。

而这对于我们日常的咨询类对话来说太重要了。

比如你在和 AI 聊一个复杂的小说设定，在一个窗口里断断续续聊了两个小时，突然问它"我之前说那个反派的动机是什么来着"，它能不能准确回答？

或者你在讨论一个社会学话题，铺垫了很多背景，它能不能把这些背景都记住，然后给出一个建立在所有这些上下文之上的回答？

从这个角度说，GPT-5.2 可能真的是当下的长对话咨询之王。

特别适合什么场景呢？我觉得是：

作者和 AI 深入地聊小说——讨论人设、世界观、剧情走向，聊上几个小时也不怕它忘记前面说的
自媒体和社科领域的用户讨论深入的思想问题——需要大量铺垫和背景，然后基于这些进行推理
任何需要长期记忆的对话场景

但是，输出质量呢？

这就是我想说的重点了。

能记住东西，和能写出好东西，是两回事。

MRCRv2 测的是"找针"，不是"织布"。它测的是模型能不能从一大堆文字里准确检索信息，但没有测模型能不能持续输出高质量的长文本。

这两个能力其实挺不一样的。

打个比方：一个人可能是记忆天才，经过训练，他能把一本书的每个细节都记住——但这完全不代表他自己能写出一本同样好的书。

所以 GPT-5.2 在这个测试上碾压其他模型，不一定意味着它写长篇小说的能力也碾压其他模型。这个还需要进一步测试才知道。

比方说今天早上模型刚出来的时候我就简单测了一个安利，让GPT-5.2写仙侠/武侠题材里面的一位女主角出场的场景，凸显人物的魅力。

它写的文笔和场景设计，比起之前5.1可能都有进步，是能看出更丰满一些。凸显GPT-5之后，GPT模型的知识量和智力确实不断在提升。

但是我仔细看之后，觉得那种隐藏的AI味儿，那种强行凹造型凹台词的GPT风味依然存在。

顺便说说其他模型

Gemini 3 Pro 有个很大的优势：100 万 token 的上下文窗口。这意味着你可以真的把一整本书扔进去让它分析。虽然它在 MRCRv2 的 8 针测试里只拿到 77% 左右，不如 GPT-5.2 的 85%，但人家窗口大啊。窗口大意味着能处理的信息量大，这在某些场景下是决定性优势。

不过 Gemini 3在上下文拉长之后的输出质量一直被吐槽神鬼二象性，虽然创意十足，但是文风崩坏太快，降智也是个问题。

它一次出文的长度也不够，我自己测试经常会强行缩写收尾导致质量时不时崩溃。

所以，"能吃下去"和"能消化好"还是两回事。

Claude 4.5（包括 Sonnet 和 Opus兄弟俩）的情况比较特别。A社没有公布 MRCRv2 的直接数据，而且它的上下文窗口只有 20 万 token（超长上下文测试版不算，一般用户也用不上），没法参与那些 25 万 token 以上的测试。

但是！

在我自己的测试里，Claude 4.5 系列在小说输出上的表现是真的好。Sonnet 和 Opus 都可以非常连贯地输出 2 万字以上的小说，文风和写作方向都很稳定，这在其他模型的 API 里基本是做不到的。

质量嘛，说实话也还过得去。虽然到了 2 万字这个级别，后面的剧情确实会显得比较水，节奏感会变差，有的时候像梦游，但至少它能撑到那个长度，形式上大体不崩。这个"不崩"本身就很难得了。