我要投稿

惊人突破：阿里AI实现100万token处理能力，检索准确率100%

发布日期：2024-11-29 16:07:33 浏览次数： 2778

作者：AI每日资讯

微信搜一搜，关注“AI每日资讯”

阿里巴巴AI实验室推出了其通义千问语言模型的新版本,可处理高达100万个token的文本——相当于约10本小说的内容。团队还成功将处理速度提高了4倍。

通义千问已将其在9月推出的Qwen2.5语言模型的上下文长度从128,000扩展到100万个token。这使得Qwen2.5-Turbo能够处理10本完整的小说、150小时的转录文本或30,000行代码。

数字检索100%准确率

在密钥检索任务中,该模型需要在100万个token的无关文本中找出隐藏的数字,无论信息在文档中的位置如何,都能达到100%的准确率。这似乎部分克服了"中间丢失"现象——即语言模型主要考虑提示的开头和结尾。

如下图所示，热力图显示Qwen2.5-Turbo在各种上下文长度和文档深度的密钥检索中都达到了令人印象深刻的100%准确率。这种稳定的表现凸显了该模型在信息提取方面的可靠性。

在各种长文本理解基准测试中,Qwen2.5-Turbo的表现超过了GPT-4和GLM4-9B-1M等竞争模型。同时,它在处理短序列时的性能与GPT-4o-mini相当。

下面是一段屏幕录像,通义千问展示了其新语言模型快速总结刘慈欣《三体》三部曲全集的能力,总长度为690,000个token。

稀疏注意力机制使推理速度提升4.3倍

通过使用稀疏注意力机制,通义千问将处理100万个token时的首个token生成时间从4.9分钟缩短到68秒。这代表了4.3倍的速度提升。

如下图所示，与其他模型相比,Qwen2.5-Turbo以其更大的100万token上下文、更快的推理速度和更好的成本效益而脱颖而出。这些改进实现了更高效和更具成本效益的AI使用。

目前价格仍维持在每100万token 0.3元人民币(4美分)。以相同的成本,Qwen2.5-Turbo可以处理比GPT-4o-mini多3.6倍的token。

Qwen2.5-Turbo现已通过阿里云模型工作室的API以及HuggingFace和ModelScope上的演示提供使用。

通义千问承认长序列处理仍有改进空间

该公司承认,当前模型在实际应用中解决长序列任务时的表现并不总是令人满意。

仍然存在许多未解决的挑战,如模型在处理长序列时表现不够稳定,以及高推理成本使得使用更大模型变得困难。

通义千问计划进一步探索长序列的人类偏好对齐,优化推理效率以减少计算时间,并致力于将具有长上下文的更大、更强大的模型推向市场。

大型上下文窗口有什么用？

大型语言模型的上下文窗口在最近几个月稳步增长。目前的实用标准在128,000(GPT-4o)到200,000(Claude 3.5 Sonnet)个token之间,不过也有一些异常值,如Gemini 1.5 Pro高达1000万或Magic AI的LTM-2-mini达到1亿个token。

虽然这些进步总体上提高了大型语言模型的实用性,但研究反复质疑大型上下文窗口相比RAG系统的优势,后者可以从向量数据库中动态检索额外信息。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2026-02-16

突发！OpenClaw之父宣布加入OpenAI，小扎抢人失败

2026-02-16

Kimi正式接入OpenClaw，实测和教程看这一篇就够了

2026-02-16

Kimi推出Kimi Claw，原生集成OpenClaw

2026-02-15

Claude Code Skills 完全指南：从“菜鸟”到“专家”的进阶之路

2026-02-15

Peter Thiel花3500万美金投了一个销售领域的Claude Code，号称要终结Salesforce时代

2026-02-15

豆包大模型 2.0 实际场景评测，有强有弱，字节太坦诚了！附OpenClaw接入教程

2026-02-15

Cloudflare推出Markdown for Agents：AI抓取网页的方式彻底变了

2026-02-14

拆解 OpenClaw 记忆机制：当记忆不再是数据库，而是用户可读的文件

联系获取

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

Pencil：设计和写代码，以后就全让AI干了

2026-01-24

独家实录｜唐杰、杨植麟、林俊旸、姚顺雨...All Star 对话上，大家聊了啥？

2026-01-10

我挖到Gemini 3.0 Pro十大隐藏玩法，做网页已经落后N个版本了

2025-11-19

从0到1玩转Clawdbot：我花了40小时，把这些坑都踩完了

2026-01-26

2026 开年 AI 工具推荐，让你新的一年效率起飞！（建议收藏）

2026-01-01

Codex 史诗级更新！引入 Skills 技能库，直接兼容 Claude 生态，开发效率原地起飞

2025-12-09

Claude赢麻了？OpenAI Codex正式支持Skills，GitHub连夜上车！

2025-12-21

终于！Gemini CLI支持Agent Skills，一键搬运Claude Code的“绝招”

2026-01-09

深度解读：OpenClaw 架构及生态

2026-02-03

Claude Code Skills 国内实践全指南：从安装部署到高阶开发

2026-01-09

大家都在问

一切皆可Agent Skills，无处不在的AI Agent会替代业务流程吗？

2026-02-14

context是什么？怎么用？

2026-02-13

模型能力、提示词、Skill、工作流、Vibe Coding——到底都是什么？

2026-02-12

谷歌Chrome深夜爆更，Agent不用「装」人了！前端最后防线崩了？

2026-02-12

刚刚，DeepSeek悄悄测试新模型：百万token上下文、知识库更新，V4要来了？

2026-02-11

AI推理：如何实现吞吐翻倍、时延降90%与GPU资源节省26%？

2026-02-11

当我们谈论 AI 推理的 KV Cache，我们在说什么？

2026-02-11

Claude Code，它为何这么狠？

2026-02-11

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI AI知识库开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB Palantir Glean