微信扫码
添加专属顾问
我要投稿
随着大型语言模型(LLMs)在实际应用中的广泛采用,它们常常需要处理长序列输入,例如长文档问答和摘要生成。传统的LLMs通常具有有限的工作上下文大小,这限制了它们处理长上下文任务的能力。尽管可以通过微调来扩展LLMs的上下文长度,但这需要付出巨大的成本,并且在部署时极其消耗资源
方法的起始点:LC-Boost从输入查询(q)和长上下文(X)开始,目标是产生一个输出答案(Y)。考虑到LC-Boost背后的LLM有上下文长度限制(本文中将LC-Boost的工作上下文长度限制为4K),直接为长上下文任务生成输出答案Y是不可行的。
处理长上下文任务的策略:为了解决这个问题,LC-Boost通过战略性地理解分解后的短上下文(X = {X1, ..., Xn}),并从这些短上下文中提取最小必要上下文(˜X),以支持输出答案Y的生成。
决策过程:LC-Boost通过与分解后的短上下文({X1, ..., Xn})进行迭代交互的决策过程来实现这一目标。在此过程中,LC-Boost与每个短上下文Xi交互,执行两种类型的操作:信息访问和信息利用。
动作空间:LC-Boost定义了一个离散的动作空间A,包括任务理解、检索、移动、追加、合并、回答和聚合等七种动作。这些动作使LC-Boost能够灵活地访问任何短上下文Xi,准确获取信息,以及动态地利用获取的信息来产生目标形式的答案。
消融研究中不同上下文处理策略的性能比较。NarrativeQA(左侧)是一个单文档问答任务。HotpotQA(中间)是一个多文档问答任务。SamSUM(右侧)是一个少样本学习任务。
案例研究在自建数据集上。正确答案用青绿色标记,错误答案用红色标记,模棱两可的答案用橙色标记。
https://arxiv.org/pdf/2405.15318Are Long-LLMs A Necessity For Long-Context Tasks?
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-07-30
WAIC-Day3: 谈谈Agent场景及Agent OS基础设施
2025-07-30
微软进军 AI 浏览器,维持巨头的平庸
2025-07-30
Higress ,助力企业构建私有 AI 网关和 MCP 市场
2025-07-30
刚刚,OpenAI给大学生做了个新外挂!ChatGPT一键变老师,免费可用
2025-07-30
突发!字节跳动发布同声传译大模型Seed LiveInterpret2.0,是首个延迟与准确率接近人类水平的中英语音同传系统!
2025-07-30
OpenAI深夜发布ChatGPT Study:免费AI家教,彻底颠覆传统教育
2025-07-29
AI+合同审查落地分享(下-1- 合同智能审查)
2025-07-29
AI 应用开发,还需要意图识别吗?
2025-05-29
2025-05-23
2025-06-01
2025-05-07
2025-05-07
2025-05-07
2025-06-07
2025-06-21
2025-06-12
2025-05-20
2025-07-29
2025-07-29
2025-07-28
2025-07-27
2025-07-27
2025-07-25
2025-07-24
2025-07-24