RAG技术大突破：大模型如何利用长上下文打造前沿RAGLLMs

发布日期：2024-08-25 09:04:36 浏览次数： 2676

作者：AI技术研习社

微信搜一搜，关注“AI技术研习社”

长上下文LLM与RAG之争？

在实际应用中，大语言模型（LLM）尽管表现出色，但仍存在一些显著的局限性，如垂直领域知识的缺乏、对非公开知识的覆盖不足、数据安全问题、以及知识的实时性限制和容易出现幻觉等问题。

为了解决这些问题，RAG（检索增强生成）技术应运而生。然而，随着技术的不断发展，超长上下文的大语言模型（LLMs）的出现，使得RAG的应用面临挑战，甚至在技术圈内引发了关于长上下文和RAG系统之间激烈讨论的声音。

正如我们在之前的一篇文章《RAG挑战来袭：长上下文的LLMs会取代RAG系统吗？》中提到的，有兴趣的读者可以先回顾那篇文章，再来阅读今天最新的内容，以获得更全面的理解。

在LLMs发展中，有两种方法已经获得关注并似乎占据了中心舞台：扩展大型语言模型的上下文窗口（LLMs ）并通过检索功能增强这些模型。GPU技术的不断演进，加上注意力机制的突破，催生了长上下文LLMs。同时，检索的概念——其中LLMs只从独立的检索器中获取最相关的上下文——有望在效率和速度上带来革命。

NVIDIA长上下文的 RAGLLMs更优？

在这篇博文中，我们转向NVIDIA 最近的研究，该研究利用了两种强大的技术LLMs：专有的 GP-43B 和 LLaMA2–70B，该研究结果表明在通过上下文窗口扩展和检索增强进行增强后取得更优的结果。

LongRAG新的前景

LongRAG：通过长上下文增强检索增强生成LLMs介绍了一种新框架——LongRAG，旨在克服传统检索增强生成（RAG）系统中常见的局限性。在传统设置中，短检索单元通常会给检索器带来沉重的负担，而对阅读器的负担相对较轻，这常常导致整体性能不佳。

LongRAG 提出了使用最长的检索单元（最多 4K 个令牌）的方案，以减少总检索单元的数量，显著减轻检索器的任务。这一方法显著提高了检索分数，召回率相比以往方法有了大幅提升。

此外，LongRAG 通过利用长上下文大语言模型（LLM）进行零样本答案提取，无需额外训练即可获得有竞争力的结果。这为将 RAG 系统与长上下文 LLMs 的集成提供了一个有前景的方向。

智谱GLM Long应用实战

100万上下文长文本模型GLM-4-Long来了。这为将 RAG 系统与长上下文 LLMs 的集成提供了一个有前景的方向。

100万的上下文，大约相当2本红楼梦或者125篇科研论文的长度，极大的提高了模型的上下文理解能力，丰富了大模型应用落地能力。

GLM-4-Long模型属于GLM-4系列通用大模型，专为处理超长文本和记忆型任务设计。本文档将向你介绍智谱BigModel开放平台最新的长文本模型GLM-4-Long，并会带您一起了解如何使用最新的GLM-4-Long模型为您的生活和工作提高效率

该内容演示了 GLM-4-Long 如何通过将讲座笔录转换为笔记格式的任务来处理长文本。在日常生活中，我们经常会遇到需要阅读长篇文章的情况，这可能会很耗时。例如，翘掉课程或临近截止日期的学生可能需要快速掌握长篇文章的要点。在这种情况下，对讲座笔录等长篇文章进行总结就非常有用。

首先，设置环境变量并初始化 ZhipuAI client。

import osfrom zhipuai import ZhipuAI
os.environ["ZHIPUAI_API_KEY"] = "your api key"client = ZhipuAI()

然后，打开我们的讲座笔录文件，指定其字数。

lecture_transcript_path =

现在，安装 NLP 库 spaCy，并加载 en_core_web_sm 模型，这是一个用于预处理文件的小型英语模型。然后，我们准备了两个方法将文件分成句子存入列表中，再将句子组织成具有指定最大长度（即总字数的五十分之一）的句块。

import spacy
nlp = spacy.load("en_core_web_sm")
def preprocess_text(text):doc = nlp(text)sentences = [sent.text for sent in doc.sents]return sentences
def chunk_text(sentences, max_chunk_size=WORD_COUNT/50):chunks = []current_chunk = []current_length = 0
for sentence in sentences:sentence_length = len(sentence.split())if current_length + sentence_length > max_chunk_size:chunks.append(" ".join(current_chunk))current_chunk = []current_length = 0current_chunk.append(sentence)current_length += sentence_length
if current_chunk:chunks.append(" ".join(current_chunk))
return chunks

以两轮的形式，我们用GLM-4-Long模型把讲座笔录先概括成笔记的形式，这样可以避免一次性概括造成的信息损失。这两轮的处理的概括程度是由“概括比例”来决定的，我们可以自行决定输出的笔记字数与原始文本之间0到1的比例。我在这里两轮用的都是0.2的比例，也就是输入1000字的讲座笔录得到200字的笔记。

def summarize_chunk(chunk, summary_ratio):response = client.chat.completions.create(model="glm-4-long",messages=[{"role": "system","content": f"You are an assistant that reads a long lecture transcript and summarizes it to a short and concise note-taking format. The summary should be around {summary_ratio*100}% of the original length."},{"role": "user","content": chunk},],top_p=0.7,temperature=0.9)summarized_text = response.choices[0].message.contentreturn summarized_text
def summarize_text(text, summary_ratio):sentences = preprocess_text(text)
max_chunk_size = int(WORD_COUNT / 50)chunks = chunk_text(sentences, max_chunk_size)
summarized_chunks = []for chunk in chunks:summarized_chunk = summarize_chunk(chunk, summary_ratio)if summarized_chunk:summarized_chunks.append(summarized_chunk)
summarized_text = " ".join(summarized_chunks)
return summarized_text
first_summary_ratio = 0.2first_summarized_text = summarize_text(lecture_text, first_summary_ratio)
second_summary_ratio = 0.2final_summarized_text = summarize_text(first_summarized_text, second_summary_ratio)

最后，再次让模型把讲座的笔记形式保存为markdown格式，得到清晰的格式化的笔记，保存到本地以便我们快速阅读。

markdown_notes = client.chat.completions.create(model="glm-4-long",messages=[{"role": "system","content": "Convert the summary to markdown format. Organize information into headings and subheadings, with no big paragraphs and no more than 5 bullet points under a subheading.",},{"role": "user","content": final_summarized_text,}],top_p=0.7,temperature=0.9)
with open("data/summarized_notes.md", "w") as file:file.write(markdown_notes.choices[0].message.content)