我要投稿

[Agently Show Case]长文本生成问答对

发布日期：2024-06-14 05:05:43 浏览次数： 3147

作者：Agently

微信搜一搜，关注“Agently”

案例描述

当我们尝试使用向量数据库构建我们自己的知识库（比如做RAG知识增强时），或是当我们尝试微调我们的模型时，使用问答对比直接传入大块的文本更加合适。

那我们应该怎样通过长文本生成相关的问答对呢？我们怎样让这些生成的问答对是结构化的，能够被存储到具有特定数据结构的变量（比如在一个list里存入大量结构一致的dict）里呢？这个案例使用Agently框架给出了一种简单的实现思路。

完整代码样例

import Agentlyimport requestsimport time
# Model Settingsagent_factory = Agently.AgentFactory()\.set_settings("model.OpenAI.auth", { "api_key": "" })\.set_settings("model.OpenAI.options", { "model": "gpt-3.5-turbo-16k" })# recommend using 16k or larger context model for this kind of tasks
# Download documentdocument_link = "https://raw.githubusercontent.com/Maplemx/Agently/main/README.md"document_content = ""response = requests.get(document_link)if response.status_code == 200:document_content = response.content.decode("utf-8")
# Work Settingspiece_length_control = 1000sleep_time = 5 # sleep for a while in case of reaching API request limit
# Chop documentchunks = document_content.split("\n\n")paragraphs = []paragraph_num = -1for chunk in chunks:if chunk.startswith("#"):paragraphs.append(chunk + "\n\n")paragraph_num += 1else:paragraphs[paragraph_num] += chunk + "\n\n"
text_pieces = []text_piece_num = 0for paragraph in paragraphs:if len(text_pieces) == 0:text_pieces.append(paragraph)else:if len(text_pieces[text_piece_num] + paragraph) > piece_length_control:text_pieces.append(paragraph)text_piece_num += 1else:text_pieces[text_piece_num] += paragraph
# Generate QA Pairsqa_pairs = []agent = agent_factory.create_agent()for text_piece in text_pieces:print("[Working on]: ", text_piece.split("\n")[0])result = agent\.input({"text": text_piece })\.instruct("Generate at least 5 question and answer pairs about {text}")\.output([{"question": ("String", "Question you may ask about {text}"),"answer": ("String", "Your answer to {question} according {text}"),}])\.start()qa_pairs.append({"origin_piece": text_piece,"qa_pairs": result,})print("[Done] Start next work in " + str(sleep_time) + " seconds.")time.sleep(sleep_time)print("[All Works Done]\n")
# Print QA Parisfor item in qa_pairs:print("[Origin Text Piece]: \n", item["origin_piece"], end="\n")for qa in item["qa_pairs"]:print("Question: ", qa["question"])print("Answer: ", qa["answer"], end="\n")print("------")

关键问题1：如何进行文本内容的读取

文本内容通常分成本地文档和在线文档，对于本地文档而言，我们可以直接使用Python内置的`open()`函数来读取文档内容。对于PDF格式的文档，可以使用PyPDF2等工具库完成文本提取后，再进行读取。

import PyPDF2
document_piece = []with open("./README.pdf", "rb") as file:reader = PyPDF2.PdfReader(file)for page in reader.pages:document_piece.append(page.extract_text())

而对于在线文档而言，我们则需要进行请求下载。通常我们可以使用requests网络请求库下载文本内容，这也是我们本次案例中展示的方案。如果你希望下载的文档在Github中，你可以通过`https://raw.githubusercontent.com/<账户名>/<项目名>/<分支名>/<文件名>`的格式下载到对应的文档。

import requests
document_link = "https://raw.githubusercontent.com/Maplemx/Agently/main/README.md"document_content = ""response = requests.get(document_link)if response.status_code == 200:document_content = response.content.decode("utf-8")

关键问题2：如何对长文本进行切块，便于语言模型Agent处理

切块需要考虑的最关键问题是怎么控制文本块的长度既能符合语言模型Agent的上下文窗口长度要求，又尽可能保留完整的表达不被切断？

在本示例中，因为读取的是markdown文档，我们采用了识别通过`#`开头的内容，来判断是否已经获取相对完整的段落文本信息的方案。首先，我们通过markdown文档标准换行符`\n\n`来获取每一行的文本信息，然后我们再通过逐行遍历的方式，将每段`#`开头的内容里的多行拼装到一起。

这个过程对应的是第一段处理：

chunks = document_content.split("\n\n")paragraphs = []paragraph_num = -1for chunk in chunks:if chunk.startswith("#"):paragraphs.append(chunk + "\n\n")paragraph_num += 1else:paragraphs[paragraph_num] += chunk + "\n\n"

然后我们需要将多个段落尽可能地拼装起来，以减少语言模型Agent的处理次数。在这个过程中，我们通过判断多个段落拼装是否会超过`piece_length_control`的长度限制的方式，来确定是否可以将多个段落进行拼装。

这个过程对应的是第二段处理：

text_pieces = []text_piece_num = 0for paragraph in paragraphs:if len(text_pieces) == 0:text_pieces.append(paragraph)else:if len(text_pieces[text_piece_num] + paragraph) > piece_length_control:text_pieces.append(paragraph)text_piece_num += 1else:text_pieces[text_piece_num] += paragraph

关键问题3：如何快捷生成结构化数据，存放问答对并建立和文本块的映射

这个部分就是Agently框架的强项了，使用Agently框架，能够使用工程化的语言便捷直观地进行任务表达：
• 我们需要把文本块输入给语言模型Agent进行处理，就在`.input()`中像传入参数一样传入`{ "text": text_piece }`
• 我们需要获得一个`{ "question": ..., "answer": ... }`结构的问答对list，就在`.output()`中表达我们想要的数据结构：

[{"question": ("String", "Question you may ask about {text}"),"answer": ("String", "Your answer to {question} according {text}"),}]

并通过`("<类型说明>", "<输出项补充>")`的方式，进一步补充定义对输出项的要求
• 我们需要对执行过程做进一步的指导，就在`.instruct()`中传入自己的指导意见
（你也可以尝试传入一个list，并在list中加入提示"output language: Chinese"，看看会
有什么效果）

为了防止我们请求频率过高，触发接口请求频率限制，可以通过修改`sleep_time`的值来控制请求频率。

最后我们就得到了示例部分中的这部分代码：

qa_pairs = []agent = agent_factory.create_agent()for text_piece in text_pieces:print("[Working on]: ", text_piece.split("\n")[0])result = agent\.input({"text": text_piece })\.instruct("Generate at least 5 question and answer pairs about {text}")\.output([{"question": ("String", "Question you may ask about {text}"),"answer": ("String", "Your answer to {question} according {text}"),}])\.start()qa_pairs.append({"origin_piece": text_piece,"qa_pairs": result,})print("[Done] Start next work in " + str(sleep_time) + " seconds.")time.sleep(sleep_time)print("[All Works Done]\n")