微信扫码
添加专属顾问
我要投稿
案例描述
当我们尝试使用向量数据库构建我们自己的知识库(比如做RAG知识增强时),或是当我们尝试微调我们的模型时,使用问答对比直接传入大块的文本更加合适。
那我们应该怎样通过长文本生成相关的问答对呢?我们怎样让这些生成的问答对是结构化的,能够被存储到具有特定数据结构的变量(比如在一个list里存入大量结构一致的dict)里呢?这个案例使用Agently框架给出了一种简单的实现思路。
完整代码样例
import Agently
import requests
import time
# Model Settings
agent_factory = Agently.AgentFactory()\
.set_settings("model.OpenAI.auth", { "api_key": "" })\
.set_settings("model.OpenAI.options", { "model": "gpt-3.5-turbo-16k" })
# recommend using 16k or larger context model for this kind of tasks
# Download document
document_link = "https://raw.githubusercontent.com/Maplemx/Agently/main/README.md"
document_content = ""
response = requests.get(document_link)
if response.status_code == 200:
document_content = response.content.decode("utf-8")
# Work Settings
piece_length_control = 1000
sleep_time = 5 # sleep for a while in case of reaching API request limit
# Chop document
chunks = document_content.split("\n\n")
paragraphs = []
paragraph_num = -1
for chunk in chunks:
if chunk.startswith("#"):
paragraphs.append(chunk + "\n\n")
paragraph_num += 1
else:
paragraphs[paragraph_num] += chunk + "\n\n"
text_pieces = []
text_piece_num = 0
for paragraph in paragraphs:
if len(text_pieces) == 0:
text_pieces.append(paragraph)
else:
if len(text_pieces[text_piece_num] + paragraph) > piece_length_control:
text_pieces.append(paragraph)
text_piece_num += 1
else:
text_pieces[text_piece_num] += paragraph
# Generate QA Pairs
qa_pairs = []
agent = agent_factory.create_agent()
for text_piece in text_pieces:
print("[Working on]: ", text_piece.split("\n")[0])
result = agent\
.input({"text": text_piece })\
.instruct("Generate at least 5 question and answer pairs about {text}")\
.output([{
"question": ("String", "Question you may ask about {text}"),
"answer": ("String", "Your answer to {question} according {text}"),
}])\
.start()
qa_pairs.append({
"origin_piece": text_piece,
"qa_pairs": result,
})
print("[Done] Start next work in " + str(sleep_time) + " seconds.")
time.sleep(sleep_time)
print("[All Works Done]\n")
# Print QA Paris
for item in qa_pairs:
print("[Origin Text Piece]: \n", item["origin_piece"], end="\n")
for qa in item["qa_pairs"]:
print("Question: ", qa["question"])
print("Answer: ", qa["answer"], end="\n")
print("------")
关键问题1:如何进行文本内容的读取
文本内容通常分成本地文档和在线文档,对于本地文档而言,我们可以直接使用Python内置的`open()`函数来读取文档内容。对于PDF格式的文档,可以使用PyPDF2等工具库完成文本提取后,再进行读取。
import PyPDF2
document_piece = []
with open("./README.pdf", "rb") as file:
reader = PyPDF2.PdfReader(file)
for page in reader.pages:
document_piece.append(page.extract_text())
而对于在线文档而言,我们则需要进行请求下载。通常我们可以使用requests网络请求库下载文本内容,这也是我们本次案例中展示的方案。如果你希望下载的文档在Github中,你可以通过`https://raw.githubusercontent.com/<账户名>/<项目名>/<分支名>/<文件名>`的格式下载到对应的文档。
import requests
document_link = "https://raw.githubusercontent.com/Maplemx/Agently/main/README.md"
document_content = ""
response = requests.get(document_link)
if response.status_code == 200:
document_content = response.content.decode("utf-8")
关键问题2:如何对长文本进行切块,便于语言模型Agent处理
切块需要考虑的最关键问题是怎么控制文本块的长度既能符合语言模型Agent的上下文窗口长度要求,又尽可能保留完整的表达不被切断?
在本示例中,因为读取的是markdown文档,我们采用了识别通过`#`开头的内容,来判断是否已经获取相对完整的段落文本信息的方案。首先,我们通过markdown文档标准换行符`\n\n`来获取每一行的文本信息,然后我们再通过逐行遍历的方式,将每段`#`开头的内容里的多行拼装到一起。
这个过程对应的是第一段处理:
chunks = document_content.split("\n\n")paragraphs = []paragraph_num = -1for chunk in chunks:if chunk.startswith("#"):paragraphs.append(chunk + "\n\n")paragraph_num += 1else:paragraphs[paragraph_num] += chunk + "\n\n"
然后我们需要将多个段落尽可能地拼装起来,以减少语言模型Agent的处理次数。在这个过程中,我们通过判断多个段落拼装是否会超过`piece_length_control`的长度限制的方式,来确定是否可以将多个段落进行拼装。
这个过程对应的是第二段处理:
text_pieces = []text_piece_num = 0for paragraph in paragraphs:if len(text_pieces) == 0:text_pieces.append(paragraph)else:if len(text_pieces[text_piece_num] + paragraph) > piece_length_control:text_pieces.append(paragraph)text_piece_num += 1else:text_pieces[text_piece_num] += paragraph
关键问题3:如何快捷生成结构化数据,存放问答对并建立和文本块的映射
这个部分就是Agently框架的强项了,使用Agently框架,能够使用工程化的语言便捷直观地进行任务表达:
• 我们需要把文本块输入给语言模型Agent进行处理,就在`.input()`中像传入参数一样传入`{ "text": text_piece }`
• 我们需要获得一个`{ "question": ..., "answer": ... }`结构的问答对list,就在`.output()`中表达我们想要的数据结构:
[{"question": ("String", "Question you may ask about {text}"),"answer": ("String", "Your answer to {question} according {text}"),}]
并通过`("<类型说明>", "<输出项补充>")`的方式,进一步补充定义对输出项的要求
• 我们需要对执行过程做进一步的指导,就在`.instruct()`中传入自己的指导意见
(你也可以尝试传入一个list,并在list中加入提示"output language: Chinese",看看会
有什么效果)
为了防止我们请求频率过高,触发接口请求频率限制,可以通过修改`sleep_time`的值来控制请求频率。
最后我们就得到了示例部分中的这部分代码:
qa_pairs = []agent = agent_factory.create_agent()for text_piece in text_pieces:print("[Working on]: ", text_piece.split("\n")[0])result = agent\.input({"text": text_piece })\.instruct("Generate at least 5 question and answer pairs about {text}")\.output([{"question": ("String", "Question you may ask about {text}"),"answer": ("String", "Your answer to {question} according {text}"),}])\.start()qa_pairs.append({"origin_piece": text_piece,"qa_pairs": result,})print("[Done] Start next work in " + str(sleep_time) + " seconds.")time.sleep(sleep_time)print("[All Works Done]\n")
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
通俗易懂的梳理MCP的工作流程(以高德地图MCP为例)
2025-04-30
一文说明 Function Calling、MCP、A2A 的区别!
2025-04-30
MCP很好,但它不是万灵药|一文读懂 MCP
2025-04-30
旅行规划太难做?5 分钟构建智能Agent,集成地图 MCP Server
2025-04-29
10万元跑满血版DeepSeek,这家公司掀了一体机市场的桌子|甲子光年
2025-04-29
谷歌大神首次揭秘Gemini预训练秘密:52页PPT干货,推理成本成最重要因素
2025-04-29
一文说清:什么是算法备案、大模型备案、大模型登记 2.0
2025-04-29
MCP:AI时代的“万能插座”,大厂竞逐的焦点
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-09-17
2025-04-29
2025-04-29
2025-04-29
2025-04-28
2025-04-28
2025-04-28
2025-04-28
2025-04-28