关于播客生成的探索（二）：Multiagent 的可能性

发布日期：2024-12-25 08:07:54 浏览次数： 2484

作者：北漂程序员日记

微信搜一搜，关注“北漂程序员日记”

写在前面

在上一篇文章《关于播客生成的探索（一）》中，我们一起初步探讨了利用 AI 技术生成播客的可能性，并对现有的一个开源项目 PodCastLM 进行了简单的分析。我们发现，直接通过 Prompt 来驱动整个播客生成流程，虽然能取得一定的效果，但在处理复杂文档、多文档联合生成以及多人对话场景时，存在着明显的局限性。

那么，有没有更精细化、更具扩展性的方法呢？最近，我开始关注 Multiagent 的概念，并思考如何将其应用于播客生成，以解决我们之前遇到的那些技术难题。本文将围绕这个思路展开，希望能给大家带来一些新的启发。

引入 Multiagent 的概念

Multiagent 系统，顾名思义，是由多个智能体（Agent）组成的系统。每个智能体都有其特定的目标、能力和知识，能够感知环境、做出决策并与其他智能体进行交互，最终协同完成复杂的任务。

将其应用于播客生成，我们的核心想法是将播客生成的任务拆解成多个子任务，并分配给不同的 Agent 负责。每个 Agent 专注于其擅长的领域，通过相互协作，最终生成高质量的播客内容。

基于 Multiagent 的播客生成架构设想

上图是一个初步的架构设想，我们暂且定义了以下几个核心 Agent：

• 文档理解 Agent (Document Understanding Agent): 负责对输入的文档进行深度解析，提取关键信息、主题、论点、人物关系等。相比于简单的文本提取，它更注重语义理解和知识抽取。
• 角色扮演 Agent (Role Assignment Agent): 根据文档内容和设定的播客类型，确定参与对话的角色，例如主持人、嘉宾 A、嘉宾 B 等。它需要理解不同角色的特点和职责。
• 对话生成 Agent (Dialogue Generation Agent): 这是核心 Agent，负责根据文档理解 Agent 提取的信息和角色扮演 Agent 的设定，生成具体的对话内容。我们可以根据角色数量和对话风格，设计多个对话生成 Agent 并行工作。
• 内容串联 Agent (Content Orchestration Agent): 负责将各个对话片段进行合理的组织和串联，确保对话的流畅性和逻辑性。它还需要负责添加开场白、结尾语、转场等元素。
• 质量评估 Agent (Quality Assessment Agent): 对生成的播客脚本进行质量评估，例如检查内容的准确性、逻辑性、趣味性，并给出改进建议。这可以帮助我们不断优化生成效果。

Multiagent 如何解决现有难点

对比上一篇文章中提到的技术难点，Multiagent 的架构似乎能更好地应对：

1. 文档处理难度： 文档理解 Agent 可以采用更精细化的 NLP 技术，例如结构化信息抽取、知识图谱构建等，来处理复杂的 PDF 文件，甚至可以针对不同类型的文档采用不同的处理策略。
2. 多文档联合生成： 我们可以为每个文档分配一个文档理解 Agent，然后让对话生成 Agent 综合多个文档的信息进行讨论。内容串联 Agent 负责将不同文档的主题进行自然的过渡和融合。
3. 多人场景： 我们可以为每个参与者分配一个独立的对话生成 Agent，这些 Agent 可以并行工作，并互相影响，模拟真实的多人对话场景。角色扮演 Agent 负责定义每个角色的性格和发言风格。

开源实现的探索方向

在探索一中，我们提到了 PodCastLM 这个开源项目。基于 Multiagent 的思路，我们可以在其基础上进行改造，或者探索其他更适合构建 Multiagent 系统的框架。

接下来，我可能会尝试以上的设想来构建一个简单的播客生成 Demo，初步验证 Multiagent 的可行性。

为了不影响阅读，以下为部分代码片段

class HistoryMessage:
    def__init__(self) -> None:
        self._history_messages = []

    defadd(self, role, message):
        self._history_messages.append({
            "role": role,
            "content": message
        })
    
    defto_string(self):
        content = ""
        for msg inself._history_messages:
            content += f"{msg['role']}: {msg['content']}\n"
        return content
        
classHostAgent:
    def__init__(self) -> None:
        self.llm_client = LLM()

    defget_introduce(self, context: str):
        prompt = HOST_PROMPT_INTRODUCE.format(context=context, 
                                              host_name=config.HOST_NAME,
                                              guest_name=config.GUEST_NAME,
                                              guest_introduction=config.GUEST_INTRODUCTION)
        for info inself.llm_client.fetch_stream(prompt, temperature=0.7):
            yield info

    defget_conversation(self, context: str, history_messages: HistoryMessage):
        prompt = HOST_CONVERSATION.format(context=context, 
                                          history=history_messages.to_string(),
                                          host_name=config.HOST_NAME,
                                          host_introduction=config.HOST_INTRODUCTION,
                                          guest_name=config.GUEST_NAME,
                                          guest_introduction=config.GUEST_INTRODUCTION,
                                          conversation_max_rounds=config.CONVERSATION_MAX_LENGTH)

        print (prompt) 
        content = ""
        for info inself.llm_client.fetch_stream(prompt, temperature=0.7):
            print (info, flush=True, end="")
            content += info
        print ()
        return content

上面是一个非常简化的代码框架，用于演示 Multiagent 的基本工作流程。在实际应用中，每个 Agent 的实现会复杂得多，需要集成各种 NLP 模型和技术。

此外，我们还可以考虑使用配置文件（例如 YAML）来定义 Agent 的类型、角色和交互方式，从而提高系统的灵活性和可配置性。

agents:
document_understander:
    type:DocumentUnderstandingAgent
    config:
      model_name:""
role_assigner:
    type:RoleAssignmentAgent
    config:
      num_roles:2
dialogue_generator_host:
    type:DialogueGenerationAgent
    config:
      model_name:"gpt-4o"
      role_prompt:"You are the host of the podcast..."
dialogue_generator_guest:
    type:DialogueGenerationAgent
    config:
      model_name:"gpt-4o"
      role_prompt:"You are an expert on..."
content_orchestrator:
    type: ContentOrchestrationAgent

效果展示

我们用鸡兔同笼的问题来作为输入，来直接看一下效果。为了不影响阅读，这里只截取了部分的生成结果。

小美: 大家好，欢迎收听《小美的趣味数学时光》，我是你们的主持人小美。今天我们邀请到了一位特别的嘉宾，小明，他是一位正在努力学习数学的四年级学生。今天，我们将一起探讨一个古代趣题——鸡兔同笼问题，了解其中的解法和背后的数学智慧。小明，准备好了吗？让我们开始吧！
小明: 大家好，我是小明。我已经准备好了！小美，今天我们要聊的鸡兔同笼问题听起来很有趣，我迫不及待想知道其中的解法了。
小美: 那太好了！鸡兔同笼问题是一个很经典的数学问题，最早出现在《孙子算经》里。那么，小明，你知道鸡兔同笼问题的具体内容是什么吗？
小明:  当然知道！问题是：笼子里有35个头和94只脚，问有多少只鸡和兔子。这个问题考察的是我们如何通过已知条件进行推理和计算。
小美: 没错！鸡兔同笼问题的确非常有趣。接下来，我们可以尝试用不同的方法来解答这个问题。小明，你想先听哪种方法呢？吹哨法、砍足法、假设法还是方程解法？
小明: 小美，我想先听听吹哨法！这个方法听起来就很有趣，好像在指挥一场动物表演呢。
小美: 好的，小明！吹哨法确实有趣。假设所有鸡兔听到哨声都抬起一只脚，这时地上还有多少只脚呢？
小明: 地上还会有94-35=59只脚。再吹一次哨，每只动物再抬一只脚，这时地上还有24只脚。这样只有兔子还有脚在地上。
小美:  没错，小明！现在所有的鸡都抬起了两只脚，地上剩下的24只脚都是兔子的。那么兔子的数量是多少呢？
小明: 兔子的数量是24➗2=12只，那么鸡的数量就是35-12=23只。这样我们就解出了鸡兔同笼的问题！
小美: 小明，你真是聪明！吹哨法确实很有意思。那么接下来，我们再来试试砍足法吧。你知道砍足法的步骤是什么吗？
小明: 砍足法的步骤是先假设每只鸡和兔都砍掉一半的脚，这样鸡有一只脚，兔子有两只脚，然后计算总脚数的一半。再根据脚比头多的数量确定兔子的数量。
小美: 对的，小明！假设每只鸡和兔各砍掉一半的脚后，总脚数就变成了47只。现在你知道兔子的数量是多少了吗？