我要投稿

Langfuse：重新定义LLM应用开发与运维的可观测性

发布日期：2025-06-08 13:08:57 浏览次数： 2258

作者：鲁班模锤

微信搜一搜，关注“鲁班模锤”

在人工智能技术飞速发展的今天，大语言模型（LLM）已经成为企业数字化转型的核心驱动力。随着AI系统复杂性的急剧增加，传统的软件监控工具已经无法满足LLM应用的特殊需求。在这样的背景下，一个专为LLM应用而生的可观测性平台——Langfuse应运而生，正在成为生成式AI技术栈中的"Datadog"或"Prometheus"。

大语言模型的黑盒特性和内在的非确定性给应用开发带来了前所未有的挑战。开发团队经常面临这样的困境：很难追踪特定LLM响应的生成过程，提示词的细微改动可能悄无声息地破坏功能，工具使用和智能体行为难以调试。传统的软件可观测性工具缺乏处理AI工作流所需的上下文和粒度，这正是Langfuse要解决的核心问题。

以一个客户支持聊天机器人为例，当系统因工具调用格式错误而无法获取答案时，传统监控工具可能只能告诉你"请求失败"，而无法提供更深层的洞察。而使用Langfuse，开发者可以精确定位是哪个工具失败了，输入输出分别是什么，提示词是如何演化的，从而实现快速的根因分析。

Langfuse采用模块化的架构设计，由几个关键组件构成。客户端SDK支持Python、TypeScript、LangChain和OpenAI SDK等主流开发环境，开发者可以通过装饰器或显式函数调用来对应用进行埋点，追踪和元数据会自动收集并发送到Langfuse后端。
后端系统基于PostgreSQL和Typesense构建，存储结构化的追踪数据，提供Web界面用于追踪检查，API用于集成，并支持基于角色的安全多用户访问控制。
评估器组件允许使用自定义插件或LLM来评估响应质量，包括与标准答案对比、检查JSON格式有效性或运行基于分类的评估。

整个系统设计为无状态架构，支持水平扩展，可以通过Docker或云原生平台部署，同时支持数据保留策略和符合GDPR的企业级日志记录。

1. 追踪与观测：Token级别的精确监控

Langfuse的追踪系统是其最核心的功能之一。每个LLM调用（包括提示词、模型、工具）都被捕获为一个追踪记录，嵌套操作（如智能体调用工具后跟随的第二次LLM调用）被记录为跨度。这种设计使得基于时间的调试、可视化深入分析和故障分析成为可能。

通过简洁的代码实现，开发者可以轻松集成追踪功能。当智能体处理旅行预订命令并调用多个服务（位置搜索、日历查询、价格检查器）时，可以使用嵌套跨度进行调试，每个步骤的执行情况都一目了然。

2. 提示词管理：中心化的版本控制系统

Langfuse的提示词管理功能可能是其最具创新性的特性之一。传统的LLM应用开发中，提示词往往硬编码在应用程序中，任何修改都需要重新部署。

Langfuse完全改变了这种模式，提供了与代码解耦的中心化提示词管理系统，可以在不重新部署应用的情况下部署新的提示词，大大提高了迭代效率版本控制。不仅如此，Langfuse还具备如下的许多功能：

追踪变更历史，可以快速回滚
同时支持文本和聊天格式的提示词灵活访问
可通过UI、SDK或API进行编辑业务
非技术人员可以通过控制台更新提示词

这种设计使得业务人员和技术人员可以协作地通过UI、API或SDK对提示词进行版本控制和编辑，将提示词的管理从纯技术工作转变为业务和技术的协同作业。

3. 智能评估系统

评估是LLM应用开发工作流程中最重要的部分，Langfuse提供了适应不同需求的灵活评估框架：LLM-as-a-judge，完全托管的评估器可以在Langfuse内对生产或开发追踪进行评估用户反馈。

例如，一个金融助手的生成响应可以自动评估免责声明的存在、事实正确性和语调。基于规则的评估器可以检查邮件助手的响应是否包含礼貌的问候和结尾语。

4. 成本监控：精细化的资源管理

在企业级应用中，LLM调用的成本控制至关重要。Langfuse按跨度跟踪token使用情况，汇总OpenAI、Anthropic、Cohere等多个服务提供商的成本。这使得预算控制和定价模型优化成为可能。

当部署更新后Langfuse报告由于详细响应中token使用增加导致成本激增40%时，团队可以立即触发提示词重新优化，避免不必要的成本浪费。

5. 会话跟踪：多轮对话的完整记录

对于基于聊天的智能体和检索增强生成（RAG）管道，会话状态的跟踪尤为重要。Langfuse支持多轮对话和会话回放，这对于内存和用户状态随时间演变的场景特别有用。

在辅导机器人的应用中，Langfuse可以跟踪用户的10题测验会话，并突出显示模型在后续轮次中未能回忆上下文的位置，帮助改进模型的上下文管理能力。

一个典型的案例是，某客户面向的机器人在深夜出现延迟峰值，通过Langfuse追踪发现是工具集成失败导致的重试问题。这种精确的问题定位能力大大缩短了故障恢复时间。

Langfuse完全开源（MIT许可证），允许自托管部署、插件创建和源代码级定制。这种开放性确保了用户不会被厂商锁定，同时可以根据特定需求进行定制。

Langfuse与LangChain、LlamaIndex、OpenAI SDK等AI技术栈中常用的工具原生集成，降低了采用门槛。支持自托管，完全控制追踪存储、加密和访问策略，满足企业级安全要求。

随着AI系统规模化和任务关键性的增强，Langfuse正在成为AI可观测性技术栈中的基础层。它不仅是一个监控工具，更是一个完整的LLM应用开发和运维平台。

在开发阶段，它支持快速迭代和模型比较；在生产环境中，它充当实时调试器和性能分析器。这种全生命周期的支持使得Langfuse在LLM应用开发领域具有不可替代的价值。

下面为简单的代码示例以及追踪的页面：

from langfuse import observefrom langfuse.openai import openai # OpenAI integration@observe()def story():    return openai.chat.completions.create(        model="gpt-4o",        messages=[{"role": "user", "content": "What is Langfuse?"}],    ).choices[0].message.content@observe()def main():    return story()main()