Langfuse

Langfuse 是一个开源的 LLM 工程平台，可帮助构建 LLM 应用和智能体的团队追踪请求、管理提示词、运行评估并监控指标，从而调试并提升性能。对于 AI 工程师和开发者而言，随着 LLM 系统日益复杂，这类可观测性能力可以让提示词迭代、故障分析和模型质量检查更加系统化。

2026年3月29日

访问官网

为这个工具评分

平均分

0.0

总投票数

0票

选择你的评分（1-10）：

详细信息

是什么

Langfuse 是一个面向构建 LLM 应用和智能体的团队的开源 LLM 工程平台。根据页面内容，它侧重于追踪、评估、提示词管理和指标，帮助团队调试行为、检查失败原因，并持续提升应用质量。

它似乎面向使用不同模型和库来构建复杂 LLM 工作流的开发者和 AI 产品团队。其核心工作流包括：通过 SDK 或 OpenTelemetry 为应用添加埋点，采集追踪和观测数据，审查提示词和输出，并利用评估和指标来优化提示词、智能体和数据集。

功能

LLM 可观测性与追踪：捕获 LLM 应用和智能体的完整追踪，帮助团队检查失败原因并理解执行路径。
基于 OpenTelemetry 的埋点：支持 OpenTelemetry，并提供即插即用的包装器模式，从而简化为现有代码添加追踪的过程。
提示词管理：包含提示词管理能力，使团队能够在开发工作流中组织并迭代提示词。
评估工具：支持 eval、标注和数据集构建工作流，可用于结构化质量审查和回归测试。
指标与仪表板：提供用于监控 LLM 应用行为和性能的指标，不过页面并未完整说明所有仪表板或报告功能。
广泛的开发者生态支持：提供 Python 和 JS/TS SDK、公共 API，以及对 OpenAI、LangChain、LangGraph、LlamaIndex、CrewAI、DSPy、Semantic Kernel 等框架的集成或支持。

实用建议

尽早优先进行埋点：这类产品在开发初期加入追踪时最有价值，因为一旦智能体逻辑和提示词链变得复杂，问题就会更难诊断。
按框架验证集成深度：页面列出了许多受支持的库，但团队仍应确认自己需要的是原生集成、OpenTelemetry 支持，还是基于 API 的自定义埋点。
结合真实失败案例使用评估：最强的价值通常来自将生产环境中追踪到的问题转化为可重复测试的评估数据集。
有意识地规划自托管与托管使用：Langfuse 强调其开源和自托管选项，因此部署方式应结合数据治理、团队运维能力和性能要求来决定。
检查具体功能的成熟度：更新日志显示产品发展迅速，这有利于创新，但也意味着买方应核实测试版或新发布功能的当前状态。

OpenClaw 技能

Langfuse 很适合作为 OpenClaw 生态中的可观测性与评估层，用于 AI 智能体和生产级 LLM 工作流。一个可能的用例是构建 OpenClaw 技能，将智能体运行、工具调用、提示词、输出和评估事件自动路由到 Langfuse，用于追踪分析、提示词迭代和质量监控。页面中的 SDK、公共 API 和 OpenTelemetry 基础支持这一总体方向，但并未明确确认原生支持 OpenClaw 集成。

这种组合可以支持面向 AI 运维、提示词 QA、回归测试和事故复盘的 OpenClaw 智能体。例如，OpenClaw 工作流可以检测低质量输出，按提示词版本或工具路径对失败进行分组，触发数据集创建，并将修复任务分配给工程或产品团队。对于构建内部 Copilot、客户支持自动化或多智能体企业工作流的行业来说，这可能会让 LLM 系统更容易审计、优化并实现规模化运营。

嵌入代码

将下面的代码复制到你的网站或博客中，即可展示这个 AI 工具。嵌入的小组件会自动同步最新信息。

响应式设计

自动更新

安全 iframe

<iframe src="https://www.aimyflow.com/ai/langfuse-com/embed" width="100%" height="400" frameborder="0"></iframe>

探索相似工具

查看全部

免费 AI 照片编辑器：在线编辑和生成图像 | Pokecut

Pokecut 是一款 AI 图片编辑器，帮助用户在线抠图、增强图片并生成视觉素材，主要面向电商卖家、营销人员和内容创作者。它可加速日常图片制作，让团队以更少手动编辑产出更精致的内容。

Qoder - 智能体式编程平台

Qoder 是一款智能代理式编程平台，帮助开发者理解代码库并借助 AI 代理执行软件任务，主要面向专业软件工程师和开发团队。它结合深度代码上下文与先进模型，提高任务完成的可靠性与工程效率。

Seedance 2.0

Seedance 2.0 是字节跳动推出的 AI 视频生成模型，可根据提示词和多模态输入生成高质量视频，主要面向创作者、开发者和媒体团队。在 AI 时代，它帮助视觉内容团队以更少人工剪辑将创意转化为可投入生产的动态素材。

Struct | 自动化你的值班运行手册

Struct 是 AI 值班工程代理，可通过分析日志、指标、链路追踪和代码库来调查工程告警与缺陷，主要面向软件工程师和 SRE 团队。在 AI 时代，它通过直接给出根因发现和修复建议，帮助应急响应人员缩短排障时间。

Handit.ai — 自动改进你的 AI 智能体的开源引擎

Handit.ai 是开源 AI 代理优化引擎，可评估代理决策、生成更优提示词与数据集，并对变更进行 A/B 测试，帮助 AI 工程和产品团队更快提升代理质量，同时更好控制生产环境表现。

免费 AI 语法检查器 - LanguageTool

LanguageTool 是 AI 写作与语法助手，可检查 30 多种语言的语法、拼写、标点和风格，适合学生、专业人士和多语言团队，帮助高频写作岗位更清晰表达并更快完成编辑。

Trace

Trace 是一款支持数字化工作流的软件工具，帮助团队更高效地组织、监控或分析工作流程。

面向问题解决者的 AI｜Anthropic 的 Claude

Anthropic 推出的 Claude 是一款面向问题解决者的 AI 助手，帮助用户处理写作、编程、数据分析、研究和任务组织等复杂工作，主要服务于专业人士、开发者以及负责高难度项目的团队。在 AI 赋能的工作流中，它可以帮助知识工作者和软件团队更快地从分析推进到执行，同时让人们继续掌控审批和文件访问权限。