分享 Arize Phoenix: 快速上手指南

goofansu · 2025年03月13日 · 543 次阅读

公司在研发 AI 功能，面向 AI 编程具有很强的不确定性，为了明确知道哪些步骤会有问题，我们调研了市面上几款主打 LLM 可观测性的产品：

Braintrust: https://www.braintrust.dev/ （开源了 web UI，核心功能未开源）
Arize Phoenix: https://github.com/Arize-ai/phoenix （完全开源）
Langfuse: https://langfuse.com/pricing-self-host （使用 Dify 的时候发现的，可自主托管核心组件，额外功能要付费）

这些产品的主要功能有：

Prompt playground: 提供一个界面，可以方便地测试一些 prompt
Dataset: 支持上传数据集，一般是定义 input、output，之后在评估和实验中会使用
Tracing: 基本上使用 OpenTelemetry 收集 LLM 请求，收集后的对象叫作 Span
Evaluation: 提供一些内置的评估器，也可以自己写评估器，评估数据集或 Span
Experiment: 可以看成是使用评估器对数据集跑分，在每次更改 prompt、数据集、模型，都可以跑 Experiment，与之前的 Experiment 数据比较，以评估 AI 功能是变好了还是变差了

我们最开始使用的是 Braintrust，对于免费账号，它每周有额度限制，很容易就达到限制了，因为不能自主托管，所以我们开始寻找替代产品。刚巧 Arize 发了一个课程：AI Agents Mastery: From Architecture to Optimization，然后发现它有一款开源产品，叫 Phoenix（没错，跟 Elixir 的 Phoenix 同名，直觉上肯定很牛），可以自主托管，甚至只用 Google Colab 就能直接跑，环境都不用装。我们使用了一段时间，发现 Phoenix 确实不错，麻雀虽小五脏俱全，虽然 UI 是差了一点，但是核心功能一样不少，而且刚拿了融资，release 速度飞快。

最近会陆续把使用 Phoenix 的心得写成博客，这是第一篇：https://blog.leonx.ai/posts/arize-phoenix-up-and-running/

另外一点关于 Python 的 Tip：

用 uv 管理 Python 项目和安装依赖，其他的不用考虑了
Python 在 AI 生态里还是被优先考虑的，必要的时候还是要拥抱 Python

4 个赞

暂无回复。

需要登录后方可回复, 如果你还没有账号请注册新账号