分享 Arize Phoenix: 快速上手指南

goofansu · 2025年03月13日 · 202 次阅读

公司在研发 AI 功能,面向 AI 编程具有很强的不确定性,为了明确知道哪些步骤会有问题,我们调研了市面上几款主打 LLM 可观测性的产品:

这些产品的主要功能有:

  • Prompt playground: 提供一个界面,可以方便地测试一些 prompt
  • Dataset: 支持上传数据集,一般是定义 input、output,之后在评估和实验中会使用
  • Tracing: 基本上使用 OpenTelemetry 收集 LLM 请求,收集后的对象叫作 Span
  • Evaluation: 提供一些内置的评估器,也可以自己写评估器,评估数据集或 Span
  • Experiment: 可以看成是使用评估器对数据集跑分,在每次更改 prompt、数据集、模型,都可以跑 Experiment,与之前的 Experiment 数据比较,以评估 AI 功能是变好了还是变差了

我们最开始使用的是 Braintrust,对于免费账号,它每周有额度限制,很容易就达到限制了,因为不能自主托管,所以我们开始寻找替代产品。 刚巧 Arize 发了一个课程:AI Agents Mastery: From Architecture to Optimization,然后发现它有一款开源产品,叫 Phoenix(没错,跟 Elixir 的 Phoenix 同名,直觉上肯定很牛),可以自主托管,甚至只用 Google Colab 就能直接跑,环境都不用装。我们使用了一段时间,发现 Phoenix 确实不错,麻雀虽小五脏俱全,虽然 UI 是差了一点,但是核心功能一样不少,而且刚拿了融资,release 速度飞快。

最近会陆续把使用 Phoenix 的心得写成博客,这是第一篇:https://blog.leonx.cloud/posts/arize-phoenix-up-and-running/

另外一点关于 Python 的 Tip:

  • uv 管理 Python 项目和安装依赖,其他的不用考虑了
  • Python 在 AI 生态里还是被优先考虑的,必要的时候还是要拥抱 Python
暂无回复。
需要 登录 后方可回复, 如果你还没有账号请 注册新账号