Arize

Arize 为 LLM、智能体和机器学习应用提供追踪、评估、实验、提示词管理与生产监控，并包含开源 Phoenix 工具链。

工具介绍

Arize 覆盖 AI 应用从开发到生产的质量工程：开发阶段可记录 Agent 调用链、运行评估器、比较实验和管理提示词，线上阶段可监控模型表现、定位异常并组织人工标注。平台同时提供 Arize AX、开源 Phoenix 与工程助手等不同入口，兼容开放观测标准。

构建 RAG、客服机器人或多步骤 Agent 的团队，可用追踪查看一次回答经过哪些模型、工具和检索结果；模型平台人员可建立离线评测与线上监控，产品团队也能把用户反馈和标注结果用于回归分析。

观测平台能呈现证据，却不会自动定义什么是好答案。团队仍需设计贴合业务的评测集、阈值和故障响应流程；日志可能包含用户输入、检索文档和模型输出，接入前要规划脱敏、保留周期与访问权限。

不是，当前产品重点覆盖 LLM、RAG 和 Agent 的追踪、评估与生产可观测性。

Phoenix 是其开源 AI 可观测与评估项目，适合本地实验或集成到既有工程体系。

需要，自动评估器应与领域专家标注相互校准，尤其是高风险业务。