企业 AI Agent 事故中,模型问题只占 35%——剩下 65%,是工程层面的可观测性缺失。

这是 Gartner 2025 年调研里最让工程师沉默的数据。团队花三个月调优 Prompt,把准确率从 82% 提升到 91%,然后上线,然后——没有人知道 Agent 在生产环境里什么时候会”卡住”,为什么会”想错”,以及哪一步调用了错误的工具。

AI Agent 可观测性不是”加几个监控仪表盘”那么简单。它是一套完整的工程体系,涵盖 Tracing 链路追踪、Metrics 指标采集、Logs 日志记录三大支柱,是 DevOps 工程师和 AI 平台团队在 2026 年必须掌握的核心能力。

为什么传统 APM 不够用

传统 APM(应用性能监控)的核心假设是:系统行为是确定性的——给定相同输入,相同代码路径,总是返回相同输出。

AI Agent 打破了这个假设。同一个 Prompt,同一个模型,每一次 LLM 推理都是一次随机采样。输入不变,Agent 的工具调用序列可能不同,推理路径可能不同,最终输出可能不同。传统 APM 的”请求→处理→响应”线性模型,无法描述 Agent 的多分支推理行为。

可观测性(Observability)的概念因此被引入 AI 领域:在不依赖预先已知故障模式的前提下,通过系统外部输出推断其内部状态的能力。 对于 AI Agent,这意味着你能通过 trace 和 metrics 反推 Agent”在想什么”——即使它从未按你预期的方式运行。

AI Agent 可观测性三大支柱

Tracing:追踪 Agent 的推理链路

Tracing 是 AI Agent 可观测性的核心。它记录 Agent 一次完整任务执行中的所有关键事件:用户输入 → LLM 推理调用 → Prompt 片段 → 工具选择 → 工具执行结果 → 下一轮推理。

一个典型的 Agent trace 包含以下 span:

User Input: "查询本月销售额超过 100 万的客户列表"
├── llm.reasoning (span: "reasoning-step-1")
│   └── content: "用户需要销售数据,需调用 CRM API..."
├── tool.call (span: "crm_api.query")
│   └── args: {filter: "sales > 1000000"}
│   └── result: [客户A, 客户B, 客户C]
├── llm.reasoning (span: "reasoning-step-2")
│   └── content: "已获取结果,需格式化输出..."
└── final_response: [格式化后的客户列表]

这条 trace 的价值不只是”看到结果”,而是能回答任何事后问题:如果第三步推理失败了,是 LLM 幻觉了工具名,还是工具本身返回了错误数据?

OpenTelemetry(OTel) 是当前 AI Agent tracing 的标准方案。CNCF 2026 年报告显示,采用 OTel 标准的 AI 监控栈企业占比已达 41%。LangChain、AutoGen、LlamaIndex 等主流框架均已提供 OTel exporter 支持。

Metrics:设定 Agent 的 SLO

Metrics 是量化 Agent 行为的指标集合。与 tracing 不同,metrics 回答的是”Agent 系统整体表现如何”,而非”某一次执行发生了什么”。

AI Agent 关键 Metrics:

指标定义典型 SLO 目标
请求成功率Agent 成功完成任务的比例≥ 95%
LLM 推理延迟Prompt → First Token 的 P99≤ 3s
工具调用成功率工具 API 返回 2xx 的比例≥ 98%
Token 消耗速率每小时消耗的平均 token 数监控告警阈值
循环调用率单任务内工具循环调用占比< 5%

告警设计:建议使用多级告警——WARNING(超过 SLO 的 80%)→ CRITICAL(超过 SLO 的 95%)→ INCIDENT(低于 SLO)。避免告警疲劳,聚焦真正影响用户体验的指标。

Logs:审计与合规的最后一道防线

Logs 是最细粒度的可观测性数据,也是满足中国监管合规要求的关键。

《深度合成管理规定》和等保 2.0 要求 AI 系统具备完整的操作审计能力。对于 AI Agent,Logs 需要覆盖:

  • 每次 LLM 推理的完整 Prompt(敏感数据需脱敏处理)
  • 工具调用的输入输出
  • Agent 最终决策及其依据
  • 异常场景的完整上下文

日志留存规范:等保三级要求日志留存至少 6 个月,建议生产环境 Agent 日志保留 1 年以上。存储成本需纳入运维预算——单个生产级 Agent 每日产生 2–8 GB trace 数据。

OpenTelemetry 在主流框架中的实战配置

以 LangChain 为例,植入 OTel tracing 的最小化配置:

from opentelemetry import trace
from opentelemetry.exporter.otlp.proto.grpc.trace_exporter import OTLPSpanExporter
from opentelemetry.sdk.trace import TracerProvider
from opentelemetry.sdk.trace.export import BatchSpanProcessor

# 初始化 OTel Provider
provider = TracerProvider()
processor = BatchSpanProcessor(OTLPSpanExporter(endpoint="http://otel-collector:4317"))
provider.add_span_processor(processor)
trace.set_tracer_provider(provider)

# LangChain Agent 自动使用全局 tracer
from langchain.agents import initialize_agent
agent = initialize_agent(
    tools, llm,
    agent="zero-shot-react-description",
    tracer=trace.get_tracer(__name__)
)

配置完成后,所有 Agent 执行链路自动导出到你的 OTLP 兼容后端(Grafana Tempo、Jaeger、阿里云 ARMS 等)。

国内工具链方案对比

方案优势劣势适合场景
阿里云 ARMS + OTel全托管,与阿里云生态深度集成,SLA 保障成本较高,数据出境合规需单独评估已在阿里云部署,预算充足
Grafana + Prometheus + Tempo(私有部署)开源可控,数据不出境,灵活扩展运维成本高,需专人维护数据敏感度高,自建能力强的团队
商业 SaaS(Helios、Syncsort)开箱即用,支持主流 LLM 平台数据出境,合规风险海外业务为主,暂不考虑国内合规
自研 + OTel完全可控,定制化能力强开发周期长,重复造轮子大厂有专属 AI 平台团队

国内企业 78% 倾向使用阿里云 ARMS 或 OpenTelemetry + 私有部署组合(艾瑞 2025 企业调研)。对于数据敏感行业(金融、医疗、政务),私有部署几乎是必选项。

等保合规审计的日志设计

等保三级测评对 AI Agent 日志系统有明确要求:

日志记录完整性:需记录所有 AI 生成内容的完整上下文,含用户输入、Agent 推理过程、最终输出。任何日志字段不可事后修改。

日志访问控制:日志记录权限与日志查阅权限必须分离。普通运维人员可查阅监控仪表盘,但无法接触原始 Prompt/Response 内容——等保三级要求原始日志只能由安全管理员调取。

脱敏要求:涉及个人信息的用户输入需在日志阶段完成脱敏处理。建议在 OTel Exporter 层统一处理,而非在业务代码中分散处理。

等保测评对接建议

  1. 选用通过等保三级认证的日志存储产品(如阿里云日志服务企业版)
  2. 在 Agent 框架层统一接入,不要让每个业务线各自记录日志
  3. 至少提前 3 个月启动等保测评流程,Agent 合规整改周期比传统系统更长

从告警到修复的闭环

再好的监控体系,如果告警没人响应,就只是成本。

建立 AI Agent 故障复盘机制:

P0 故障(Agent 完全不可用):立即通知,15 分钟内响应,当日出具故障报告。

P1 故障(SLO 降级超过 20%):工作日 2 小时内响应,形成事件记录(Incident Record),分析根因并提交修复方案。

P2 故障(偶发异常):纳入周度运维 review,持续出现三次则升级为 P1。

故障报告模板需包含:故障时间线、触发条件、root cause 分析、短期缓解措施、长期修复方案、下次预防计划。

Action Checklist

立即执行(1 周内)

  • [ ] 在现有 LangChain/AutoGen Agent 框架中接入 OpenTelemetry exporter,验证 trace 数据可导出
  • [ ] 识别当前 Agent 系统最关键的 3 个 Metrics(建议优先:请求成功率、LLM 推理延迟、工具调用错误率),配置多级告警
  • [ ] 评估现有日志系统是否满足等保三级对原始 Prompt 的留存要求

中期规划(1–3 个月)

  • [ ] 搭建统一的 Agent 可观测仪表盘(建议使用 Grafana + Tempo),覆盖所有生产环境 Agent
  • [ ] 制定 AI Agent SLO 体系,明确各业务线的可用性目标
  • [ ] 对接等保三级测评机构,提交 Agent 日志系统合规评估报告
  • [ ] 建立 Agent 故障复盘机制,纳入运维 SOP

结论

三条落到行动清单的结论:

  1. 模型问题只占 35%,但最容易背锅:在没有 trace 的情况下,LLM 的每一次”奇怪行为”都会被归咎于模型——但很可能是工具 API 超时或 Prompt 解析错误。Trace 让责任归因准确。
  1. 国内合规要求让日志设计变成必答题:等保三级不只是”通过测评”,而是”日志设计不合格 = Agent 系统不合格”。从第一天就把合规纳入架构设计,而非事后补救。
  1. 2026 年 AI Agent 可观测性工程师缺口 1:8:这是国内目前供需比最失衡的 AI 工程岗位之一。团队提前建立可观测性能力,既是工程竞争力的体现,也是吸引人才的加分项。

想系统了解 AI Agent 从 POC 到生产环境的完整工程路径,可以参考我们的 2026 年 AI Agent 落地实战:从概念到规模化的转折之年


你的团队是否已建立 AI Agent 可观测性体系? 联系 Spotech 团队,获取专属的 Agent 监控架构评估与 OTel 接入方案。