为什么值得关注

Agent 系统的问题通常不是一句报错能解释清楚。模型可能选错工具、参数不完整、上下文缺失、权限不足,也可能在多步任务中前面一步已经偏离目标,最后才暴露失败。

落地路径

生产系统需要记录用户输入、模型计划、工具名称、调用参数、返回摘要、耗时、重试次数和人工确认结果。对长任务要保存任务状态,包括待执行、执行中、待确认、失败和完成,并让每一步都能回看输入输出。

工程注意点

不要把完整敏感数据直接写入日志,可以保存脱敏摘要和引用 ID。工具调用要区分模型错误、业务错误、权限错误和外部服务错误,并设置超时、重试、熔断和人工接管入口。只有链路可观测,Agent 才能从演示走向可维护的生产系统。