为什么值得关注
很多 AI 功能上线前看起来效果不错,但提示词、模型版本、知识库内容和业务规则变化后,答案质量可能悄悄下降。没有评估体系,就很难判断一次改动到底是变好还是变差。
落地路径
先从高频问题、失败案例和关键业务流程中整理评测集,为每条样本记录标准答案、必须命中的事实点和不能触碰的风险点。离线评估可以结合规则检查、人工抽检和模型辅助评分;线上评估则要收集用户追问、人工修正、低分反馈和异常日志。
工程注意点
评估不要只看平均分,还要关注关键场景是否退化。每次调整模型、提示词、检索策略或知识库切分方式时,都应该跑一遍固定评测集,并保留版本、耗时、成本和失败样例,方便回滚和复盘。