大模型评估体系：从感觉可用到可持续回归

梳理如何用评测集、人工标注、自动评分和线上反馈建立可持续的大模型评估体系。

为什么值得关注

很多 AI 功能上线前看起来效果不错，但提示词、模型版本、知识库内容和业务规则变化后，答案质量可能悄悄下降。没有评估体系，就很难判断一次改动到底是变好还是变差。

先从高频问题、失败案例和关键业务流程中整理评测集，为每条样本记录标准答案、必须命中的事实点和不能触碰的风险点。离线评估可以结合规则检查、人工抽检和模型辅助评分；线上评估则要收集用户追问、人工修正、低分反馈和异常日志。

评估不要只看平均分，还要关注关键场景是否退化。每次调整模型、提示词、检索策略或知识库切分方式时，都应该跑一遍固定评测集，并保留版本、耗时、成本和失败样例，方便回滚和复盘。