不是所有请求都值得用最强模型
一次用户请求可能只是分类、改写、摘要、抽取字段,也可能是复杂推理、代码审查、长文档分析。把所有请求都交给同一个旗舰模型,短期省事,长期会让成本和延迟失控。更合理的做法是根据任务难度、风险等级、用户级别和实时负载选择模型。
模型路由的价值不仅是省钱,还包括提高稳定性。当某个供应商异常、限流或延迟升高时,系统可以自动降级到备用模型,保证核心功能可用。
成本治理的组合拳
缓存
高频固定问答、模板生成、配置解释都适合缓存结果或中间摘要。
裁剪
上下文越长,成本越高。只送入必要片段,胜过盲目堆材料。
分层模型
轻模型做初筛,强模型处理疑难和高价值请求。
先有评估,再谈路由
模型路由不能只按价格排序。便宜模型如果导致大量返工、投诉或人工复核,综合成本可能更高。团队应该为不同任务建立评测集,记录准确率、失败类型、延迟、Token 和用户反馈,再决定路由策略。
清风笔记建议:每个 AI 功能上线前都要埋点模型、Token、耗时、错误码和业务模块。看不见成本,就管不住成本。