大模型流式输出实践：SSE、WebSocket 与前端体验

梳理大模型流式响应在后端转发、前端渲染、取消生成、异常恢复和体验优化中的关键做法。

为什么值得关注

大模型回答通常需要数秒甚至更久，流式输出可以让用户更快看到结果，降低等待焦虑，也方便在生成过程中支持停止、重试和分段展示。

简单问答可以优先选择 SSE，由后端统一代理模型流并逐段推送给浏览器；需要双向通信、多人协作或复杂状态同步时，再考虑 WebSocket。前端收到增量内容后要做节流渲染，避免每个 token 都触发复杂更新。

流式链路要处理超时、断线、用户主动取消和模型返回异常。后端应记录请求 ID、首 token 延迟、总耗时和结束原因；前端要区分生成中、已完成、已取消和失败状态，避免用户误以为内容已经完整。