为什么值得关注
大模型回答通常需要数秒甚至更久,流式输出可以让用户更快看到结果,降低等待焦虑,也方便在生成过程中支持停止、重试和分段展示。
落地路径
简单问答可以优先选择 SSE,由后端统一代理模型流并逐段推送给浏览器;需要双向通信、多人协作或复杂状态同步时,再考虑 WebSocket。前端收到增量内容后要做节流渲染,避免每个 token 都触发复杂更新。
工程注意点
流式链路要处理超时、断线、用户主动取消和模型返回异常。后端应记录请求 ID、首 token 延迟、总耗时和结束原因;前端要区分生成中、已完成、已取消和失败状态,避免用户误以为内容已经完整。