提示词不是形容词堆叠
文生视频提示词的核心是让模型知道谁在什么场景里做什么,镜头如何观察,画面应该呈现什么风格。只堆 cinematic、ultra detailed、未来感,很容易得到好看但不可用的片段。
推荐结构
可以按 主体、动作、场景、镜头、光线、风格、时长、限制 八个部分写。主体要具体,动作要可拍,场景要能支撑动作,镜头要说明景别和运动,限制要写清不要出现的元素。
- 主体:一名产品经理正在白板前拆解 AI 视频流程
- 动作:用马克笔画出脚本、分镜、生成、剪辑四个节点
- 镜头:中景,缓慢推进,保持白板文字区域清晰
- 限制:不要多余人物,不要畸形手指,不要乱码字幕
迭代方法
第一次生成只验证构图和动作,不急着追求最终质感。第二轮固定主体和场景,微调镜头运动。第三轮再统一色调、光线和节奏。每次只改一个变量,才能知道效果来自哪里。
常见坑
不要让一个镜头完成复杂叙事,例如 同时展示团队开会、产品上线、数据增长和用户反馈。模型更擅长短动作和明确视觉关系,复杂叙事应该拆成多个镜头交给剪辑完成。