定位:字节跳动推出的国民级全能AI助手
核心数据(2026年3月):
技术底座:基于字节自研Seed大模型,2026年2月升级至2.0版本,构建Pro、Lite、Mini、Code四大模型矩阵,全面对标GPT-5.2与Gemini 3 Pro
核心能力:
表格
| 能力 | 说明 |
|---|
| 多模态Agent | 从"对话"到"行动",可自动调用工具、操作系统完成任务 |
| 视觉理解 | 视频分析帧数提升至1280帧,视觉推理能力超越Gemini 3 Pro |
| 超长上下文 | 256K tokens上下文窗口,一次性处理约40万汉字 |
| 可选思考模式 | 四档模式(no_think/think-low/think-medium/think-high),按需匹配场景 |
生态联动:深度绑定抖音、今日头条、剪映、飞书、番茄小说,内容创作全链路打通
定位:字节跳动推出的新一代AI视频生成模型
核心数据:
技术架构:双分支扩散变换器(Dual-Branch DiT),支持音视频联合生成
核心能力:
表格
| 能力 | 说明 |
|---|
| 多模态输入 | 支持文字、图片、音频、视频四种模态混合输入,最多12个参考文件 |
| 多镜头叙事 | 一个提示词自动生成多个逻辑连贯镜头,保持角色/风格/氛围一致性 |
| 原生音画同步 | 视频与音效/配乐/对白同步生成,支持中英日韩法德等8+语言口型对齐 |
| 导演级控制 | 支持推拉摇移、跟拍、变焦等专业镜头语言 |
| 物理真实感 | 复杂动作/碰撞/流体效果符合真实物理规律 |
应用场景:短剧制作、电商广告、营销视频、产品演示、教育内容、社交媒体视频
接入平台:豆包App、豆包电脑端、豆包网页版、即梦AI、火山方舟API