从灵感至视频:内容工厂 (Content Factory) 全自动创作流水线解析
介绍内容工厂 (Content Factory) 技能,这是一款实现从单一想法到完整同步视频的全自动创作工具,重点解析其“按页独立配音”的核心同步机制。
在短视频内容爆发的今天,创作的门槛依然很高。从一个想法到最终成片,往往需要经历资料搜集、脚本撰写、PPT制作、录音配音、视频剪辑等繁琐步骤。
为了彻底解放生产力,昨天开发了 Content Factory(内容工厂) 技能,今天将其提交到了 GitHub: bajie-skills。这是一个基于 AI Agent 的全自动创作流水线,能实现从“灵光一闪”到“视频出炉”的一条龙服务。
🎬 实战展示:Claude Code + Content Factory
最近我测试了通过 Claude Code 调用该技能的效果。只需一句话指令,Agent 就能自动理解意图并驱动整个流水线。
1. 终端自动化执行
下图展示了 Claude Code 在接收到任务后,如何有序地调用搜索、PPT生成、配音等各个模块。
2. 最终成品预览
这是流水线最终产出的高清视频,注意其音画同步的精准度。
🏗️ 核心工作流解析
内容工厂的设计理念是“模组化”与“高度自动化”。整个流水线分为七个核心阶段:
graph LR
A[灵感输入] --> B[资料搜索]
B --> C[大纲/PPT生成]
C --> D[幻灯片图片化]
D --> E[每页讲稿生成]
E --> F[**按页独立配音**]
F --> G[视频合成]
G --> H[最终方案]
关键环节说明:
- 智能搜索与整理:自动整合网络资料,生成结构化的内容摘要。
- 科技风 PPT 生成:基于模板自动生成 1920x1080 的高清幻灯片并导出为图片帧。
- MiniMax TTS 集成:使用 MiniMax 最新的语音合成接口,提供极具表现力的口语化配音。
💎 核心突破:解决“音画同步”难题
在早期的 AI 视频生成尝试中,最大的痛点是音频与画面对齐。
旧方案的局限:
将整篇讲稿合成一段长音频,然后简单地在总时长基础上平分给每张幻灯片。这导致每页讲完时,画面可能还没切或者已经提前切走,观感极差。
内容工厂的优化:按页独立配音策略
这是该技能最核心的优化点:
- 解耦生成:为每张 PPT 幻灯片生成一段独立的音频文件。
- 精确测量:记录每段音频的真实时长(精确到毫秒)。
- 动态合成:在最终使用 FFmpeg 合成视频时,每张幻灯片的显示时长 = 该页配音时长。
通过这种方案,无论 Agent 写的讲稿是长是短,画面都能与配音做到完美的物理对准。
📁 输出结构演示
生成的每一个项目都拥有清晰的资产管理结构,方便二次编辑:
1
2
3
4
5
6
7
output/{topic-slug}/
├── 01_research/ # 原始资料摘要
├── 02_outline/ # 内容大纲
├── 04_slides/ # 高清幻灯片(PNG帧)
├── 05_script/ # 每页独立讲稿(Markdown)
├── 06_audio/ # 每页 MP3 配音及合并后的完整音轨
└── 07_video/ # 最终合成的完美同步视频 (MP4)
🚀 开启你的内容工厂
如果你也想体验这种“全自动出片”的快感,可以访问以下仓库获取源码与 Skill 配置:
🔗 GitHub 仓库:zhchxiao123/bajie-skills/content-factory
[!TIP] 使用前需要配置
MINIMAX_API_KEY环境变量。推荐使用的音色 ID 为male-qn-qingse(清澈男声),非常适合技术讲解。

