口播数字人 Agent:10 分钟自动剪视频

4 min read
Tutorial
17 views
口播数字人 Agent:10 分钟自动剪视频

10 分钟,自动剪一条 30 分钟的视频。

为什么做口播数字人 Agent

我经常用剪映剪口播视频,用久了发现两个问题:

问题 1:智能剪口播无法理解语义

重复说的话,它识别不出来。一口气说二三十分钟,自己剪非常累。

问题 2:字幕错别字多

自动生成的字幕质量不好,每次都要手动改。

所以我用 Umaxing 的 Skills,做了一个剪辑 Agent。

根本区别 剪映 = 人主导 + 工具辅助 剪辑 Agent = Agent 主导 + 人审核 剪映需要你一帧帧检查,Agent 帮你全部识别完,你只需要确认。

三个核心设计

  1. 自进化机制 这是最厉害的设计。同样一段视频,剪映漏掉的口误,Agent 全识别出来了。为什么?因为它会学习。每次执行任务后,你可以给反馈,Agent 会把反馈永久保存。用 10 次,它就知道你 80% 的习惯。用 50 次,它就完全符合你的需求。越剪越懂你。自更新循环机制,所有的识别规则,都放在一个独立的文件夹里。

  2. 模型:API 秒级响应 下载:不用等几个小时 运行:API 服务器比你的电脑快得多

  3. 可视化交互 以前在命令行里看审查稿,一行行找口误,眼睛都看花了。

四个快捷键按钮

1 搜热点 — 自动搜索热门视频 2 分析视频 — 自动提炼视频文案 3 做数字人 — 输入文案即可生成视频 4 一键爆款 — 确认无误后一键完成

15 分钟搞定。

三步流程图

查看skills

输入 /help,列出所有的skills 选择 /video:剪口播,输入视频路径。

加字幕(3分钟)

重点:自定义词典 = 字幕准确率翻倍

转录

词典纠正错别字 生成字幕文件 让你确认字幕是否正确 确认无误后,烧录到视频

让 Agent 越剪越懂你

你喜欢保留哪些语气词 你觉得哪些停顿不算口误 你的表达习惯是什么 然后把这些习惯永久记录到 Skills 里。

效果: 用 10 次,它就知道你 80% 的习惯。 用 50 次,它就完全符合你的需求。

这就是自进化的威力 —— 越剪越懂你。

如果你经常剪口播视频,强烈推荐试试。记得一定要用自进化机制,这样 Agent 会越剪越懂你。

#口播#数字人