AI 剪辑师 CutClaw 来了,从此告别手动卡点

分类:AI资讯 浏览量:31

视频剪辑中音画精准对齐是行业长期难题,需从数小时素材中人工筛选既推进叙事又契合音乐节奏的片段。现有自动化方案各有缺陷:模板方法缺乏音视频同步,高光检测忽略音频和全局叙事,基于文本的方法则忽视音乐结构。

来自北京交通大学、大湾区大学 GVC 实验室的研究团队提出了CutClaw——一个模拟专业后期流程的多智能体(Agent)框架,旨在生成高质量、节奏同步的短视频。

🎬 核心创新

CutClaw 将视频剪辑形式化为一个智能体驱动的片段提取与组装问题,采用由粗到细的层级策略:

  1. 多模态素材解构:将视频切分为原子级镜头,利用多模态大语言模型提取语义属性
  2. Playwriter 智能体:以音乐结构作为叙事的时间锚点,生成镜头计划
  3. Editor 智能体:执行细粒度时间定位,寻找最优片段
  4. Reviewer 智能体:进行严格的质量验证,涵盖语义、时间、感知三个维度

📊 研究结果

研究团队构建了包含 5 部电影和 5 个长视频博客的评测基准,总计约 24 小时原始素材。结果显示:

  • 视觉质量:平均分 77.6,高于 Time-R1 的 72.9
  • 指令遵循:平均分 70.0,高于 NarratoAI 的 64.0
  • 音视频和谐度:平均分 86.5,领先其他方法

在涉及 25 名参与者的用户研究中,CutClaw 各项投票率均超过第二名两倍以上,类人性指标获得 48.8% 的偏好。

🔗 相关链接

论文链接:https://arxiv.org/pdf/2603.29664

原文链接:https://hub.baai.ac.cn/view/53684


来源:智源社区

微信微博FacebookX邮箱复制链接