事件相机+AI视频生成入选ICIP,无需考试竣事可控视频生成|港大
发布日期:2024-10-27 05:11 点击次数:129
CUBE团队 投稿
量子位 | 公众号 QbitAI
在这个信息爆炸的时间,如何让AI生成的视频更具创意,又顺应特定需求?
来自香港大学的最新策划《基于事件、无需考试的可控视频生成框架 CUBE》带来一个全新的搞定决策。
这一框架诈欺了事件相机捕捉动态角落的才调,将AI生成的视频带入了一个新的维度,精确又高效。论文原标题是“Controllable Unsupervised Event-based Video Generation”,
发表于图像处理嘉会ICIP并被选为Oral(理论文牍),并受邀在WACV workshop演讲。
什么是事件相机?
在潜入了解CUBE框架之前,先来意志一下事件相机。
不同于传统相机的定时捕捉,事件相机效法生物的视觉系统,只捕捉像素点亮度变化的“事件”,就像是只纪录画面的精华部分。
这么不仅不错灵验减少冗尾数据,还不错显耀缩小耗能。
尤其是在高速动态或精炼变化大的场景下,事件相机比传统相机更有上风。而这些独有的“事件数据”恰是CUBE框架的中枢。
△左:世俗相机拍的;右:事件相机拍的
通俗说,事件相机和世俗相机不同,捕捉的是物体角落的动态细节,就像你脑中一闪而过的灵感,勤俭了大皆带宽还能省电。
CUBE框架联接了这些“自满”的角落数据和笔墨描摹,无需考试就能合成顺应需求的视频!这不仅能让你生成的场景更“合胃口”,还能让视频质料、时期一致性和文本匹配度皆蹭蹭高潮。
为什么要用CUBE?其他要领或是需要大皆考试数据,或是生成成果欠佳。CUBE框架不仅搞定了这些问题,还在多项盘算推算上推崇出色。
岂论是视觉成果、文本匹配度依然帧间一致性,CUBE皆推崇优异。
不错这么思:CUBE就像给事件相机配上了智能“滤镜”,让生成的视频不仅活泼还顺应描摹,比如让铁东谈主也能在马路上跳起月球舞步!
CUBE框架是如何责任的?CUBE的全称是“Controllable, Unsupervised, Based on Events”,直译过来等于“可控的、无需考试的、基于事件的”视频生成框架。
它通过提真金不怕火事件中的角落信息,再联接用户提供的笔墨描摹生成视频。在要领上,CUBE主要依赖扩散模子生成本事。
扩散模子通过向图像添加立时噪声并逐渐规复来生成图片,但团队进一步优化了这个经过,能让它笔据“事件”提供的角落数据生成视频。
CUBE的中枢要领1. 角落提真金不怕火:事件流纪录了物体指令的轨迹,而CUBE的弘大任务等于将这些事件转念成角落信息。团队遐想了一个角落提真金不怕火模块,把事件数据分红多个时期段,提真金不怕火出关键的空间位置,从而造成精确的角落图。这些角落图不仅保留了指令物体的详尽,还能让视频生成更流通。
2. 视频生成:有了角落数据之后,CUBE联接了笔墨描摹生成视频。通过扩散模子的逐渐规复经过,不错生成多个与描摹相匹配的图像帧,并用插帧本事让视频愈加平滑一致。这个经过不需要大皆的考试数据,因为CUBE胜利调用了预考试的扩散模子来竣事高质料生成。
3. 纵容性与一致性:接受了ControlVideo框架,这一框架具有优秀的可控性,通过笔墨描摹来纵容生成的视频本色,使每帧的生成皆顺应特定的条目。ControlVideo和CUBE的组合搞定了传统要领中视频生成一致性不及的问题,让本色腾达动、更贴合描摹。
CUBE的性能推崇
在履行中,CUBE的推崇远超现存要领。在视频质料、文本匹配度和时期一致性等多个盘算推算上,CUBE皆获得了优异的收货。
定量履行自满,CUBE生成的帧间一致性和文本匹配度皆比ControlNet、ControlVideo等要领更优。此外,团队还作念了用户偏好测试,赶走自满参与者宽广更心爱CUBE生成的视频。
往日预测
固然,CUBE还有普及的空间。往日团队但愿将角落信息和纹理信息联接,使视频更具细节和真确感,同期探索更多畛域适用性,以致将其应用在及时场景中。这一本事不仅稳妥电影、动画生成等畛域,还不错用于自动驾驶、监控等需要快速识别动态环境的场景。
CUBE不仅是一项本事,更是一次在事件相机与AI生成视频畛域的新探索。
要是你也对AI生成视频感兴致,可进一步参考齐全论文和开源代码。
论文地址:
https://ieeexplore.ieee.org/abstract/document/10647468代码已开源:https://github.com/IndigoPurple/cube— 完 —
量子位 QbitAI · 头条号签约
眷注咱们,第一时期获知前沿科技动态