成立于 2019 年的开源人工智能先锋公司 Stability.ai 最近宣布了其最新突破--稳定视频扩散人工智能模型。这一创新标志着人工智能能力的重大飞跃,可将静态图像转化为引人入胜的动画。与它的前身 Stable Diffusion 图像模型类似,这一新产品已通过 Stability.ai 的 Github 存储库提供,供研究人员预览。
动画静态图像:核心理念
稳定视频扩散的关键在于它能根据上传的静态图像生成动画序列。利用图像内容,人工智能模型通过创建 25 个帧来制作视频,最后形成一个简短的动画。此外,用户还可以灵活制作 14 帧的视频。不过,生成的动画分辨率最大为 576x1024,取决于上传图片的大小。
优势与局限
Stability.ai 引用其发布的一份研究报告,声称稳定视频扩散优于竞争对手的人工智能模型。然而,必须承认的是,这项研究缺乏同行评审,因此引起了公正性的质疑。值得注意的是,这项比较涉及Runway'的GEN-2模型和Pika Labs'的产品。
然而,这种方法也存在局限性。由静止图像生成的视频时长限制在 4 秒左右。虽然适合循环播放内容,但对于原创动画创作来说,它还不够理想。此外,偶尔无法生成动画以及动作迟缓或不自然的情况也是该模型的缺点之一。
模式面临的挑战
与许多人工智能同行一样,稳定视频扩散也面临着一些挑战。值得注意的是,图像中的文字在转换成视频格式时可能会失去可读性,而面部元素可能会失真。目前,该模型仅用于研究目的,可通过 Stability.ai'GitHub 存储库访问,但需要有下载和执行代码的经验。
未来一瞥
Stability.ai'Stable Video Diffusion 的发布推动了人工智能技术的快速发展。与此同时,Pika Labs 最近推出了 Pika 1.0,这是一款从文字到视频的人工智能生成器,通过正在进行的研究工作加强了视频和图像生成方面的加速进步。