Sora出手后,它的同行们都咋样了?
手机行业现在这竞争,真捉摸不透啊家人们。 安兔兔都知道吧,跑分必备 App。 每个月,安兔兔*都会发布榜单,比如说性能、性价比排行之类的。 而今年 2 月份的性价比榜....
距离 OpenAI 亮出 Sora 这张王牌,已经快一个月了。
东西么,是一直没大规模开放使用,但热度,却从来不缺。
反正光是靠着在 TikTok 上更新 Sora 的*, OpenAI 的*账号就已经涨了数十万粉。
像什么搞房屋设计。
外星人在纽约化身 gai 溜子。
博物馆一镜到底。
还有一男一女在铁磁流体餐厅里赛博约会。
看看这丝滑程度,相比之下,原本那些被吹上天的 “AI *老网红们 ” ,多少有点汗流浃背了。
有网友锐评:xx 刚出来的时候很感动,现在怎么不敢动了?
其实吧, Sora 的那些友商们,并没大伙儿想得这么怂包,他们的更新频率好像还更快了。
世超甚至觉得,经过 Sora 这么一番轰炸, AI *生成的战场,才真正热了起来。
先是 Stability AI 带头发起冲锋,把 Stable Video 拿出来公测,接着包括 Pika 、谷歌还有阿里在内的好几家公司,也都坐不住了。
咱也先讲讲剑走偏锋的两位,阿里 EMO 和 Pika。
他们没选择和 Sora 硬刚,而主打对口型,基本等于明牌暗示大家: “ 你们以后用 Sora 生成的*,可以用我来配音对口型噢 ~~ 。
就拿 EMO 为例,上传一张照片和一段音频,就能让照片里的人开口唱歌、说话。像什么小李子唱 Rap ,还有蒙娜丽莎开口说话都不在话下。
看看这个 Sora 皮衣女士,一开口就是乐坛老炮儿了。
另外,跟 EMO 发布差不多时间,国内的 Pika 也小小更新了一波。
新上了个Lip Sync 功能,说白了就是给*配音对口型。
现在分币不花就能用,但估计太多人把服务器给干崩了,世超每次都卡在了最后一步。。。
但同样都是对口型, EMO 的效果明显要比 Pika 强不少。Pika 的口型虽然是对上了,但根据创作者 @ 数字生命卡兹克的测试,说话的时候嘴还是没法子避免乱动的毛病。
寻找配音、对口型这种 AI *生成领域的小切口,确实是一种思路。
同样,为了和 Sora 打出差异化,以色列有家公司,就在内测一个叫做 LTX Studio 的 AI 电影制作平台。
而他的思路则是:大而全。
根据*的说法,它能生成超过 25 秒的*,但最重要的,它把*生成、编辑、旁白配音一条龙全给包了。
就比如生成个画面你不是很满意,那你可以切个机位或者换个光线,或者把画面里的东西给换掉。
特别是,*声称能保证角色的一致性。
以往的文生*,保不齐上一帧还是吴彦祖,下一帧可能就变成宋小宝了。
如果 LTX Studio 真能把角色一致性给解决,那世超是真 respect 。
而谷歌就更夸张了,号称是搞了个世界模型 Genie ,这玩意儿能根据一张照片或者几句简短的描述就生成一个 2D 游戏出来。。。
虽然画质有点惨不忍睹,但光凭一张图片就能整个虚拟世界出来。
果然对谷歌还是激将法更管用。
不过,上面提到的这几个应用世超几乎都没法上手,唯一方便亲自体验的,只有 Stability AI 他们家藏了四个多月的 Stable Video ( 下称 SV )。
而也和上面几个避 Sora 锋芒、主打各种差异化的老哥不同,Stable Video 是完完全全正面受敌。。
先给大伙儿回忆回忆,当时的 demo 是这样的。
模型能力评估,还超过了 Runway 和 Pika 。
所以这次在 Sora 的节骨眼上发布公测,大伙儿还挺期待 SV 能狠狠将 Sora 一军。
但当世超上手试了试之后发现,是我不懂事了。。。
在 SV ,有图像生成和文字生成两个选择,我直接把跟 Sora 那个火出圈的*提示词喂给了 AI 。
它先是根据提示词,生成了四张图像让我选。
接着,再手动把镜头运动的方式也设置下,等个十分钟,就能生成一条4 秒的*。
但不知道模型抽哪门子的风,背景全是乱的。
世超换了种镜头运动方式又试了一次,脸部、背景变形愣是一样没落下。。。
难道是因为提示词太难了?
不信邪的我又换了几组简单的,倒是也有像样的。
但十个里起码七个都翻车了,甚至还有在图像生成就开始发癫的,我说城门楼子,他生成胯骨肘子。。。
这么说吧,SV 给我的感觉就是能跟 Runway 和 Pika 打个平手,但 Sora ,还是算了吧。
不过测试看多了之后,世超发现 Sora 其实也并没有大家伙儿传得那么不可超越。
有外媒记者在拿到内测资格浅试一波之后,专门发了篇文章吐槽, Sora 生成的*让猴子长出了鹦鹉的尾巴,
还有国外 up 主,拿 Sora 生成了有六根手指头的人。。。
一句话总结就是,Sora 对物理世界的很多东西还理解不了,而且生成速度慢得离谱。
而且经 Sora 这么一搅合,整个 AI *圈子是更加活跃了,保不齐下次谁家更新又来了波大的。
世超也觉得,搞不齐会和大语言模型圈儿一个样, OpenAI 抛玉引玉, AI *生成领域的成果大爆发就在眼前。
对了,世超最后还想问一嘴, Sora 到底什么时候才能上手啊?