新杀手锏Sora「文字转影片」 马斯克喊「gg humans」

  • 发表时间:
    , 文章来源:EtToday, 新闻取自各大新闻媒体,新闻内容并不代表本网立场

    *(photo:EtToday)
    *(photo:EtToday)

    ▲由OpenAI推出的影像生成模型Sora,一出手就震撼市场,直接打趴了包括RUNWAY、Stable Video Diffusion、Pika等公司。(图/阳明交大提供、翻摄自OPENAI官网)

    图文/CTWANT

    不出手则已,一出手就是横扫市场!OpenAI继2022年11月底发表文字生成式AI「ChatGPT」,相隔才短短15个月,2月16日又推出影片生成AI模型「Sora」,一举将AI应用从文字升级到影片,立马惊艳全球,市场甚至对一分钟以内短影片的动画及广告产业,涌现唱衰声浪。

    对于「Sora」的横空出世,有网友在推特上发文,「gg Pixar(皮克斯动画工作室)」,而特斯拉执行长马斯克更直接回文表示,「gg humans」(意指AI将取代人类)。

    而就在OpenAI发布「Sora」的前几个小时,Google也在15日发表了最新的Gemini 1.5模型,可一次处理大量资讯,包括1小时的影片,不过经过网友们的测试,Gemini 1.5最后生成的产品一定都会「种族多元化」,遭到 Google暂时下架。

    其实在2023年,也有数个影像生成软体出现,包括RUNWAY Gen-2在6月推出,11月又有Stable Video Diffusion、Pika等模型推出,不过这些模型的影片生成能力,大多仅约3、4秒左右,最长不超过10秒。

    而OpenAI的「Sora」一亮相,就立刻震撼全市场。「Sora 是一个AI模型,可根据文字指令创建现实且富有想像的场景,产生长达一分钟的视频,同时保持视觉品质并遵守用户的提示。」也就是说,只要输入「Prompt(提示)」文字叙述下指令,Sora就可以生成最长约1分钟的真实度不低的影片。

    OpenAI展示数十个由Sora所生成的影片,内容拟真度极高,像是「一名穿着时尚的女子走在充满温暖霓虹灯及招牌的东京街头。她身着黑色皮夹克、红色长裙及黑色靴子,拎着一个黑色包包,戴着太阳眼镜,擦着红色口红,走起路来自信又随性。潮湿的街道反射出七彩灯光,行人熙来攘往。」但影片也出现谬误,例如「一个人在跑步机上跑步的场景,以35毫米拍摄的电影胶片。跑者却是逆向在跑步机上跑步。」

    *(photo:EtToday)
    *(photo:EtToday)

    ▲一般认为,包括分镜师在内的影像从业人员将受到最大的冲击。(示意图/CTWANT提供)

    对此,OpenAI解释,「我们正在教授人工智慧理解和模拟运动中的物理世界,目标是训练模型帮助人们解决需要现实世界互动的问题。」「现实的物理原理及因果关系,仍是Sora最大的问题所在。」

    尽管仍不尽完美,「相较于之前的影片生成AI,几乎是小学生对于比大学生。」有Youtuber如此形容。

    M观点主持人Mulia认为,「Sora」的出现,势必严重冲击动画及广告产业,尤其广告,一般顶多就是30秒左右,刚好就是「Sora」可处理的长度,他甚至预期,5年后,也许小说家可透过ChatGPT,将小说内容生成剧本,再透过Sora生成一小时影片。

    知识力科技执行长曲建仲指出,目前OpenAI对于原理公开并不多,基本上就是使用了「变换模型(Transformer model)」及「扩散模型(Diffusion model)」来对影片结构做了全面创新。扩散模型(Diffusion model)是将真实图片逐渐加入杂讯(Noise),让图片慢慢变成完全的杂讯图片,再反转这个过程,逐渐去除杂讯(Denoise),让图片回复为原来的样子,叫做反向过程(Reverse process)。

    「ChatGPT利用token(类似单词的文字语意)来进行文字接龙,产生连续且具有意义的句子及文章,Sora就是利用图片版的token也就是Patch,来创造出具有连贯性的图片。」Youtube频道泛科学院解释道。「这也是AI变成人的里程碑。」

    对于Sora的出现,「Sora对于动画产业的影响,并非是全面冲击,反而应该要这样来看,毕竟AI的内容基础,还是由照片来生成,也就是说,如果是纪实类的影片,例如人物类,由于AI已经很容易收集到相关内容所需资料,影响程度就会比较大,至于是创作型的影片,那Sora反倒是一个不错的工具。」

    *(photo:EtToday)
    *(photo:EtToday)

    ▲知识力科技执行长曲建仲指出,OpenAI基本上就是使用了「变换模型(Transformer model)」及「扩散模型(Diffusion model)」来对影片结构做了全面创新。(图/翻摄自曲博科技教室脸书、翻摄自魔法学院官网 )

    Youtube频道中二见习中制作人Raymond表示,很多影片在正式拍摄之前,都会有分镜师先进行分镜,最后再由导演来决定如何拍摄,Sora的出现,对于分镜的作业将会有明显的冲击,但是对于编剧及导演来说,则是一个很好用的工具。「对于很多讲述性质的Youtube频道来说,Sora可以生成很多不同段的影片,让他们的影片更加丰富。」

    至于Sora需要多少的算力,来生成一则长度约60秒的影片?目前在论坛Reddit就有网友在讨论,也有引用到外媒《Wired》的报导,推估,Sora生成一个1分钟长度的影片,认为大约需要一个小时。这也说明了目前Sora并没有开放给一般民众使用,而是仅给OpenAI内部及部分的动画家、导演等来测试。

    而Sora何时会像ChatGPT一样普及?目前OpenAI并没有时间表。OpenAI正在跟「错误讯息、仇恨内容和偏见等领域的领域专家」对模型进行对抗性测试,另外也在建立工具来帮助侦测误导性内容,例如侦测分类器,以判断Sora何时产生影片。

    延伸阅读
    ▸ Sora来袭2/从生成文字到影像 投资达人点名:储存设备、高速传输「这几档股」受惠
    ▸ 医师噼腿1/女坐高岛屋10楼墙外被拉下 外套下竟穿男医师袍
    ▸ 文青女神1/捕获野生田馥甄!过年尽孝遛爸妈...女性友人相陪