文生视频大模型引发广泛关注
深度关注 | Sora将改变什么

发布时间:2024-03-03 08:53:14   来源:中央纪委国家监委网站

中央纪委国家监委网站  李云舒

近日,比利时布鲁塞尔,Sora模型根据文本内容生成的视频正在智能手机上展示。图片来源:视觉中国

只要输入一段文字,就能轻松生成视频,画面清晰丰富,栩栩如生。近日,美国人工智能研究公司OpenAI发布的文生视频模型Sora在全球引发关注。

一些业内人士指出,Sora将引领新一轮行业变革,与此同时,这一技术带来的“虚实难辨”的风险,也引发人们的警惕与担忧。Sora究竟基于怎样的技术原理,将给我们的生活带来怎样的影响?记者采访了有关专家。

仅需输入文字指令就能生成60秒视频,效果逼真自然

在人群中行进的春节舞龙队伍、踏过白雪覆盖的草地的猛犸象、动物运动员参加海上自行车比赛……在各大社交媒体上,Sora的演示视频获得大量转发。

根据OpenAI官方介绍,Sora能根据文字指令,创作长达60秒的视频。视频包含多角度镜头,不仅能够生成具有连贯性的场景,还能够模拟复杂的场景和角色表情,为视频增添更多细节和想象力。

例如,根据文字“一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上,她穿着黑色皮夹克、红色长裙和黑色靴子,拎着黑色钱包。她戴着太阳镜,涂着红色口红。她走路自信又随意。街道潮湿且反光,在彩色灯光的照射下形成镜面效果。许多行人走来走去”的提示,Sora生成了一段60秒的视频,画面质感高级,人物肌肤纹理的细节逼真。有网友表示,如果不注明AI生成,自己完全分不出真假。美国特斯拉公司首席执行官埃隆·马斯克也感叹:“人类认赌服输。”

不过,一些视频也存在穿帮或不合常理之处。例如,文字提示为“一只穿着黑色连帽运动衫的电脑黑客拉布拉多猎犬坐在电脑前,当它快速打字时,屏幕的眩光照射在狗的脸上”的视频中,“电脑黑客拉布拉多猎犬”在一个贴满海报的房间内,驾轻就熟地运用键盘,但屏幕的眩光同时也照亮了显示器的背面。而另一个被描述为“低至地面的摄像机密切跟踪丛林中的蚂蚁,深入地下进入它们的世界”的视频里,超微距追踪蚁群的效果堪比纪录片,但出现的蚂蚁都只有四条腿。

“在目前所看到的由Sora生成的视频中,仍存在一些违背物理规律的不真实内容,比如悬浮在空中的椅子,行人突然消失等。”浙江大学人工智能研究所所长吴飞告诉记者,造成这些问题的原因,可能是Sora记住了训练视频数据中人工生成的这类情景不合理的视频,或者Sora在对时空子块单元进行组合时作出了概率统计意义上的“合成谬误”。

虽然Sora仍有弱点,但从当前展示的效果来看,Sora显著领先于其他文生视频模型。有业内人士指出,Sora的诞生推动AI视频生成“进入了一个全新的时代”。

“Sora使普通人都可以通过自然语言交互这一简单明了的方式合成先前没有的视频,这已经使其成为改变影视创作、广告、设计等领域游戏规则的利器。”吴飞表示。

在被Sora的效果深深震撼的同时,不少人开始担忧,这种真假难辨的视频可能会成为错误信息伪装及传播的手段。目前,OpenAI官方表示,Sora并未向公众开放,访问权限仅限于选定的视觉艺术家、设计师、电影制作人。同时,OpenAI内部仍在进行模型伦理侧的对抗性测试,例如错误信息、仇恨内容、偏见内容等。

逼真视频合成的背后或是对真实物理世界规则的观察与重现

据OpenAI官网介绍,Sora模型基于Transformer架构,通过训练,Sora学会了理解和处理文本提示,将用户的描述转化为视频内容。

从ChatGPT到Sora,从文本到图像再到视频,人工智能大模型何以合成出有意义、有价值的内容?在吴飞看来,这一次次带来震撼的技术背后,都遵循着同一个原理:对合成内容中的最小单元进行有意义的关联组合。“比如,在保持连贯的上下文语境中,对若干个单词进行有意义线性组合,从而连缀成一个会意句子;在保持合理的空间布局下,对众多图像小块进行有意义结构组合,拼合为一幅精彩图像;在保持一致的连续时空内,对一系列时空子块进行有意义时空组合,从而拼接成一段动感视频。”

吴飞告诉记者,只要给定足够多的句子,Transformer架构就可学习句子中单词与单词之间的共生关联关系。“比如,‘项庄舞剑,意在沛公’这样的句子在若干篇文章中出现,那么Transformer就会认为‘项庄’‘舞剑’‘沛公’等单词之间存在共生关系,于是就在它们之间建立关联。”在对海量语料数据库进行学习的基础上,人工智能算法就可建立起一个巨大无比的单词共生关联网络图。此后,每当人们给定一个单词,算法就可按照要求,从单词共生关联网络图中找到下一个与之关联关系最密切的单词,作为给定单词的后续单词,最终达到自然语言合成的目的。

人工智能程序一旦捕获了单词与单词之间的共生关联,就可利用这种关联来合成句子。而如果将图像切分为空间子块,或者将视频切分为时空子块,人工智能模型去学习这些子块在空间维度中的布局分布、在时间维度上的连续变化等信息,同时学习子块之间运动、颜色、光照、遮挡等复杂视觉特征,就可能重建、合成新的视频序列。

吴飞介绍,Sora先是将文本单词和视觉子块映射到同构低维隐性空间,在这一低维隐性空间中引入扩散模型,对视觉信息加噪和去噪反复迭代,犹如先破坏再重建般学习,千锤百炼地挖掘文本单词、空间子块和时空子块之间的关联关系。“这就好比鲁班学艺,不断将大桥拆散再拼装,从这个反复过程中知晓它们的支座系统、桥墩、桥台和墩台之间的组合关系,从而练就重建大桥的能力。”吴飞说,正因如此,Sora合成视频的过程并非是简单随机的“鹦鹉学舌”,而是对物理世界“昨日重现”般的重建。

在一些业内人士看来,Sora最大的突破在于其似乎能够“理解和模拟运动中的物理世界”。360集团创始人周鸿祎在社交媒体上表示,此前的文生图、文生视频都是在2D平面上对图形元素进行操作,并没有适用物理定律。但Sora生成的视频能像人一样理解日常生活中的物理规律,例如理解坦克具有巨大冲击力,能撞毁汽车,而汽车无法撞毁坦克。

“Sora之所以能对物理世界规律进行模拟,一个可能的原因在于大数据驱动下,人工智能模型体现出一种学习能力,构建了非常复杂的非线性映射函数,超越了费曼极限,即Sora通过观察和学习海量视频数据后,洞察了视频中时空子块单元之间所应保持的物理规律。”吴飞说。

Sora诞生带来更多可能性,AI发展的步伐进一步加快

一些专家指出,大模型驱动的生成式AI具有极为广阔的应用前景,有望为众多行业带来强大的赋能效应。

工信部信息通信经济专家委员会委员刘兴亮此前在接受媒体采访时表示,Sora的诞生标志着AI技术在内容创作领域的一个新纪元。在中央财经大学数字经济融合创新发展中心主任陈端看来,长期来看,Sora将远远不只是内容生产工具,其构建的基于三维物理世界来创造数字原生世界的强大引擎,将给一些产业从底层工具层面带来变化,形成深远影响。

“Sora只是小试牛刀,它展现的不仅仅是一个视频制作的能力,而是大模型对真实世界有了理解和模拟之后,会带来新的成果和突破。”周鸿祎认为,有大模型技术作为基础,加上人类知识的引导,可以创造各个领域的超级工具,“一旦人工智能接上摄像头,把所有的电影都看一遍,把YouTube上和TikTok的视频都看一遍,对世界的理解将远远超过文字学习,一幅图胜过千言万语,而视频传递的信息量又远远超过一幅图,这就离通用人工智能(AGI)真的不远了。”

通常而言,AGI是指拥有与人类相当甚至超过人类智能的人工智能类型,不仅具有像人类一样进行感知、理解、学习和推理等基础思维能力,还能在不同领域灵活应用、快速学习和创造性思考。

不过,也有一些专家对此提出异议。图灵奖得主杨立昆认为Sora并不理解物理规律,只是基于规模训练去扩展了图像。他在社交平台上发文表示:澄清一个误解,从提示中生成大部分看起来逼真的视频并不表明系统理解物理世界,生成与世界模型的因果预测有很大不同。在杨立昆看来,通过生成像素来构建世界模型的方法,注定会失败。

“实际上,我们现在还无法清楚定义AGI。人类对自己如何产生意识、形成各种能力都无法理解,目前奢望像人一样的人工智能仍然只是幻想。”吴飞说。

浙江大学博士生导师赵俊博在社交媒体上发文表示:“反对很多自媒体把这个技术类比在AGI上面,我们距离AGI还差得远……我觉得一个世界模型需要有能力去输出动作,输出对未来的预测,输出对当前所处状态的判断。Sora大概率是学到了一些世界运转的模式,但是否具备其他上述能力我们不知道。”

中国企业在人工智能一些细分领域已具备国际竞争力,但仍有短板

AI写诗、AI画图、AI音乐……近年来,一系列利用人工智能技术生成内容的涌现,让不少人感叹“未来已来”。事实上,不仅在艺术创作领域,AI技术还在许多行业得到应用。

当地时间2月29日,一年一度的世界移动通信大会(MWC)在巴塞罗那落下帷幕。本届MWC上,科大讯飞展出了其自研的星火认知大模型,会话智能等AI解决方案。据介绍,该认知大模型拥有跨领域的知识和语言理解能力,能够基于自然对话方式理解与执行任务,并从海量数据和大规模知识中持续进化。近期发布的V3.5版本的语言理解、数学能力已超过GPT-4Turbo,将国产大模型推向新高度。

日前,清华大学官网发布的一则新闻称,清华大学与北京宣武医院团队成功进行首例无线微创脑机接口临床试验。手术后,一位四肢瘫痪14年的患者在接受居家脑机接口康复训练后,实现了自主喝水等脑控动作。

2月29日,国家自然科学基金委员会发布2023年度中国科学十大进展,其中,“人工智能大模型为精准天气预报带来新突破”位列第一。“人工智能大模型为精准天气预报带来新突破”是来自华为云计算技术有限公司的研究成果,该模型能够预报7天内的地表层和13个高空层的温度、气压、湿度、风速等气象要素,仅需10秒即可完成全球7天重要气象要素的预报,计算速度较数值方法提升1万倍以上。

当前,我国在人工智能技术和大模型领域已经取得了显著的进展,但与国际领先水平相比,仍存在一些短板。在商务部研究院电子商务研究所副研究员洪勇看来,国际上的部分大型科技公司凭借雄厚的技术积累和资源在人工智能赛道占据领先地位。“中国企业在一些细分领域已具备国际竞争力,但仍有短板。当下需要加强基础科研、培养高层次人才、建立合规体系,并积极参与国际合作与竞争,进一步提升在全球人工智能领域的地位。”

AI热潮在创造许多新机遇的同时,也不可避免地带来前所未有的挑战。在今年1月的美国民主党初选投票前,部分选民接到“美国总统拜登”来电,随后初步调查显示,这些来电中的声音是由人工智能生成的。

周鸿祎指出,文生视频的“深度伪造”技术可能引发欺诈问题。“例如利用Sora伪造一个以假乱真的视频发给你家里人,说你出事了,说你受伤了,现在住在医院里,赶紧给你微信打款,给你转账,这就非常危险。”

为规范生成式人工智能的应用,中国已发布《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等,对人工智能相关技术规范、义务主体与责任作出规定,强调技术开发、服务提供者的主体责任。全国两会将至,多名代表委员也针对生成式人工智能技术带来的挑战等问题提出建议和提案。

“人工智能是未来的重要发展方向,在构建有效监管体系的同时,也要避免‘一管就死’。”全国政协委员、金杜律师事务所高级合伙人张毅建议,应该尽快推进人工智能法的出台,构建人工智能算法治理体系,弥补监管体系空白,同时引入“监管沙盒”制度,允许算法及人工智能企业在监管机构的监督下,在相对可控的环境内进行试验性开发、测试和验证。