相伴第 47 期
本期作者 | 汪洋
去年的招夕相伴栏目,我们为大家理性分析了ChatGPT以及相关的AIGC领域所带来的对人工智能板块的投资机会和可能面临的投资风险。近期OpenAI公司再度通过正式发布的文生视频AI大模型Sora,吸引了全球众多的关注。本期招夕相伴,我们将为大家继续带来最新的解读。
资料来源:OpenAI官网,风险提示:引自外部机构的观点或信息,我们并不对该等观点和信息的真实性、完整性和准确性做任何实质性的保证或承诺。
Sora究竟是什么?
Sora模型具有根据用户输入文本描述生成视频内容的卓越能力,能够深度模拟真实物理世界,创造出富有想象力的视频场景,并在制作长达一分钟的视频时保持出色的视觉质量。Sora能够比较轻松地创作包含多人、特定运动类型和详细背景的复杂场景,生成与用户提示匹配度较高的视频内容。这一创新或标志着人工智能在理解真实世界场景并与之互动方面迈出了比较重大的一步。
过去AI视频生成的难点在于,一方面视频是连续的多帧图像,并且要有逻辑性,并非简单的图片组合;另一方面是带来模型复杂度提升、计算难度和成本的提升。此外,文生视频需要大量的“文本-视频”配对数据,而目前缺乏多样化的数据集,且数据标注的工作量较大。因而此前视频大多为5-15秒,而Sora将视频时长提升至1分钟,支持生成多个镜头,同时基本维持了角色和视觉风格的一致性,并能在一定程度上“理解”现实世界。
Sora的技术突破亮点是什么?
技术方面,与其它同类型产品比较,之前做视频做图用的都是Diffusion,是多个真实图片的组合;而这次OpenAI利用其大语言模型优势,借助OpenAI 自己的文本(GPT)和图像(DALLE)模型来帮助丰富提示词和图像训练,把LLM和Diffusion结合起来训练,统一处理图像和视频数据为patch,并将其作为训练和测试的基本单位,采用diffusion transformer 这个新架构模型,让Sora实现了对现实世界的理解和对世界的模拟两层能力,这样产生的视频才是真实的,才能跳出2D的范围模拟真实的物理世界。
从具体的技术思路展开来看:首先,通过视频压缩网络将原始视频压缩到低维度的潜在空间,这个空间可以看作是时空包的集合。接着,设计了一个专门训练的解码器模型,将生成的潜在表示映射回像素空间,生成可视的视频或图像。在训练中,通过提取时空包并转换成token的方式,Sora模型能够跨越不同分辨率、持续时间和纵横比的视频和图像。最后,Sora是一个基于扩散的转换器模型,接受噪声包和条件性输入信息,通过训练预测原始的“干净”包。研究发现扩散转换器在视频生成领域有比较显著的潜力,随着训练量的增加,生成样本的质量明显提高。
资料来源:国金证券、WIND,风险提示:引自外部机构的观点或信息,我们并不对该等观点和信息的真实性、完整性和准确性做任何实质性的保证或承诺。
Sora有何商业价值?
Sora模型的出现或预示着行业变革的来临。从商业角度来看“idea或IP→内容生产→内容分发”的视频产业链,长期预计视频生产的成本将大幅降低。在内容创作与媒体领域,它将比较大程度改变视频制作的传统方式,助力创作者以更高效、更低成本的方式创作出高质量视频,从而推动整个行业的工作效率提升。对于广告、电影预告片和短视频等行业,Sora模型更是可能带来比较大力度的创新。同时其在模拟世界方面的能力为虚拟现实、游戏开发等领域也开辟了比较大的潜力空间。
此外,由于Sora有较强劲的大模型做底子,基于对人类语言的理解,对人类知识和世界模型的了解,再叠加很多其他的技术,或可以创造各个领域的超级工具,比如生物医学、蛋白质和基因研究,包括物理、化学、数学的学科研究上,大模型都会发挥作用。这次Sora对物理世界的模拟,可能也将会对机器人具身智能和自动驾驶带来比较大的影响。
但目前AI生成视频的水平还有待提升,而且由于Sora基本处于闭源状态,技术细节并未公布,相比于GPT有较多开源模型而言,国内视频生成模型方面尚有一定差距。
Sora可能带来的投资机会?
我们着重梳理Sora在实现技术突破之后,对产业链不同环节可能带来的变化和机会。
第一个层面可能是新技术方案被验证带来的机会:
(1)算力需求增加。Sora不仅仅是生成视频的技术进步,而是AI技术从理解人类的文字知识转变为理解人类的视频图像知识。这一转变意味着AI将需要处理和理解更大量的信息。因此,无论是从信息的输入还是输出来看,都需要比较巨大的算力支持。原本预测的算力需求可能是现有水平的3到5倍,但考虑到以视频为输入和输出的模型,如Sora这样的技术,实际所需的算力可能会更加巨大。因此,自主可控的AI算力基础设施是比较重要的投资方向,包括AI芯片、光模块及光芯片、交换机、路由器和AI服务器等。
(2)数据需求增加。Sora统一了图像与视频的数据表示方式,并通过超大量数据集来扩大模型规模,提高模型表现,而训练大模型需要大量的文本、图片和视频数据,因此掌握数据资源的企业或将获得数据要素资产价值重估,同时在训练大模型中占得先机。
(3)3D等多模态领域可能也会加速。相比过去的视频生成模型,Sora开始表现出对物理世界的理解和互动能力,人物或者物体在视频中不会轻易变形,而是可以保持比较好的一致性,OpenAI也表示未将Sora单纯视作视频模型,而是将其作为“世界模拟器”,扩展视频生成模型可能是构建物理世界通用模拟器的一条很有前途的途径。原来AI 3D模型在生成效率及精度上没有找到很好的平衡点,这一波视频领域的技术突破可能会给3D领域带来一些启发,AI 3D引擎的技术拐点可能会比市场原来预期的更快。
第二个层面可能来自视频生成技术突破后,带来应用落地的机会:
1)视频生成技术在多个领域的商用可行性大幅提高。对比之前的模型,Sora语义理解能力、一致性和灵活性明显增强,意味着视频生成技术的商用可行性大幅提高。从未来应用场景来看,Sora有望作为生产力工具,率先应用于研发周期短、项目节奏快的内容领域,如小游戏、短剧行业等。此外,中国具备完备的数字经济基础设施,庞大的内需市场和人口规模成为AI应用快速发展的重要基础,对于视频生成、游戏制作、AI+医疗,AI+教育,AI+交通等下游应用行业可能会有比较多的发展机会。
2)创意落地的成本大幅缩减。对于影视娱乐行业,广告行业,甚至是游戏行业,Sora会带来明显的降本增效逻辑。1、Sora+影视:预计能比较明显降低制作门槛及成本,且可以极大程度丰富影视作品的创造性及风格。Sora 的出现或将重塑影视行业,预计拥有核心导演或创意人才,及IP资源的公司或更受益;2、Sora+广告营销:预计 Sora 将提升广告相关视频的创造效率,提供灵感,增强广告吸引力,有望部分替代低创造性、可复制的视频内容,同时也能较低成本定制化需求,大批量快速生成定制化的视频内容,提升客户转化及留存率;3、Sora+游戏:游戏也是虚拟世界的一种体现,Sora 对于物理世界的理解和模拟可以与游戏场景开发高度适配, Sora 或可以帮助创立角色及背景故事,降低开发成本。
3)视频内容增加,对视频数据传输、视频编解码、视频内容审核等环节的需求可能也会增加。
Sora可能面临的投资风险?
Sora所代表的人工智能是一个专业化程度非常高且面临比较多复杂变化的前沿科技领域,投资相应的板块可能会面临以下的风险,我们需要引起足够的重视:
1)如果北美经济衰退预期逐步增强,宏观环境可能会存在较大的不确定性,国际环境变化可能会影响供应链及海外拓展;
2)如果芯片紧缺,可能会影响相关公司的正常生产和交付,公司出货不及预期;
3)信息化和数字化方面的需求和资本开支或不及预期;
4)如果市场竞争加剧,可能会导致毛利率快速下滑;
5)如果主要原材料价格上涨,或导致毛利率不及预期;
6)汇率波动或影响外向型企业的汇兑收益与毛利率;
7)如果大模型算法更新迭代效果不及预期,可能会影响大模型演进及拓展,进而会影响其商业化落地等;
8)汽车与工业智能化进展或不及预期
风险提示:基金有风险,投资须谨慎。引自证券公司等外部机构的观点或信息,我们并不对该等观点和信息的真实性、完整性和准确性做任何实质性的保证或承诺。上述观点、看法和思路根据当前市场情况判断做出,今后可能发生改变。基金过往业绩不代表其未来表现,基金管理人管理的其他基金的业绩并不构成本基金业绩表现的保证。投资者应认真阅读《基金合同》《招募说明书》《产品资料概要》等基金法律文件,全面认识基金产品的风险收益特征,在了解产品情况及听取销售机构适当性意见的基础上,根据自身的风险承受能力、投资期限和投资目标,对基金投资做出独立决策,选择合适的基金产品。