米博体育
【新闻事件】
据央视频消息,中国首部文生视频AI系列动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式将在今日举行。
【行业逻辑】
1、视频生成能力显著突破,向着AGI目标再进一步。东吴证券研报指出,相比行业原有视频生成模型gen2、pika等,Sora在语义理解能力、复杂场景理解能力、一致性以及生成视频时长等方面取得明显突破。1)模型层面,Sora是一种扩散模型,从一个看起来像静态噪音的视频开始生成视频,通过多个步骤去除噪音,逐渐转换视频。Sora可以一次性生成整个视频,也可以扩展生成的视频。与GPT模型类似,Sora也采用了transformer架构模型性能随着模型规模扩大而提高。新技术路径验证有望加速行业发展,算力需求有望增加。2)训练数据层面,Sora将视频和图像表示为更小的数据单元集合patch(类似于GPT中的token),通过统一数据表示方式,可在比以往更广泛的视觉数据上训练模型,包括不同的持续时间、分辨率和宽高比,最终生成的视频在这些维度也具有更高的灵活性OpenAI未将Sora单纯视作视频模型,而是将其作为“世界模拟器”,在物理世界模拟上已开始出现涌现效应,我们认为其亦有望为AI3D等其他多模态领域提供经验借鉴,多模态大模型有望加速发展。
专题:春季假期重要国际财经新闻回顾
人工智能在去年给人类带来巨大冲击,不少声音指出在创意等方面人类尚无法被其取代。这一想法再次遭到挑战。当地时间2月15日,人工智能巨头,ChatGPT母公司OpenAI宣布,正在研发“文生视频”模型Sora,可创建长达60秒的视频,其中包含高度详细的场景、复杂的摄像机运动以及充满活力的情感的多个角色,也可以根据静态图像制作动画。根据OpenAI官网,Sora不仅了解用户提出的要求,还了解这些东西在物理世界中的存在方式。
目前,Sora仍在开发中,正在接受安全测试,尚未向公众开放使用。OpenAI CEO奥特曼在社交平台上向公众征集他们想看到的视频,表示公司将制作并发布。
2月16日,北京大学人工智能专业博士@北大AI鱼博士 发微博,从技术角度解读了OpenAI最新发布的Sora:
OpenAI最新发布的Sora视频生成模型技术报告揭示了其背后的强大训练思路和详细的技术特性。Sora模型不仅展现了三维空间的连贯性、模拟数字世界的能力、长期连续性和物体持久性,还能与世界互动,如同真实存在。其训练过程获得了大语言模型的灵感,采用扩散型变换器模型,通过将视频转换为时空区块的方式,实现了在压缩的潜在空间上的训练和视频生成。这种独特的训练方法使得Sora能够创造出质量显著提升的视频内容,无需对素材进行裁切,直接为不同设备以其原生纵横比创造内容。Sora的推出,无疑为视频生成领域带来了革命性的进步,其技术细节值得每一位从业者细致研究。