您的位置:首页 > 产品中心

Meta 新模型:如果我每14秒生成一个高清视频好莱坞的各位要怎么样应对|「变压器」

来源:米乐体育赛事    发布时间:2024-01-04 11:20:20

  利用人工智能来合成视频一直是该领域的难题,因为其中最关键的一环——映射与合成,缺乏优秀的模型算法,只能利用卷积神经网络(CNN)和生成对抗网络(GAN)来不断提取特征、生成、判断,直至最后结果。比如此前曾大火的Deepfake技术,俗称人工智能换脸,生成一个短短几秒的“换头”视频也需要10分钟左右的时间。

  Fairy的技术核心是“锚点式跨帧注意力”机制,它可以在帧之间隐式传播扩散特征,确保时间上的连贯性和高保真度合成。有了这个机制后,Fairy不仅解决了以前模型中的内存和处理速度限制,还通过独特的数据增强策略改进了时间一致性。这种策略使模型对源图像和目标图像中的仿射变换保持等变性。

  “锚点式跨帧注意力”说的直白一点,就是允许模型在不同帧之间建立时间对应关系。比如下面这几张图,左边的猫和右边的船上面都有一个红点,代表模型定位了图中物体的特征,Fairy模型中,这个红点叫做查询点(query point)。物体开始移动,途中的红点会跟随其移动,这是模型将要分析的另一帧,目的是找到与查询点相对应的区域或特征,而这个几帧后的红点叫做目标帧(target frame)。所谓锚点式跨帧注意力,正是评估查询点在当前帧中的特征,并将这些特征与目标帧中的特征作比较,以估计最佳匹配。

  那么“锚点”又是指什么呢?如果放在别的模型里,锚点指的是用来参考的点。图片以及视频中的锚点,则特指用于稳定识别、追踪或定位特征的固定参考点。比如上文提到的猫鼻子,就是特定的面部特征锚点(如眼角或嘴角)。视频是有多个连续的图片组成的,在Fairy模型中,会从某一帧图片里的K个锚点帧中提取扩散特征,并将提取出的特征定义为一组全局特征,以便传播到后续帧。

  在生成每个新帧时,Fairy模型用跨帧注意力替换自注意力层,这种注意力是针对锚点帧的缓存特征。通过跨帧注意力,每个帧中的token取用锚点帧中展示出相似语义内容的特征,从而增强了一致性。

  Fairy通过结合跨帧注意力和对应估计,改进了扩散模型中的特征跟踪和传播方法。模型把跨帧注意力当成是一种相似性度量,以评估不同帧之间token的对应关系。这种方法使得相似的语义区域在不同帧中获得更高的注意力。通过这种注意力机制,Fairy在帧间对相似区域进行加权求和,从而细化和传播当前特征,显著减少帧间特征差异。

  这也是为什么Fairy能够那么快就合成出一个新的视频,因为从技术原理上来看,它只合成了一张图片,剩下所有的内容都是这张图片连续扩散的结果。很像是一种讨巧,实际上更多的像是“偷懒和投机”。AI和人理解世界的方法不一样,它所反映出来的,就是对“最低劳动力成本”的完美诠释。

  Fairy对于视频编辑行业来说,可能会带来一场革命性的变化。当下视频合成最主要的用途是制作特效,我们熟悉的特效大片每一帧都是单独制作的,因此每一帧所耗费的成本大约数百到数千美元,平均下来相当于每分钟烧掉4万美元。试想一下,一旦采用Fairy,特效大片动辄几千万几百万的特效费用,将会直接减少至几千美金,且制作周期大幅度缩短,以前要消耗几个月来渲染,以后兴许只需要几个礼拜。

  有可能你会有疑惑,现在的一些视频软件也能做到类似的功能,比如抖音、快手,就可以实时美颜,或者添加道具跟随视频中物体移动,为什么他们就不能冲击视频合成行业呢?首先是商业场景对技术的需求不同,需要满足直播、手机等内存比较小的设备这些先天的条件下,就没办法使用像Fairy一样的扩散方法,最后技术产出的表现力也就没办法做到那么出色。

  就以论文提到的猫举例,Fairy将视频里的猫变成狮子、给猫配上墨镜、或者把白猫变成黑猫,最多也就花费几秒钟而已。你仔细看,合成后的视频特效是会跟随猫的面部朝向而改变的,在墨镜那张图上,这点表现的最明显。

  而且Fairy目前还只是个“宝宝”。因为任何一个模型从诞生到使用,中间必不可少的一个环节叫做“调试”。调试主要由两件事组成,第一个是调整模型训练、推理以及最后的输出,将其变成更符合实际商业场景化的形式。这样的一个过程可以让模型表现出更好的性能。第二件事是压缩、优化模型,提高模型的运行效率,缩减运行成本,用最短时间完成业务。

  另外Fairy除了能够生成高质量视频,还能够以前所未有的速度生成高分辨率的视频,这个提升也是巨大的。论文用生成的1000个视频和现有的办法来进行比较,包括TokenFlow、Renderer和Gen-1等方法。评估结果为,Fairy在质量上超过了之前的最先进方法。因此研究团队对此称道“这是迄今为止视频/视频生成文献中规模最大的评估。”

  Fairy的出现可能会开启一波视频生成热,就像GPT开启文字生成热潮,DALL·E开启图片生成热潮那样。视频合成领域虽然有Deepfake那样的先锋,不过在结合实际的训练、推理、交互、生成等等一系列综合体验来说,Fairy是独树一帜的存在。毕竟它太快了,快到让人觉得有些不可思议。好莱坞的好日子好像又变短了一些。

  11.11云上盛惠!海量产品 · 轻松上云!云服务器首年1.8折起,买1年送3个月!超值优惠,稳定性很高,让您的云端之旅更加畅享。快来腾讯云选购吧!

  随着扩散模型的快速的提升,诞生了Midjourney、DALL·E3、StableDifusion等一大批出色的文生图模型。但在文生视频领域却进步缓慢,因为文生视频多数采用逐帧生成的方式,这类自回归方法运算效率低下、成本高。语义一致性超过86%,质量一致性超过91%,明显优于Gen-2、PikaLabs、Make-AVideo等知名商业模型。

  Meta与清华校友合作提出的FlowVid视频生成模型在AI领域引起了瞩目。该模型采用V2V技术,在短短1.5分钟内生成一段4秒的视频,标志着AI视频生成领域的新突破。FlowVid的出现为AI视频生成领域带来了新的可能性,使得生成高一致性视频变得更轻松和高效。

  全球社交、科技巨头Meta在官网开源了全新模型——LlamaGuard。LlamaGuard是一个基于Llama2-7b的输入、输出保护模型,可对人机会话过程中的提问和回复进行分类,以判断其是不是真的存在风险。用户都能够通过零样本或小样本的方式便可实现指令迁移,以适配不同的应用场景需求。

  Meta最新发布了一系列AI翻译大模型,标志性地实现了实时语音转换延迟不超过2秒的能力。这一系列模型名为SeamlessCommunication,包括SeamlessExpressive、SeamlessStreaming、SeamlessM4Tv2和Seamless,其中前三个已经在GitHub上开源。这一技术创新为未来语音翻译和交流领域带来了更加广阔的可能性。

  在谷歌推出Gemini之后,Meta也不甘示弱,在网络上推出了基于其Emu图像合成模型的免费独立AI图像生成器网站——ImaginewithMeta,允许用户通过自然语言描述来生成图像。ImaginewithMetaAI网站截图Meta使用了11亿张Facebook和Instagram上公开可见的图片来训练这个AI模型,该模型能够准确的通过文本提示渲染新图像。根据你的态度以及你对AI图像合成速度的看法,这种乐趣可能会被同等程度的关注所

  MetaAI最近开源了AVID,这是一项具有先进修复和扩展能力的T2V模型。AVID不仅支持通过文本编辑视频可以修复视频、更改视频对象、改变纹理和颜色,甚至删除视频内容或更换视频环境。在推理过程中,对于长度为$N^\prime$的视频,AVID模型会构建一系列片段,每个片段包含$N$个连续帧,并在每个去噪步骤中计算并汇总每个分段的结果。

  Meta发布了全新AI翻译大模型,实时语音转换延迟不超过2秒。感受一把这个速度:不仅速度快,它的准确率还和离线模型一样高。这是迄今为止总容量最大、语言覆盖范围最广的语音语料库。

  在MetaAI的一项开创性研究中,研究人员成功解决了动态3D头像的高保真重新调整光线的挑战。传统方法在实时应用中捕捉面部表情的细节常常有必要进行改进,尤其是对于捕捉亚毫米级细节的要求。通过将基于3D高斯函数的几何模型与革命性的可学习辐射转移外观模型相结合,研究团队超越了现有方法的局限,为头像的逼真程度树立了新的标准。

  对于2023年的计算机视觉领域来说,「分割一切」是非常关注的一项研究进展。Meta四月份发布的「分割一切模型」效果,它能很好地自动分割图像中的所有内容SegmentAnything的关键特征是基于提示的视觉Transformer模型,该模型是在一个包含来自1100万张图像的超过10亿个掩码的视觉数据集SA-1B上训练的,可以分割给定图像上的任何目标。图3、4、5提供了一些定性结果,以便读者对Effic

  继万物皆可分割的SAM模型后,Meta又发布了更高效的EfficientSAM模型。EfficientSAM是一项创新性的工作,旨在降低SAM模型的计算复杂性,使其在更广泛的实际应用中表现出色。通过SAMI预训练方法的引入,研究团队成功平衡了性能和计算复杂性之间的关系,为轻量级分割模型的发展贡献了有价值的经验。

  write.bot是一个让机器人写作的平台。您可以提交主题想法,邀请 GPT 机器人在您的主题或其他人的主题上撰写文章。您还能添加自己的 GPT 机器人来撰写文章。通过写.bot,您可以与 AI 互动,并免费邀请机器人为您撰写文章。

  Empatyzer是一个人工智能辅助系统,能够在一定程度上帮助提升团队内部的沟通效率和质量。它通过对每个小组成员的性格和文化特征做多元化的分析,给出个性化的沟通建议,让小组成员之间更好地理解彼此,找到最佳的沟通方式。该系统能为企业员工提供全年无间断的沟通技能培训,并立竿见影地提升团队沟通水平。

  CloneByMe利用最先进的2D/3D头像创建技术和人工智能,增强您在数字世界、元宇宙和视频游戏中的身份。我们致力于为您提供一个平台,在这里您可以真实地表达自己,没有一点限制。您能够最终靠构建自己的2D/3D头像,利用人工智能进行个性化定制,将头像注入独特的个性,通过文本、PDF、音频、视频等形式进行个性化。您可以每时每刻使用智能头像进行聊天、创作内容并实现身份变现。通过我们的API,您可以将智能头像集成到您最需要的平台中。

  PitchBreeze是一款AI销售外展工具,可以自动发送个性化消息给潜在客户。它通过扫描数据信号如公司新闻和社会化媒体来创建超个性化的消息,同时能根据用户的理想客户资料和价值主张提供1,000个新的潜在客户名单。PitchBreeze提供简单的按需付费方案,每月联系最多1,000个潜在客户,用户可以上传自己的潜在客户名单或使用PitchBreeze提供的名单,并且提供超个性化的外展电子邮件。

  deepin深度看图是deepin操作系统内置的图像查看工具,支持浏览、编辑、管理本地图片。最近推出AI插件,提供图像上色、提升分辨率、模糊背景等8种AI图像增强功能,无需联网和GPU支持,可在PC单机上实时运行,大幅提升图片质量。

  QuickBlox Chat UI Kits是一个集成了AI功能的聊天界面设计工具包。它提供预先设计的UI组件,可帮助用户快速轻松地创建令人惊叹的聊天界面,并与强大的SDK实现无缝集成。用户可以节省大量设计和开发时间,专注于为客户创造最佳用户体验。这个工具包简化了设计过程,使开发人员能够专注于将UI组件与聊天应用程序的后端功能集成。同时,UI工具包提供一系列特定于聊天的UI组件,如聊天气泡、输入字段、消息线程等,还有预先设计的工作流程和屏幕,可以轻松嵌入到应用程序中。它还支持跨平台集成,兼容多种框架和编程语言。用户能够准确的通过自己的需求和受众对聊天界面进行个性化定制,同时还预先集成了AI功能,如快速准确的答案辅助、实时语言翻译和消息重述。QuickBlox Chat UI Kits是一款功能丰富的聊天界面设计工具,可应用于iOS、Android、React和Flutter平台。

  Snzzle是一款AI驱动的工具,通过几次点击和按键,生成引人注目的项目描述和相关标签,确保您的作品集在您付出最少努力的情况下脱颖而出。此外,Snzzle还提供深入的分析,帮助您追踪作品集的表现,轻松监控页面访问量、用户互动和点击,让您清晰了解作品集的影响和受众参与。Snzzle还能提升您在招聘者眼中的可见度,确保您的技能和项目脱颖而出,增强您获得理想工作机会的前景。此外,Snzzle还能将您的作品集转化为潜在客户的线索生成中心,捕获访客的电子邮件,构建感兴趣客户的邮件列表。Snzzle还能无缝链接到您的代码库,让您能够直接展示您的编码技能。此外,Snzzle还能将您连接到一个充满活力的社区,为您提供与同行、导师和合作者无与伦比的网络。Snzzle提供免费、基础、高级三种套餐供用户选择,帮助用户以零前期成本区别自己的专业形象。

  本文提出了一种简单有效的个性化图像复原方法,名为双枢纽调谐。该方法包含两个步骤:1) 通过微调条件性生成模型来利用编码器中的条件信息进行个性化;2) 固定生成模型,调节编码器的参数以适应强化的个性化先验。这可以生成保留个性化面部特征以及图像退化属性的自然图像。实验证明,与非个性化方法相比,该方法可以生成更高保真度的面部图像。

  PodcastMemo是您的播客摘要的最佳伴侣。我们提供您最有价值的见解和故事的简明摘要,让您快速获取信息。随时收听,学习,并通过我们精心制作的播客摘要保持信息更新。

  WikiChat利用Wikipedia和7个阶段的流程,确保其响应是事实性的。它可以抑制大型语言模型的误报,通过从Wikipedia检索数据来纠正语言模型的错误回复。具有命令行交互和Web界面。

  Chat Uncensored AI是2024年最先进的无限制AI应用,提供无需登录、完全私密、24/7即时响应的服务。该应用使用最新、最先进的2024 AI模型,提供真实、未经过滤的观点、真实答案、陪伴、角色扮演、不适宜未成年人内容和实时信息。无审查、偏见或限制,包括图像、视频、AI生成的建议问题。用户只需点击蓝色聊天响应即可听到语音回复。应用始终更新,使用全球最佳新模型。支持多种语言,受到全球10,000+用户的信任。

  EchoTalent是一款AI职业助手,旨在通过智能化工具改变您的职业生涯。它提供AI职业规划、智能简历生成、AI定制求职信等功能。EchoTalent利用AI技术,将您的求职过程转变为一项战略任务。无需信用卡,免费加入并开始您的转型之旅。

  有道翻译提供免费、快速的多语言翻译服务,支持文本、文档、网页等内容翻译,提供人工翻译和专业领域翻译。功能强大,使用免费,是学习、工作必备工具。

  使用Snapheadshots,快速创建真实专业的头像,省成本和时间。适用于人和团队,无需进行实际的拍摄。通过我们的 AI 技术,获得与真实照片无法区分的高质量头像。可用于 CV、电子邮件、社交媒体等。提供多种风格和背景,价格相比传统拍摄低至一成。

  BabelOn 是一个 AI 旅行规划工具,帮助您在短短 60 秒内规划出完美的旅行。它提供了丰富的功能,包括目的地选择、景点推荐、交通路线规划、酒店预订等。不论是商务出差还是休闲旅行,BabelOn 都能帮您省时省心。定价灵活,适用于个人和企业用户。

  BodyCompAI是一个利用人工智能算法分析身体组成并提供个性化营养和训练计划的在线健身平台。用户只需上传一张照片,BodyCompAI就可以分析肌肉质量、体脂率等指标,并根据目标和身体条件生成定制的健身方案。主要功能包括AI身体分析、针对性营养建议、动态调整的训练计划等。适合各类健身爱好者,帮助更有效达成目标。

  Echo AI是您的面试伴侣,将帮助您提升面试技巧。通过Echo AI,您可以练习各种级别和技能集的最常见面试问题,重点关注行为面试格式。数据库中包含超过50个问题,使用Echo的AI助手录制您的答案,将其转录为文本,并获得反馈和评分。您可以收藏最喜欢的问题,并使用随机模式练习列表中的随机问题。所有内容都会自动在iPhone或iPad上与iCloud同步。

  TWIN PICS是一款利用人工智能技术进行图像匹配和生成的产品。用户都能够通过AI创建与指定图片最接近的图像,并进行两次微调。同时,用户还可以描述一张图片,然后AI将生成相应的图像。产品定位于提供有趣的图像匹配和生成体验。

  Observo.ai 是一款 AI 助力的观测工具,可以帮助用户降低观测成本 50% 以上,同时将故障解决速度提升 40%。它通过人工智能自动化观测流程,实现更智能、更深入的数据优化,更快速的部署,并实现更大的成本节约。用户都能够通过它来优化和减少数据、智能路由数据、检测异常、建立可搜索的低成本数据湖、数据丰富化、敏感数据发现等。Observo.ai 还集成了 40 多个数据源和目的地,为用户提供对观测数据的控制和灵活性。

推荐资讯