九三读书网

手机浏览器扫描二维码访问

本站广告仅展示一次,尽可能不去影响用户体验,为了生存请广大读者理解

一文读懂昆仑万维skyreels v2视频生成大模型(第2页)

以前的视频生成模型在运动质量方面表现都不太好,生成的视频里人物或者物体的运动总是怪怪的,看起来很不真实。Skyreels V2为了解决这个问题,采用了一种运动质量偏好优化技术。

它通过强化学习训练框架,就像是给模型请了一个严格的体育教练,让它不断地学习和改进。同时,为了让模型学习到更真实、更合理的运动数据,团队还使用了人工标注和合成失真数据。比如说,他们会把一些运动不合理、动态扭曲的视频找出来,然后人工标注出问题所在,再用这些数据来训练模型,让它知道什么样的运动是好的,什么样的是不好的。

为了降低数据标注的成本,团队还设计了一个很巧妙的半自动数据收集管道。这个管道就像是一个高效的数据收集工厂,能够快速地生成偏好对比数据对。它主要通过三种方式来生成数据:I2V Distortion,就是基于图像到视频生成的失真数据;T2V Distortion,基于文本到视频生成的失真数据;还有人工标注修正,就是让专业人员对一些关键的运动序列进行标注。通过这些数据训练奖励模型并进行直接偏好优化,Skyreels V2在运动动态性、流畅性和物理合理性方面都表现得非常出色,生成的运动内容就像我们在现实生活中看到的一样自然流畅。在一些生成的动作视频中,人物的奔跑、跳跃等动作非常自然,和真实拍摄的几乎没有区别。

3. 扩散强迫(Diffusion-forcing)框架

Skyreels V2能实现长视频生成,最关键的技术就是它的扩散强迫框架。这个框架就像是一个神奇的魔法棒,让视频生成变得又快又好。

和传统的视频生成方法不同,Skyreels V2不是从零开始训练扩散强迫模型,而是通过微调预训练的扩散模型,把它转化为扩散强迫模型。这就好比你已经有了一个半成品的房子,你只需要在这个基础上进行一些装修和改造,就能让它变成你想要的样子,这样不仅节省了大量的时间和精力,还能提高生成效率。

为了实现长视频的高效生成,团队还采用了一种非递减噪声时间表。这个时间表就像是一个精密的时钟,它把连续帧的去噪时间表搜索空间从非常大的O(1e48)大幅降低到O(1e32)。这样一来,模型就能更快速、更准确地生成长视频内容,而且还能保证视频在时间上的连贯性和稳定性。它的工作原理是为每个帧分配独立的噪声水平,然后通过精心设计的噪声调度策略,确保视频序列在生成过程中不会出现错误累积的问题。比如说,它会在前一帧添加轻微的噪声,让生成过程更加稳定,就像在跑步的时候,每一步都迈得很稳,这样就能跑得更远、更久。在实际生成视频时,即使是生成几分钟的长视频,也不会出现画面卡顿、情节不连贯的情况。

(二)创新的训练策略

1. 丰富的数据来源

Skyreels V2之所以这么厉害,离不开它丰富的数据来源。就像一个人要想变得聪明,就得读很多书、学习很多知识一样,模型要想表现出色,也得有大量的数据来训练。

Skyreels V2的训练数据主要来自三个方面:通用数据集,这里面整合了很多高质量的开源资源,像Koala-36M、HumanVid,还有从互联网上爬取的其他视频资源,这些数据就像是一本本百科全书,涵盖了各种各样的场景和动作,为模型提供了广泛的基础视频素材;自收集媒体,这可是一个超级大的影视资源库,里面有280,000多部电影和800,000多集电视剧,覆盖了120多个国家,总时长超过620万小时,这些丰富的影视内容让模型学习到了各种电影风格和叙事结构;艺术资源库,这里面的视频都是从互联网上精选出来的高质量视频资产,它们的视觉质量都达到了专业标准,就像一个个艺术珍品,让模型能够生成高质量的视频内容。通过这些丰富的数据训练,Skyreels V2对各种场景和风格都有了深刻的理解,能够生成出更加多样化和高质量的视频。

2. 渐进式分辨率预训练与多阶段后训练优化

本小章还未完,请点击下一页继续阅读后面精彩内容!

Skyreels V2的训练过程就像是一场精心策划的马拉松比赛,分为好几个阶段,每个阶段都有不同的目标和任务。

首先是渐进式分辨率预训练,这就像是马拉松比赛的热身阶段。模型会从低分辨率的视频数据开始训练,逐渐提高分辨率,这样可以让模型更好地学习视频的基本特征和规律,就像运动员在热身的时候,先慢慢地活动身体,适应运动的节奏。从低分辨率开始训练,模型可以先掌握视频的大致结构和基本元素,随着分辨率的提高,再逐渐学习到更精细的细节。

然后是四阶段的后训练增强:

- 初始概念平衡的监督微调(SFT):这个阶段就像是给模型打基础,通过概念平衡的数据集进行微调,让模型对各种概念有更准确的理解,为后续的优化提供一个良好的初始化。比如让模型对各种物体、场景、动作等概念有清晰的认知,这样在生成视频时才能更准确地表现出来。

- 运动特定的强化学习(RL)训练:这时候就像是给模型进行专项训练,针对运动质量进行优化,通过偏好优化提升运动动态质量,让模型生成的运动画面更加自然流畅。通过大量的运动数据训练,让模型学会不同动作的正确表现方式,避免出现运动不自然的情况。

热门小说推荐
谁是你哥们儿

谁是你哥们儿

CP:性格清冷却是一瞥眼让男生也会心动的校草受(许暮星)X占有欲强却不自知的混不吝攻(席亦城) 论长相,许暮星是学校公认的校草,被他清冷冷的眼神凝视就算是男生也会心跳加速,暗恋他的人可以从班级排到校门外,可他唯独喜欢席亦城。 席亦城生日这天,他决定表白:“我有话对你说。” 席亦城也很兴奋,吊儿郎当道:“我也有话说,我想追校花,你觉得怎么样?” 许暮星默默收起礼物:“你爱追谁追谁,关我屁事!” 那天后,许暮星开始独来独往。 席亦城极力修复关系:“你看,我买了两双限量版球鞋,咱们一人一双永远是好哥们!” 许暮星要去图书馆。 席亦城早早地帮他占座:“我对你这么好,一直把你当兄弟,你别不理我啊。” 许暮星觉得他无药可救,没有掰弯的希望。 他也想通了,好哥们就好哥们吧。 为转移注意力,他和新来的转校生一起吃午饭,一起温习功课,周末约了一起看电影。 等电影院出来,他才看到静音手机上的一百多通未接来电。席亦城找他找疯了,除了电话还有短信轰炸:【你内裤是我挑的,2B耳机是我送的,滑板是我给你买的,你他妈和别人看电影你对得起我吗?!你把我当什么了!】 许暮星:【哥们。】 席亦城:【谁是你哥们儿,狗屁的哥们,谁爱当谁当,老子不当了!】 阅读指南:1V1,暗恋和追妻火葬场的故事。...

《医界天骄》

《医界天骄》

《《医界天骄》》《医界天骄》目录全文阅读,主角是陈伟澈不过小说章节完整质量高,包含结局、番外。?《医界天骄》行道迟严正声明:本书为宝书网()的用户上传至其在本站的存储空间,本站只提供全集电子书存储服务以及免费下载服务,以下作品内容之版权与本站无任何关系。第1章保大人还是保孩子?“医生,你们一定要救救她,救救她,没有她,我也不活了!”清水市第一人民医院,急诊科,一名衣着光鲜,浑身名牌的年轻男子满脸泪水,...

末日须弥记

末日须弥记

末日须弥记情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的科幻小说小说,末日须弥记-青黛述怀-小说旗免费提供末日须弥记最新清爽干净的文字章节在线阅读和TXT下载。...

从破碎虚空开始

从破碎虚空开始

人在阳神世界,穿越诸天万界。张唯偶得一枚金色印记,开启修行之路。一切,从《破碎虚空》开始……书友群:345134886......

白莲洲

白莲洲

白莲洲情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的玄幻魔法小说,白莲洲-前山小骆驼-小说旗免费提供白莲洲最新清爽干净的文字章节在线阅读和TXT下载。...

今天也请好好装人

今天也请好好装人

桑昭是一只小橘猫。 他之前做了两次宠物猫,后来运气不好,突然修为大成化形做人,只好勤勤恳恳挨饿,努力用功装人。 人好难装啊。 拼音很难学,九键和二十六键都用不熟,打出来的全是错别字;算数很难学,想买一斤粘糕,不知道一斤是多少,被骗着买了三斤半,还少找他六毛钱。 他真的很想一直做猫,每天挠挠窗帘,抠抠地板,盯着窗外飞过的小鸟,等着人类下班夸他是全世界最可爱的小猫咪。 桑昭长长地叹了口气,夹着电脑包啃着三明治,回到了工位,笨拙地薅出鼠标。 他灵敏地听见人类在他背后说他是“关系户”。 掏出手机,熟练地点进百度,快速地打下一连串错别字。 【光系fu是审么】 - 为了提高公司声望,唐毓决定做点慈善。 他和官方签了协议,表示可以接受一些特殊人员来他的公司就业,俗称关系户。 可是……这也太特殊了吧? 进公司,看见员工用手走路用脚打伞。 坐电梯,撞上销售优雅抹去嘴边的血痕。 疑惑地开始上班,就见新来的助理脑壳上顶着笔记本电脑晃悠进来,一张嘴就开始学猫叫。 唐毓:……嚯。 癫点儿好啊!年轻人就是要癫点,呱唧呱唧! 后来,唐毓掐着自己的人中,发出响亮的尖叫。 “为什么都来我的公司里装人啊!!都装人了怎么不装得好点儿,桑昭不要爬壁纸了,从天花板顶上下来!” ①主攻,笨蛋猫咪x社畜总裁。 ②妖怪横行世界观,今天也请好好装人喔! ③重写了文案但还是小猫和霸总的故事,之前切入点不好写不出,现在换了切入点顺多了,小猫万岁!...