

这项由浙江大学、新南威尔士大学(UNSW)、Data61/CSIRO和百度扶助完成的琢磨,以预印本局面发布于2026年6月9日,论文编号为arXiv:2606.10671,题为《FadeMem: Distance-Aware Memory Consolidation for Autoregressive Video Diffusion》。感兴致的读者可通过该编号在arXiv平台查阅竣工论文。
要是你也曾用AI器具生成过一段视频,你能够会扎眼到一个令东谈主握狂的问题:视频开始出现的那只猫,没过几秒钟就偷偷变了个面貌,神志变了,耳朵形态变了,以致在某些片断里平直消释了。这不是AI在"阐述创意",而是一个深层的时候残障——AI在生成后续画面时,仍是"健忘"了最驱动画的那只猫长什么样。
这个问题在生成短视频时还拼集不错摄取,但当咱们想让AI生成一分钟乃至更长的视频时,这种"失忆症"就酿成了可怜性的隐患。这恰是浙大团队试图惩办的中枢问题,他们的惩办决策叫作念FadeMem,一个让AI领有"分层操心"的机制,而这套机制的灵感来源,正巧和东谈主类大脑处理操心的方式惊东谈主地相似。
一、为什么AI生成长视频时会"失忆"
要一语气这个问题,先来望望当代AI视频生成器是怎样责任的。面前最先进的视频生成AI并不是一语气把整段视频皆"想好"再输出,而是像讲故事一样一段一段地生成,每生成一小段新内容时,皆要回头望望之前仍是生成了什么,以此保持连贯性。这种方式叫作念"自追思生成",不错类比为一个东谈主在勇猛写演义——每位接棒的作家皆要先读一读前边的章节,能力保证故事不跑偏。
在时候层面,这种"回头看"的操作是通过一个叫作念KV缓存的机制杀青的。K代表Key(键),V代表Value(值),你不错把它一语气成一册储存当年画面"印象摘抄"的记事本。每生成一帧新画面,AI皆会往这本记事本里翻一翻,阐明主角的脸型、场景的颜色、通顺的标的,然后再画下一帧。
问题在于,跟着视频越来越长,这本记事本会变得越来越厚。存储和查阅的资本呈线性增长,很快就会超出狡计机的处聪慧商。这就像让一个东谈主在写第100章演义时,将就他把前99章全部倒背如流——任何东谈主皆会崩溃。
现存的惩办决策粗拙分为三类。第一类是"滑动窗口":只记着最近几帧,更远的全部丢弃,突出于那位接棒作家只读临了一页就驱动写;第二类是"保留开始":遥远保留最驱动几帧当作"锚点",退守主角举座跑偏;第三类是"压缩操心":把辽远的历史帧压缩成几个要道词式的摘抄情景,塞进缓存里。这些方法各有侧重,但皆存在一个根人性的局限:它们对操心的处理方式是固定的、机械的,不会凭据内容距离现时时刻的遐迩来生动诊疗操心的缜密进程。
二、东谈主类的渐忘弧线给了琢磨者一个要道启发
在入部属手假想惩办决策之前,浙大团队先作念了一件很有深嗜的事:他们系统分析了长视频中帧与帧之间的关系性是怎样随时期衰减的。
具体来说,他们把每一帧视频编码成一个抽象的数学示意,然后把这个示意理会成不同的"频率身分"。低频身分对应画面中大鸿沟的举座信息,比如场景的举座布局、主角的轮廓形态、画面的举座颜色;高频身分则对应细节信息,比如毛发的纹理、一稔上的褶皱、水面的眇小飘荡。
分析断绝清澈地揭示了一个设施:帧与帧之间的关系性会随时期距离增大而下跌,但下跌速率在不同频率身分之间存在显耀各别。高频细节衰减得极快,两帧之间只消隔了一段时期,细节上的关系性就仍是聊胜于无;而低频的举座结构衰减得很慢,即等于相隔很远的帧,在场景布局和主角身份这类大轮廓信息上,仍然保有突出进程的关系性。
更有深嗜的是,琢磨团队进一步分析了"相识频率半径"随时期距离的变化趋势——也就是说,在某个给定的时期距离下,哪些频率身分仍然保持相识关系。断绝发现,这个相识频率半径随时期距离增大而缩小,况兼缩小的方式粗拙衔命一个幂律关系,用公式示意就是r*(t) ∝ t^(-b),其中b是一个甩手衰延缓度的参数。
这个发现和东谈主类操心中着名的渐忘弧线一辞同轨。咱们对昨天发生的事情牢记很明晰,包括细节;对一年前某天发生的事情,细节仍是糊涂,但大事件的轮廓还在;对十年前的操心,大多只剩下要道节点和举座印象。不同的是,东谈主脑的渐忘是被迫发生的,而FadeMem要作念的是主动照拂这种分层渐忘——把有限的操心空间,按照"越近越细、越远越粗"的原则合理分派。
由此得出的假想形而上学突出直不雅:既然辽远的历史帧只需要保留粗粒度的结构信息,那咱们就没必要为它们保留竣工的缜密记载;而近处的历史帧对现时生成至关困难,需要保留尽可能丰富的细节。这个原则,就是FadeMem全部假想的起点。
三、FadeMem是怎样组织这本"操心账本"的
FadeMem的中枢想路不错用一个藏书楼的比方来一语气。假定一个藏书楼的书架空间是固定的(对应固定的缓存预算M),需要存放不休涌入的新书(对应每个时刻更生成的视频帧的KV数据)。对于刚入库的新书,照拂员给每本书单独分派一个书架格子,保留竣工内容;而对于入库已久的古书,照拂员会把内容足下的几本书合并成一册精华摘抄,腾出版架空间给新书。通盘书架上的内容,从右侧(最近入库)到左侧(最早入库)呈现出从"缜密"到"粗拙"的梯度变化。
在时候杀青上,FadeMem把缓存中的每一条操心称为一个"条款"。每个条款不仅存储了KV数据自己,还捎带两个轻量级的元数据:一个是这个条款所代表的时期位置(用μ示意),另一个是这个条款所有这个词掩盖了若干个生成单位(用s示意)。新插入的条款s=1,意味着它代表一个精准的历史时刻;经过合并的条款s会增大,意味着它是对一段历史区间的综合摘抄。
每当AI生成了新的一帧或一组帧,FadeMem领先把对应的KV数据当作新条款追加进来。此时要是条款总和进步了预设的上限M(论文默许使用12个历史条款),FadeMem就会触发一次合并操作,为下一轮生成腾出空间。
合并操作的采纳计谋是通盘机制的精髓地点:FadeMem不是马上合并,也不是简便地丢弃最旧的阿谁,而是通过一个幂律变换来揣测相邻条款之间的"感知距离",然后合并感知距离最小的那一双相邻条款。
具体来说,对于每个条款,先狡计它离现时生成时刻的践诺时期距离d,然后把这个距离作念一个幂律变换:u(d) = d^β,其中β是一个介于0到1之间的甩手参数。这个变换把时期轴"诬陷"了——在诬陷后的空间里,近处的条款之间显得间距很大(阻拦易被合并),辽远的条款之间显得间距很小(容易被合并)。算法采纳在诬陷后空间里间距最小的那对相邻条款进行合并,当然则然地就杀青了"优先合并辽远的历史、保留近处历史的缜密度"这一主意。
星空2026世界杯官方授权平台两个条款合并时,生成的新条款的时期位置μ_new取两者时期位置的跨度加权平均,新条款的KV数据也取两者KV数据的跨度加权平均。跨度s_new等于两者跨度之和,记载这个摘抄条款掩盖的历史长度。通盘合并经过是在线进行的,每一步生成只需作念一次合并操作,狡计资本极低。
此外,FadeMem还诞生了两个规模保护规则:最更生成的条款不会被立即合并,确保最极新的历史信息至少存活一个生成门径;最早生成的第一帧条款默许受到保护,当作"全局锚点"永恒留在缓存里,退守视频的举座身份和场景在漫长的生成经过中十足漂移。这两条文矩并不需要额外的机制,开云体育它们皆在团结个有序的操心结构里当然杀青。
对于使用旋转位置编码(RoPE)的模子,FadeMem还作念了特别处理:存储时先去掉KV数据中已编码的位置信息,使用时再凭据条款的代表时期位置从头编码。这么作念是因为要是把两个不同时代位置的KV数据平直平均,位置信息会彼此干与产生零星;解耦存储和位置编码则保证了合并后的条款在被模子使用时仍然具有正确的时序信息。
四、实验断绝:FadeMem果真让视频"记性更好"了吗
琢磨团队在Wan2.1-T2V-1.3B这个视频生成模子上杀青了FadeMem,并在LongLive自追思视频生成框架上进行评测。评测任务是生成60秒长度的视频,分辨率480×832,帧率16FPS,使用MovieGenBench基准测试结合的128个辅导词。评测绸缪采纳VBench-Long体系,涵盖主体一致性、布景一致性、通顺领略度、动态进程、好意思学质地和画质六个维度,并额外使用谷歌Gemini 3.1-Pro大模子进行视觉相识性的主不雅评分。
琢磨团队论说了两个变体。FadeMem-TF是纯推理时版块,不需要对模子作念任何额外西宾,平直替换原有的缓存照拂方式。FadeMem-FT则在FadeMem-TF的基础上进行了轻量级微调,让模子在西宾阶段就风俗了分层操心的走访模式。
在统统基线方法中,Self Forcing的举座平平分为78.64,LongLive为80.55,MemFlow为80.59,Deep Forcing为79.44,MemRoPE为80.39。FadeMem-TF在不进行任何额外西宾的情况下达到了80.45的平平分,在主体一致性(97.74)、布景一致性(96.43)和通顺领略度(98.93)三项绸缪上达到或比肩现时最优水平。加入轻量微调后,FadeMem-FT的平平分进一步提高至81.03,在主体一致性(97.77)、布景一致性(96.56)、画质(70.72)和总体平均四项绸缪上均居统统方法之首。
在Gemini 3.1-Pro的主不雅视觉相识性评分上,FadeMem相似以4.84的得分高于MemRoPE的4.80、MemFlow的4.77、LongLive的4.74和Deep Forcing的4.51,获取统统方法中的最高相识性分数。
定性对比的断绝也突出直不雅。琢磨团队使用了一个成心假想的挑战性辅导词:"沿途闪电击中湖中央的一只乌龟,把它坐窝酿成了一只鳄鱼。"这个辅导词的难度在于,主体的外不雅在视频早期就发生了一次根人性的变化,后续漫长的生成经过需要一直记着"当今它是鳄鱼,不是乌龟"这个已开荒的事实。
在LongLive和MemFlow生成的视频中,跟着视频参预40秒、50秒阶段,乌龟的特征驱动从头出当今主体身上,变身的后果逐步被"掩盖"。在Deep Forcing和MemRoPE生成的视频中,鳄鱼的举座身份得到看护,但细节逐步糊涂。FadeMem生成的版块则在通盘60秒内持续看护了变死后的鳄鱼身份,同期在水面反光、风暴场景的举座氛围等细节上也保持了更高的一致性和真正感。
五、细节决定成败:三个假想采纳的消融实验
为了考据FadeMem中每个假想采纳的价值,琢磨团队进行了系统性的消融实验,一一测试不同的幂律指数β、不同的合并算子以及是否保留第一帧全局锚点的后果。
对于幂律指数β,琢磨团队测试了从0.1到0.9五个取值。跟着β增大,动态进程和举座平平分有所提高,但主体一致性和布景一致性有所下跌。β=0.9时举座加权平均最高(80.65),但在定性不雅察中发现视觉轨迹的相识性和身份保留后果更差,阐述自动绸缪并未十足捕捉到视频质地的统统维度。琢磨团队综合考量后采纳β=0.3当作默许值,因为它在主体一致性和布景相识性上的进展最优,最相宜"生成长视频时保持身份和场景相识"的中枢主意。
对于合并算子,琢磨团队比拟了四种方式:采纳距离最近的单个条款(Select Nearest,即丢弃另一个)、简便等权平均(Average)、跨度加权平均(Weighted Average)以及逐元素最大值(Max Pooling)。Max Pooling的进展最差,动态进程仅有10.47,画质也严重下跌,阐述对KV数据作念逐元素取最大值会严重淘气信号结构。Select Nearest在主体一致性上略占优,但动态进程和画质彰着低于平均类方法,阐述平直丢弃一个历史条款会耗费灵验的历史信息。简便平均和加权平均进展接近,加权平均以隐微上风胜出,因此当作默许采纳。
对于第一帧全局锚点,去掉它之后,主体一致性(98.01)和布景一致性(96.74)以及通顺领略度(99.01)反而略有提高,但动态进程从39.09骤降至28.88。这阐述,莫得第一帧锚点时模子生成的视频在通顺上变得过于保守,动态变化减少——模子为了看护一致性,干脆减少了动态内容。保留第一帧锚点在提供全局参照的同期,也为模子提供了生成丰富通顺内容的"底气",两者之间获取了更好的均衡。
说到底,FadeMem作念的事情其实不错用一句话抽象:按照"越旧越抽象,越新越缜密"的原则,在固定大小的操心账本里,把有限的操心空间分派给最值得缜密操心的内容。这个想路既有严实的表面依据(视时常率关系性的幂律衰减),又有简陋的工程杀青(单一有序的合并机制),不需要为"近期操心"和"远期操心"分辩调治两套寂寞的系统,也不需要修改模子架构。
这对平凡用户而言意味着什么?当你用AI生成一分钟的视频,要求主角在开始作念出某个动作或外貌变化,并但愿这个变化在视频断绝仍然清澈可辨时,FadeMem这类机制让这件事在狡计资源固定的条件下变得愈加可靠。虽然,这项琢磨也坦诚地指出了自身的局限:FadeMem的操心分派计谋是预设固定的,对于包含已而场景切换或高速通顺的视频,固定的幂律分派可能并不是最优决策,畴昔不错探索内容自恰当的动态分派计谋。此外,FadeMem处理的是缓存的组织方式,无法弥补底层生成模子自己在语义一语气或物理知识上的先天不及。
归根结底,长视频生成的连贯性问题不仅仅"存若干历史"的问题,更是"怎样存历史"的问题。FadeMem给出的这个谜底——用衰减式的分辨率梯度照拂有限的操心空间——为这个标的提供了一个值得不绝久了探索的想路。有兴致久了琢磨这一课题的读者,不错通过arXiv编号2606.10671查阅竣工论文和时候细节。
Q&A
Q1:FadeMem和平凡滑动窗口缓存有什么实质区别?
A:平凡滑动窗口只保留最近几帧,更早的全部丢弃,突出于操心里只消昨天,前天以前一律抹去。FadeMem则是把辽远的历史"压缩"而非"删除",辽远的帧会被合并成粗拙的摘抄条款,仍然占据缓存里的一个席位,仅仅缜密进程裁汰了。这么AI既能记着最近帧的细节,也能保留很早之前开荒的主体身份和场景信息,两者皆不十足丢失。
Q2:FadeMem需要从头西宾视频生成模子吗?
A:不需要从头西宾也能使用。论文提供了两个版块,FadeMem-TF是纯推理时版块,平直替换原有的缓存照拂计谋,不作念任何模子西宾;FadeMem-FT则是在此基础上作念了轻量级微调,让模子更好地恰当分层操心的走访模式,后果略优于纯推理版块。对于已有的视频生成系统,只需替换缓存照拂模块即可使用,无需修改模子架构。
Q3:幂律指数β诞生若干比拟合适,平凡用户能我方调吗?
A:论文保举默许使用β=0.3开云体育,这个值在身份一致性和布景相识性上进展最佳,最恰当需要历久保持主体外不雅和场景连贯的垄断场景。β越大,对辽远历史的压缩越弱,动格调略有提高但相识性下跌;β越小,近处操心保留越密集,辽远历史被更激进地合并。要是生成的视频场景变化多、动作幅度大,不错恰当尝试更高的β值。

