实验室1篇论文被ECCV接收

发布时间: 2024-07-03

近日,实验室在读博士生陶明作为第一作者的最新研究成果“StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion”被人工智能顶级会议ECCV 2024接收。论文通讯作者为实验室主任鲍秉坤。

故事可视化旨在根据故事情节生成一系列逼真且连贯的图像。当前模型通过将预训练的文本到图像模型转换为自回归方式,采用逐帧架构。尽管这些模型取得了显著进展,但仍然存在三个主要缺陷:(1)自回归方式的单向生成限制了许多场景中的应用性。(2)额外引入的故事历史编码器导致了极高的计算成本。(3)故事可视化和延续模型的独立训练与推断对用户不够友好。

为此,本文提出了一个双向、统一且高效的框架StoryImager。StoryImager增强了从预训练文本到图像模型继承的故事板生成能力,以实现双向生成。具体而言,引入了目标帧掩蔽策略,以扩展和统一不同的故事图像生成任务。此外,提出了框架故事交叉注意力模块,将交叉注意力分解为局部保真度和全局一致性。还设计了一个上下文特征提取器,用于从整个故事情节中提取上下文信息。定性和定量实验表明,所提出的方法在提升故事图像生成效果的同时,还进一步拓展了故事图像生成能力,使得该模型支持故事图像生成、故事图像续写、故事图像插帧、故事图像倒带等。

论文方法框图


(撰稿:陶明  审核:贾耕云)


联系我们

地址:江苏省南京市栖霞区仙林大学城文苑路9号(南京邮电大学仙林校区)计算机学科楼

电话:13813992640(贾老师)

邮箱:bingkunbao@njupt.edu.cn(鲍老师)