实验室1篇论文被ECCV接收

发布时间： 2024-07-03

近日，实验室在读博士生陶明作为第一作者的最新研究成果“StoryImager: A Unified and Efficient Framework for Coherent Story Visualization and Completion”被人工智能顶级会议ECCV 2024接收。论文通讯作者为实验室主任鲍秉坤。

故事可视化旨在根据故事情节生成一系列逼真且连贯的图像。当前模型通过将预训练的文本到图像模型转换为自回归方式，采用逐帧架构。尽管这些模型取得了显著进展，但仍然存在三个主要缺陷：（1）自回归方式的单向生成限制了许多场景中的应用性。（2）额外引入的故事历史编码器导致了极高的计算成本。（3）故事可视化和延续模型的独立训练与推断对用户不够友好。

为此，本文提出了一个双向、统一且高效的框架StoryImager。StoryImager增强了从预训练文本到图像模型继承的故事板生成能力，以实现双向生成。具体而言，引入了目标帧掩蔽策略，以扩展和统一不同的故事图像生成任务。此外，提出了框架故事交叉注意力模块，将交叉注意力分解为局部保真度和全局一致性。还设计了一个上下文特征提取器，用于从整个故事情节中提取上下文信息。定性和定量实验表明，所提出的方法在提升故事图像生成效果的同时，还进一步拓展了故事图像生成能力，使得该模型支持故事图像生成、故事图像续写、故事图像插帧、故事图像倒带等。

论文方法框图

（撰稿：陶明审核：贾耕云）

友情链接

联系我们

地址：江苏省南京市栖霞区仙林大学城文苑路9号（南京邮电大学仙林校区）计算机学科楼

电话：13813992640（贾老师）

邮箱：bingkunbao@njupt.edu.cn（鲍老师）

新闻动态

实验室1篇论文被ECCV接收