
为了解决该问题,本文提出了两种解决方案。首先,除了三模态视频,我们还利用了大规模的双模态数据,例如:带有文本描述的图像(V+L)、带有转写文本的语音(S+L)和视频描述(V+S)。这极大地扩展了模型输入数据的规模和多样性,同时涵盖了全部三种目标模式。其次,我们提出了一种融合架构,可以采用研究社区提出的最先进的单模态编码器的上下文输出,而非从头开始构建一个独立的模型。
本文提出了「i-Code」,其中 i 代表集成多模态学习。我们开发了一个有效的融合模块,该模块集成了单模态编码器的输出,进行跨模态理解,从而获得最终的预测结果。为了设计最佳的融合架构,我们试验了多种 Transformer 架构内的自注意机制的变体,包括交叉和合并不同模态的注意力得分的机制。
接着,我们使用各种自监督目标利用双模态和三模态数据对 i-Code 进行预训练。这些目标包括:(1)掩码单元建模。其中所有输入信号都被转换为离散的词例(Token),旨在预测各模态下的被遮蔽的单元的正确词例。(2)对比学习。给定两种输入模态,模型预测给定的信号是否来自训练数据中的同一个三元组(或数据对)。
我们在多个多模态对比基准上彻底评估了 i-Code。实验结果证明了所提出的多模态预训练框架的有效性。对 i-Code 进行微调,相较目前最先进,我们可以在 6 个多模态数据集和 GLUE NLP 基准测试中的算法获得 11% 的性能提升。