真正的类人智能要考虑来自各种信号和感觉器官的信息。智能系统应该是综合的,引入来自所有可用模式的信号。在许多实际的数据体系中,我们可以利用视觉(V)、语言(L)和语音/音频(S)模态的数据。目前,研究者们在建立理解单模态、双模太的模型方面取得了巨大的进展,然而将这些工作推广到能够同时解译视觉、语言、语音的三模态系统上仍然是一项艰巨的任务。
三模态训练需要大量的三模态数据(例如,带文字描述的视频),而此类数据的规模往往比可用的单模态或双模态数据小好几个数量级。例如,目前最大的带标注的视频数据集由 1.8 亿段视频组成,而最大的图像描述数据集则包含高达 9 亿个图文对。
为了解决该问题,本文提出了两种解决方案。首先,除了三模态视频,我们还利用了大规模的双模态数据,例如:带有文本描述的图像(V+L)、带有转写文本的语音(S+L)和视频描述(V+S)。这极大地扩展了模型输入数据的规模和多样性,同时涵盖了全部三种目标模式。其次,我们提出了一种融合架构,可以采用研究社区提出的最先进的单模态编码器的上下文输出,而非从头开始构建一个独立的模型。
本文提出了「i-Code」,其中 i 代表集成多模态学习。我们开发了一个有效的融合模块,该模块集成了单模态编码器的输出,进行跨模态理解,从而获得最终的预测结果。为了设计最佳的融合架构,我们试验了多种 Transformer 架构内的自注意机制的变体,包括交叉和合并不同模态的注意力得分的机制。
接着,我们使用各种自监督目标利用双模态和三模态数据对 i-Code 进行预训练。这些目标包括:(1)掩码单元建模。其中所有输入信号都被转换为离散的词例(Token),旨在预测各模态下的被遮蔽的单元的正确词例。(2)对比学习。给定两种输入模态,模型预测给定的信号是否来自训练数据中的同一个三元组(或数据对)。
我们在多个多模态对比基准上彻底评估了 i-Code。实验结果证明了所提出的多模态预训练框架的有效性。对 i-Code 进行微调,相较目前最先进,我们可以在 6 个多模态数据集和 GLUE NLP 基准测试中的算法获得 11% 的性能提升。
核心提示:真正的类人智能要考虑来自各种信号和感觉器官的信息。智能系统应该是综合的,引入来自所有可用模式的信号。在许多实际的数据体系