Introduction
In the context of human–computer interaction, a modality is the classification of a single independent channel of sensory input/output between a computer and a human.
不同的模态其实可以看成不同的信息传递通道。常见的NLP任务或者是CV任务处理的大部分都是单模态的数据,要么是文本类型的数据,要么是图像类型的数据,通常都是单模态任务。当模型需要联合不同模态的数据时,就会涉及多模态学习的相关任务。多模态学习包含很多方面,通常有
- 多模态表征(Multimodal Representations)
- 多模态融合(Mutlimodal Fusion)
- 多模态对齐(Multimodal Alignment)
- 多模态预训练(Multimodal Pretrain)
Mutlimodal Representations
多模态表征通常是利用不同模态之间的数据特性,为多模态数据提供良好的表征方式.多模态表征是多模态学习的基础任务,包含了多模态学习的方方面面.
Multimodal Fusion
多模态融合是多模态研究中的关键一环,它通常是将来自不同模态的信息进行融合,用来进行下游任务的预测.