A Survey on Temporal Sentence Grounding in Videos

最新的survey可参考:The Elements of Temporal Sentence Grounding in Videos: A Survey and Future Directions

Introduction

Temporal sentence grounding in video(TSGV)任务, 给定一段文本和一段未剪辑的视频,定位到视频中与文本描述相关的目标片段, 一般是识别出目标片段在视频中的开始和结束位置.与 temporal action localization(TAGV)任务不同,TSGV更有灵活性和挑战性。因为它需要理解更复杂的自然语言语义和更复杂的动作类型(一般temporal action localization 会预先定义出动作类别),还需要进行不同模态之间的交互和理解(文本和视频)。具体任务理解可以参考下图:

Background

背景知识主要包含以下几块知识:

  • Preprocessor(预处理)
  • Feature Extractor(特征抽取)
  • Feature Encode and Feature Interactor(特征编码和特征交互)

特征抽取常用方案:基于三维卷积网络的预训练模型C3D或者I3D(Inflated 3D ConvNet); 基于二维卷积网络的预训练模型VGG或者ResNet

Method Overview

根据现有的方案,解决此类问题的范式可以大概分为以下几种:

## Two-stage method

Related Issues not found

Please contact @stephen-nju to initialize the comment