Iterative Answer Prediction with Pointer-Augmented Multimodal Transformers for TextVQA
1.AbstractVisualQuestionAnswering(VQA)任务,忽略一个重要的模态—图像中的文本,它承载着场景理解和推理的基本信息。例如,在图1中,标志上的深水警告人们现场存在危险,问题明确要求理解和推理图像中的文本,称为TextVQA任务。TextVQA任务,该任务要求阅读和理解图像中的文本来回答问题,现有的方法,对于TextVQA,它们主要基于两种模式之间的自定义pairwi