【自然語言處理】--視覺問答（Visual Question Answering，VQA）從初始到應用

LHBlog發表於2018-07-19

原文網址 : https://www.cnblogs.com/LHWorldBlog/p/9333596.html

一、前述

視覺問答（Visual Question Answering，VQA），是一種涉及計算機視覺和自然語言處理的學習任務。這一任務的定義如下： A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。翻譯為中文：一個VQA系統以一張圖片和一個關於這張圖片形式自由、開放式的自然語言問題作為輸入，以生成一條自然語言答案作為輸出。簡單來說，VQA就是給定的圖片進行問答。

VQA系統需要將圖片和問題作為輸入，結合這兩部分資訊，產生一條人類語言作為輸出。針對一張特定的圖片，如果想要機器以自然語言來回答關於該圖片的某一個特定問題，我們需要讓機器對圖片的內容、問題的含義和意圖以及相關的常識有一定的理解。VQA涉及到多方面的AI技術（圖1）：細粒度識別（這位女士是白種人嗎？）、物體識別（圖中有幾個香蕉？）、行為識別（這位女士在哭嗎？）和對問題所包含文字的理解（NLP）。綜上所述，VQA是一項涉及了計算機視覺（CV）和自然語言處理（NLP）兩大領域的學習任務。它的主要目標就是讓計算機根據輸入的圖片和問題輸出一個符合自然語言規則且內容合理的答案。

二、具體步驟

2.1 第一步，生成答案

2.2 第二步，處理輸⼊源資料

2.2.1 處理輸⼊源資料：圖⽚

卷積CNN結合VGG-16模型

VGG-16的標準構造 (keras)

def VGG_16(weights_path=None):
model = Sequential()
model.add(ZeroPadding2D((1,1),input_shape=(3,224,224)))
model.add(Convolution2D(64, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(64, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(128, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(128, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(256, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(ZeroPadding2D((1,1)))
model.add(Convolution2D(512, 3, 3, activation='relu'))
model.add(MaxPooling2D((2,2), strides=(2,2)))
model.add(Flatten())
model.add(Dense(4096, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(4096, activation='relu'))
model.add(Dropout(0.5))
model.add(Dense(1000, activation='softmax'))
if weights_path:
model.load_weights(weights_path)
return model

2.2.2 處理輸⼊源資料：⽂字

2.3 第三步，選取VQA模型-MLP

2.3.1 選取VQA模型-MLP

2.3.2 選取VQA模型-LSTM

【自然語言處理篇】--聊天機器人從初始到應用
2018-07-08
自然語言處理機器人
視訊場景下的自然語言處理應用
2018-10-19
自然語言處理
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
讓機器“答問如流”：從視覺到語言|VALSE2018之四
2018-05-10
視覺
影片場景下的自然語言處理應用
2018-10-19
自然語言處理
2023nlp影片教程大全 NLP自然語言處理教程自然語言處理NLP從入門到專案實戰
2023-05-05
自然語言處理
論文閱讀：《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》
2022-03-31
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
nodejs在自然語言處理中的一些小應用
2019-02-19
NodeJS自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
自然語言處理之序列標註問題
2024-03-19
自然語言處理
NLP 與 NLU：從語言理解到語言處理
2019-05-31
論文閱讀：《Probabilistic Neural-symbolic Models for Interpretable Visual Question Answering》
2022-04-09
Symbol
NPL---自然語言處理單詞界定問題
2024-03-18
自然語言處理
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
自然語音處理（NLP）系列（五）——詳解智慧問答系統
2023-02-01
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
掌握BERT：從初學者到高階的自然語言處理（NLP）全面指南
2024-07-09
自然語言處理
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
A Survey of Natural Language Question Answering System
2018-08-04
自然語言處理NLP快速入門
2018-10-24
自然語言處理
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
人工智慧 (06) 自然語言處理
2019-12-19
人工智慧自然語言處理
自然語言處理與情緒智慧
2024-08-25
自然語言處理
Pytorch系列:（六）自然語言處理NLP
2021-05-21
PyTorch自然語言處理
自然語言處理(nlp)比計算機視覺(cv)發展緩慢，而且更難！
2018-11-05
自然語言處理計算機視覺
閱讀論文：《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》
2022-03-30
精通Python自然語言處理 2 ：統計語言建模
2018-05-28
Python自然語言處理
從Word Embedding到Bert模型——自然語言處理預訓練技術發展史
2018-12-10
模型自然語言處理
中國語文（自然語言處理）作業
2024-08-22
自然語言處理
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
自然語言處理NLP（6）——詞法分析
2019-02-26
自然語言處理詞法分析
自然語言處理怎麼最快入門？
2018-11-28
自然語言處理