大規模食品影像識別:T-PAMI 2023論文解讀

美團技術團隊發表於2023-02-24
美團基礎研發平臺視覺智慧部與中科院計算所展開科研課題合作,共同構建大規模資料集Food2K,並提出漸進式區域增強網路用於食品影像識別,相關研究成果已發表於T-PAMI 2023。本文主要介紹了資料集特點、方法設計、效能對比,以及基於該資料集的遷移實驗等方面的內容,並對Food2K未來的工作進行了展望。希望能為從事相關工作的同學帶來一些幫助或者啟發。

1 引言

視覺智慧部與中科院計算所於2020-2021年度展開了《細粒度菜品影像識別和檢索》科研課題合作,本文系雙方聯合在IEEE T-PAMI2023釋出論文《Large Scale Visual Food Recognition》 (Weiqing Min, Zhiling Wang, Yuxin Liu, Mengjiang Luo, Liping Kang, Xiaoming Wei, Xiaolin Wei, Shuqiang Jiang*) 的解讀。IEEE T-PAMI全稱為IEEE Transactions on Pattern Analysis and Machine Intelligence,是模式識別、計算機視覺及機器學習領域的國際頂級期刊,2022年公佈的影響因子為24.314。

食品計算[1]因能夠支撐許多食品相關的應用得到越來越廣泛的關注。食品影像識別作為食品計算的一項基本任務,在人們透過辨認食物進而滿足他們生活需求方面發揮著重要作用,如食品營養理解[2,3]和飲食管理[4]等。此外,食品影像識別是細粒度視覺識別的一個重要分支,具有重要的理論研究意義。

現有的工作主要是利用中小規模的影像資料集進行食品影像識別,如ETH Food-101[5]、Vireo Food-172[6]和ISIA Food- 500[7],但是它們的資料規模不足以支撐更復雜更先進的食品計算模型的建立。考慮到大規模資料集已成為許多常規影像分類和理解任務發展的關鍵推動因素,食品計算領域也迫切需要一個大規模的食品影像資料集來進一步支撐各種食品計算任務,如跨模態食譜檢索和生成[8,9]。因此我們構建了一個新的大規模基準資料集Food2K。該資料集包含1,036,564張食品影像和2,000類食品,涉及12個超類(如蔬菜、肉類、燒烤和油炸食品等)和26個子類別。與現有的資料集相比,Food2K在類別和影像數量均超過其一個數量級。除了規模之外,我們還進行了嚴格的資料清理、迭代標註和多項專業檢查,以保證其資料的質量。

在此基礎上,我們進一步提出了一個面向食品影像識別的深度漸進式區域增強網路。該網路主要由漸進式區域性特徵學習模組和區域特徵增強模組組成。前者透過改進的漸進式訓練方法學習多樣互補的區域性細粒度判別性特徵(如食材相關區域特徵),後者利用自注意力機制將多尺度的豐富上下文資訊融入到區域性特徵中,進一步增強特徵表示。本文在Food2K上進行的大量實驗證明了所提出方法的有效性,並且在Food2K上訓練的網路能夠改善各種食品計算視覺任務的效能,如食品影像識別、食品影像檢索、跨模態菜譜-食品影像檢索、食品檢測和分割等。我們期待 Food2K及在Food2K上的訓練模型能夠支撐研究者探索更多的食品計算新任務。本論文相關的資料集、程式碼和模型可從網站下載:http://123.57.42.89/FoodProject.html

2 Food2K資料集

Food2K同時包含西方菜和東方菜,在食品專家的幫助下,我們結合現有的食品分類方法建立了一個食品拓撲體系。Food2K包括12個超類(如“麵包”和“肉”),每個超類都有一些子類別(如“肉”中的“牛肉”和“豬肉”),每種食品類別包含許多菜餚(如“牛肉”中的“咖哩牛肉”和“小牛排”),如下圖2所示:

圖2 Food2K分類體系

下圖3展示了每個食品類別的影像數量,Food2K中每個類別的影像數量分佈在[153,1999]之間不等,呈現出明顯的長尾分佈現象,與類別不平衡性。

圖3 Food2K各類別影像數量分佈

下圖4展示了Food2K與現有食品影像識別資料集的影像數量對比,可以看到Food2K在類別和影像數量上都遠超過它們。

圖4 Food2K與其它食品識別資料集影像數量對比

除此之外,Food2K還具有以下特徵:

1)Food2K涵蓋了更多樣化的視覺外觀和模式。不同食材組合、不同配飾、不同排列等都會導致同一類別的視覺差異。舉例來說,新鮮水果沙拉因其不同的水果成分混合而呈現出不同的視覺外觀。這些食品的獨特特徵導致了更高的類內差異,使大規模的食品影像識別變得更加困難。

2)Food2K包含更細粒度的類別標註。以“Pizza”為例,一些經典的食品資料集,如Food-101,只有較粗粒度的披薩類。而Food2K中的披薩類則進一步分為更多的類別。不同披薩影像之間的細微視覺差異主要是由獨特的食材或同一食材的粒度不同引起的,這也導致了識別的困難。所有這些因素使Food2K成為一個新的更具挑戰性的大規模食品影像識別基準,可以視為食品計算領域的“ImageNet”。

3 方法

食品影像識別需要挖掘食品影像的本身特點,並同時考慮不同粒度的影像特徵進行識別。透過觀察我們發現,食品影像有著明顯的全域性特徵和區域性特徵。

首先,食品影像明顯有著全域性的外觀、形狀和其他結構方面的特徵,且該特徵存在較大的類內差異。如下圖5的“奶油核桃餅”明顯有著變化不一的形狀,炒麵有著豐富多樣的紋理。雖然當前已經有很多方法來解決這一問題,但大多數方法主要集中在提取某種型別的特徵,而忽略了其他型別的特徵。

圖5 食品影像的全域性特徵與區域性特徵

其次,食品影像中有細微差別的細節資訊,部分細節資訊是其關鍵的區域性特徵。在許多情況下,現有的神經網路無法很好地挖掘那些具有判別性的細節特徵。如圖5中第3欄所示,僅僅依靠全域性特徵是不足以區分“玉米羹”和“雞蛋羹”,必須進一步挖掘其食材資訊的不同(圖中黃色框內)。因此,如何更好地挖掘食品影像的全域性特徵和區域性特徵,對於提升食品影像特徵表達能力來說尤為重要。

第三,如下圖6所示,不同的食材在不同的食品類別中所佔的權重也是不一樣的。“香菜”在“香菜”拌牛肉中是一個關鍵性食材,必不可少,但是在“老醋海蜇”這道菜中僅僅是一個配料,並不總是出現在該類別的所有影像中。因此需要挖掘區域性特徵之間的關係,突出重點區域性特徵。進而提高食品識別的準確率。

圖6 不同食材在不同的食品影像中所佔比重不同

針對上述這些特點,本文設計了深度漸進式區域特徵增強網路,它可以共同學習多樣化且互補的區域性和全域性特徵。該網路結構如下圖7所示,該網路主要由三部分組成:全域性特徵學習模組、漸進式區域性特徵學習模組和區域特徵增強模組。

圖7 深度漸進式區域增強網路框架圖

其中,漸進式區域性特徵學習主要採用漸進式訓練策略來學習互補的多尺度細粒度的區域性特徵,例如不同的食材相關資訊。區域特徵增強使用自注意力機模組,將更豐富的多尺度上下文資訊合併到區域性特中,以增強區域性特徵表示。然後,我們透過特徵融合層將增強的區域性特徵和來自全域性特徵學習模組的全域性特徵融合到統一的特徵中。

此外,在模型訓練時,本文逐步漸進式地訓練網路的不同階段,最後將訓練整個網路,並在此過程中引入$KL$散度以增加各個階段之間的差異性,以捕獲更豐富多樣化的區域性資訊。在推理階段,考慮到每個階段的輸出特徵和融合後的特徵之間的互補性,我們將它們的預測結果結合起來得到最終分類得分。接下來,本文將詳細介紹各個模組的計算原理。

全域性-區域性特徵學習

食品識別可以看作是一個層次化的任務,在不同超類下的食品影像有著明顯可分的視覺差異,因此可以基於他們的全域性特徵進行識別。

但是在同一超類下,不同子類的食品影像之間的差異卻非常小。因此食品識別需要同時學習食品影像的全域性特徵和區域性特徵。因此,我們提取並融合了這兩個特徵,此過程可以使用兩個子網路分別提取食品影像的全域性和區域性特徵。這兩個子網路可以是兩個獨立的網路,但是這部分工作為了提高效率並減小模型引數,本文中兩個子網路共享基礎網路的大部分層。

全域性特徵學習

漸進式區域性特徵學習

區域性特徵子網路旨在學習食品的區分性細粒度特徵。由於食材和烹飪風格的多樣性,食品影像的關鍵判別部分是多尺度和不規則的。作為本方法第一個創新點,我們提出了漸進式訓練策略來解決這個問題。在這種策略中,我們首先訓練具有較小感受野的網路較低階段(可以理解為模型中較低的層),然後逐步擴大該區域性區域範圍,並引入新的層加入訓練。

這種訓練策略將迫使我們的模型提取更精細的判別性區域性特徵,例如與食材相關的特徵。在此過程之後,我們從不同層提取特徵以獲得多尺度的特徵表示。

因此,該策略可以首先在網路較淺的層中學習更穩定的細粒度資訊,然後隨著訓練的進行逐漸將注意力轉移到在較深的層中學習粗粒度資訊。具體來說,當具有不同粒度的特徵被送入網路時,它可以提取出有判別性的區域性細粒度特徵,例如食材成分資訊。然而,簡單地使用漸進式訓練策略不會得到多樣化的細粒度特徵,因為透過漸進式訓練學習到的多尺度特徵資訊可能集中在食品影像中相似的區域。

而作為本方法第二個創新點,我們引入KL散度對來自不同階段的特徵進行離散化,以增加它們之間的差異性。我們透過最大化不同階段特徵之間的KL散度值,可以迫使網路模型在不同階段關注不同區域的多尺度特徵,這有助於網路捕獲儘可能多的細節資訊。

區域特徵增強

不同於一般的細粒度任務中的識別物件,食品影像沒有固定的語義資訊。現有的大部分食品識別方法直接挖掘這些判別性區域性特徵,忽略了區域性特徵之間的關係。因此,我們採用自注意力機制來學習不同區域性特徵之間的關係。該策略旨在捕獲特徵圖中同時出現的食品特徵。

訓練和預測

在網路最佳化過程中,我們迭代更新網路的引數。首先,我們利用各$U$個階段的交叉熵損失,來反向傳播以更新相應網路的引數。在此過程中,當前階段的所有網路引數都將被最佳化,即使它們在之前的階段已經被更新過。然後在特徵融合階段,我們利用另一個交叉熵損失函式來更新整個網路的引數。

此外,我們的網路以端到端的方式進行訓練。在漸進式訓練過程中,對於每個階段的輸出,我們採用以下交叉熵損失:

4 實驗

首先,我們在Food2K上對現有的食品識別方法和我們提出的方法進行了比較。然後,我們研究Food2K在食品識別、食品影像檢索、跨模態菜譜-食品影像檢索、食品檢測和食品分割五個食品計算任務上的泛化能力。

方法驗證與分析

本文使用在ImageNet上預訓練的ResNet[10]作為基礎網路。對於實驗效能評估,使用Top-1準確率(Top-1)和Top-5準確率(Top-5)對食品類別識別進行評估。

在Food2K上的效能實驗

表1展示了在Food2K上現有的食品識別方法和所提方法的效能比較。從表中可以看出,我們的方法在Top-1和Top-5準確率上分別高出主幹網路(ResNet)2.24%和1.4%,以ResNet101為主幹的網路超過了現有的食品識別方法,取得了較好的識別效能。同時,這也證實了結合漸進式訓練策略和自注意力來增強區域性特徵表示的優勢。

表1 現有方法在Food2K上效能對比

在Food2K上的消融實驗

本文在消融實驗中主要探討了以下幾個問題:

(1)網路不同元件的有效性:從下圖8(a)中可以看出,漸進式策略(PL)的引入能夠帶來識別效能增益,且與區域特徵增強(RE)相結合後進一步提高了效能。這說明我們提出的PL+RE的學習策略能夠有效地學到更具判別性的區域性特徵。

(2)漸進式學習階段的數量U:從下圖8(b)中可以看出,當U從1到3時,我們的方法在Food2K上分別取得了81.45%、82.11%和83.03%的Top-1分類準確率。模型的分類效能連續提高了0.66%和0.92%。然而,當U = 4時,精度開始下降,可能的原因是淺層網路主要關注類別無關的特徵。

(3)不同學習階段的效果:為了更好地驗證每個學習階段和最終的連線階段的貢獻,我們還透過分別使用每個階段的預測分數來進行評估。從下圖8(c)中可以看出,相比於使用單一階段進行預測,聯合每個階段的得分進行預測能夠帶來效能提升。此外,我們的方法將每個階段的預測分數和聯合特徵的預測分數進行組合,能夠實現最佳的識別效能。

(4)平衡引數$α$和$β$:我們還研究了公式$L= αLcon + βL_{KL}$中平衡引數對效能的影響。我們發現,當$α=0,β=1$時,即總損失僅包括$KL$散度時,此時模型無法收斂。當$α=1,β=0$時,即僅使用交叉熵損失進行最佳化,模型的效能明顯下降。當$α=0.8,β=0.2$時,模型取得了最佳的識別效能,這說明聯合漸進式訓練和KL散度的策略能夠提高多樣化區域性細節特徵的學習能力。

圖8 我們方法在Food2K上的消融實驗

視覺化

我們使用Grad-CAM來進行視覺化分析。如下圖9所示,以“Wasabi Octopus”為例,基線方法僅能獲得有限的資訊,不同的特徵圖傾向於關注相似的區域。相比之下,我們的方法在第一階段更關注“Vegetable Leaf”,而第二階段主要關注“Octopus”。而在第三階段,我們的方法可以捕獲該食品的總體特徵,所以全域性和區域性特徵都能被用於識別。

圖9 來自Food2K一些樣本的視覺化結果

基於Food2k的泛化實驗

食品影像識別

我們評估了在Food2K上預訓練過的模型在ETH Food-101、Vireo Food-172和ISIA Food-500上的泛化能力。從表2中我們可以看出,使用Food2K進行預訓練後所有方法都取得了一定程度的效能提升,這說明我們的資料集在食品影像識別任務上具有良好的泛化能力。

表2 基於Food2K微調的模型在食品影像識別任務上的效能

食品檢測

我們評估了Food2K資料集對食品檢測任務的泛化能力,評估任務為檢測食品托盤中的食品。為了進行比較,我們還對在ETH Food-101上進行預訓練的模型進行了評估。從表3中可以看出,使用Food-101和Food2K能夠提升所有方法的mAP和AP75指標,且Food2K所帶來的效能增益要超過Food-101。這說明我們的方法在食品檢測任務上表現出良好的泛化效能。

表3 基於Food2K和ETH Food-101微調的模型在食品檢測任務上的效能比較

食品分割

我們還評估了Food2K在食品分割任務上的效能。從表4中可以看出,對於所有使用Food2K進行預訓練的模型均能帶來效能的提升。這也證明了我們的資料集在分割任務上具有良好的泛化表現。

表4 基於Food2K和ETH Food-101微調的模型在食品分割任務上的效能比較

食品影像檢索

我們進一步在食品影像檢索任務上驗證Food-2K的泛化能力。具體來說,我們在ETH Food-101、Vireo Food-172和ISIA Food-500資料集上實驗,並使用與前文相同的資料集劃分方式。測試集的每張圖片依次作為查詢項,其餘的圖片作為檢索庫。我們分別使用交叉熵損失函式和以Contrastive loss和Triplet loss為代表的度量學習損失函式來微調ResNet101網路,並使用mAP和Recall@1指標評估方法的效能。

表5的結果展示了在Food-2K資料集上預訓練後微調的網路取得了不同程度的效能增益。具體來說,在Vireo Food-172資料集上取得了最優效能,並在三個資料集上分別取得了4.04%, 5.28% 和4.16%的效能增益。值得注意的是,當使用額外的ETH Food-101資料集預訓練,以及在度量學習損失函式方法上微調的方法並沒有取得效能增益,但使用Food2K資料集預訓練仍然取得了效能增益,這是因為食品影像檢索任務對目標資料集之間的差異較為敏感(ETH Food-101和Vireo Food-172),並間接表明來自Food2K的影像類別和尺度的多樣性提升了食品影像檢索任務的泛化性。

表5 基於Food2K和ETH Food-101微調的模型在食品影像檢索任務上的效能比較

跨模態菜譜-食品影像檢索

我們還在跨模態菜譜-食品影像檢索任務上進一步驗證Food2K的泛化能力。具體來說,我們在Recipe1M[11]資料集上驗證方法的效能,並使用與之相同的資料集劃分方法。與此同時,我們使用MedR和Recall@K指標來評估。表6展示了我們使用不同的網路主幹,並分別透過ImageNet、ETH Food-101和Food2K資料集預訓練的結果。結果發現使用ETH Food-101和Food2K資料集預訓練後在目標資料集上微調都取得了效能的增益,使用我們的Food-2K資料集取得了更大的效能增益。

表6 基於Food2K和ETH Food-101微調的模型在跨模態菜譜-食品影像檢索任務上的效能比較

5 未來工作

本文全面的實驗證明了Food2K對於各種視覺和多模態任務具有較好的泛化能力。基於Food2K的一些潛在研究問題和方向如下。

(1)大規模魯棒的食品影像識別:儘管一些細粒度識別方法(如PMG[12,22])在常規細粒度識別資料集中獲得了最佳效能,但它們在Food2K上表現欠佳。雖然也有一些食品影像識別方法(如PAR-Net[13])在中小規模食品資料集上取得了較好的效能,但它們在Food2K大規模食品影像識別資料集上也並不能獲得更好的效能。

我們推測,隨著食品資料的多樣性和規模的增加,不同食材、配飾和排列等因素產生了更復雜的視覺模式,以前的方法不再適用。因此,基於Food2K有更多的方法值得進一步探究。例如Transformers[14,23]在細粒度影像識別方面產生了巨大的影響,其在大規模資料集上的效能高於CNNs。Food2K可以提供足夠的訓練資料來開發基於Transformers的食品影像識別方法來提高效能。

(2)食品影像識別的人類視覺評價:與人類視覺對一般物體識別的研究相比,對食品影像識別進行評價可能更加困難。例如,食品具有較強的地域和文化特徵,因此來自不同地區的人對食品影像識別會有不同的偏見。最近的一項研究[15]給出了人類視覺系統和CNN在食品影像識別任務中的比較。為了避免資訊負擔過重,需要學習的菜餚數量被限制在16種不同型別的食物中。更有趣的問題,值得進一步的探索。

(3)跨模態遷移學習的食品影像識別:我們已經驗證了Food2K在各種視覺和多模態任務中的推廣。未來我們可以從更多的方面來研究遷移學習。例如,食物有獨特的地理和文化屬性,可以進行跨菜系的遷移學習。這意味著我們可以使用來自東方菜系的訓練模型對西方菜系進行效能分析,反之亦然。經過更細粒度的場景標註,如區域級甚至餐廳級標註,我們可以進行跨場景遷移學習來進行食品影像識別。此外,我們還可以研究跨超類別遷移學習的食品影像識別。例如,我們可以使用來自海鮮超類的訓練模型來對肉類超類進行效能分析。這些有趣的問題也都值得深入探索。

(4)大規模小樣本食品影像識別:最近,有一些基於中小型食品類別的小樣本食品影像識別方法[16,17]研究。LS-FSFR[18]是一項更現實的任務,它旨在識別數百種新的類別而不忘記以前的類別,且這些數百種新的食品類別的樣本數很少。Food2K提供了大規模的食品資料集測試基準來支援這項任務。

(5)更多基於Food2K的應用:本文驗證了Food2K在食品影像識別、食品影像檢索、跨模態菜譜-食品影像檢索、食品檢測和分割等各種任務中具有更好的泛化能力。Food2K還可以支援更多新穎的應用。食品影像生成是一種新穎而有趣的應用,它可以透過生成對抗網路(GANs)[19]合成與現實場景相似的新的食品影像。例如,Zhu等人[20]可以從給定的食材和指令中生成高度真實和語義一致的影像。不同的GANs,如輕量級的GAN [21],也可以用於生成基於Food2K的食物影像。

(6) 面向更多工的Food2K擴充套件:基於訓練的Food2K模型可以應用於更多與食物計算任務中。另外,考慮到一些工作[6]已經表明食材可以提高識別效能,我們計劃擴充套件Food2K來提供更豐富的屬性標註以支援不同語義級別的食品影像識別。我們還可以在Food2K上進行區域級和畫素級標註使其應用範圍更廣。我們還可以開展一些新的任務,如透過在Food2K上標註美學屬性資訊,對食品影像進行美學評估。

6 總結及展望

在本文中,我們提出了具有更多資料量、更大類別覆蓋率和更高多樣性的Food2K,它可以作為一個新的大規模食品影像識別基準。Food2K適用於各種視覺和多模態任務,包括食品影像識別、食品影像檢索、檢測、分割和跨模態菜譜-食品影像檢索。

在此基礎上,我們進一步提出了一個面向食品影像識別的深度漸進式區域增強網路。該網路主要由漸進式區域性特徵學習模組和區域特徵增強模組組成。漸進式區域性特徵學習模組透過改進的漸進式訓練方法學習多樣互補的區域性細粒度判別性特徵,區域特徵增強模組利用自注意力機制將多尺度的豐富上下文資訊融入到區域性特徵中以進一步增強特徵表示。在Food2K上進行的大量實驗證明了該方法的有效性。

美團本身有著豐富的食品資料及業務應用場景,如何利用多元化資料進行食品影像細粒度分析理解,解決業務痛點問題是我們持續關注的方向。目前,美團視覺智慧部持續深耕於食品細粒度識別技術,併成功將相關技術應用於按搜出圖、點評智慧推薦、掃一掃發現美食等不同的業務場景中,不僅提升了使用者體驗,還降低了運營成本。

在技術沉澱層面,我們圍繞此食品計算技術不斷推陳出新,目前申請專利20項,發表CCF-A類會議或期刊論文4篇(如AAAI、TIP、ACM MM等);我們還參加了2019年和2022年CVPR FGVC細粒度識別比賽,並取得了一冠一亞的成績;同時在ICCV 2021上也成功舉辦了以LargeFineFoodAI為主題的視覺研討會,為推動食品計算領域的發展貢獻了一份綿薄之力。

未來,我們計劃進一步圍繞這條主線,探索多模態資訊融入、多工學習等技術路線,不斷沉澱經驗教訓,並將相關技術推廣到更多、更遠、更有價值的生活服務場景中,從而更好地服務好社會。

7 參考文獻

  • [1] W. Min, S. Jiang, L. Liu, Y. Rui, and R. Jain, “A survey on food computing,” ACM CSUR, vol. 52, no. 5, pp. 1–36, 2019.
  • [2] A. Meyers, N. Johnston, V. Rathod, A. Korattikara, A. Gorban, N. Silberman, S. Guadarrama, G. Papandreou, J. Huang, and K. P. Murphy, “Im2Calories: towards an automated mobile vision food diary,” in ICCV, 2015, pp. 1233–1241.
  • [3] Q. Thames, A. Karpur, W. Norris, F. Xia, L. Panait, T. Weyand, and J. Sim, “Nutrition5k: Towards automatic nutritional understanding of generic food,” in CVPR, 2021, pp. 8903–8911.
  • [4] Y. Lu, T. Stathopoulou, M. F. Vasiloglou, S. Christodoulidis, Z. Stanga, and S. Mougiakakou, “An artificial intelligence-based system to assess nutrient intake for hospitalised patients,” IEEE TMM, pp. 1–1, 2020.
  • [5] L. Bossard, M. Guillaumin, and L. Van Gool, “Food-101–mining discriminative components with random forests,” in ECCV, 2014, pp. 446–461.
  • [6] J. Chen and C.-W. Ngo, “Deep-based ingredient recognition for cooking recipe retrieval,” in ACM MM, 2016, pp. 32–41.
  • [7] W. Min, L. Liu, Z. Wang, Z. Luo, X. Wei, and X. Wei, “ISIA Food- 500: A dataset for large-scale food recognition via stacked globallocal attention network,” in ACM MM, 2020, pp. 393–401.
  • [8] J. Mar´ın, A. Biswas, F. Ofli, N. Hynes, A. Salvador, Y. Aytar, I. Weber, and A. Torralba, “Recipe1M+: A dataset for learning cross-modal embeddings for cooking recipes and food images,” IEEE T-PAMI, vol. 43, no. 1, pp. 187–203, 2021.
  • [9] H. Wang, G. Lin, S. C. H. Hoi, and C. Miao, “Structure-aware generation network for recipe generation from images,” in ECCV, vol. 12372, 2020, pp. 359–374.
  • [10] K. He, X. Zhang, S. Ren, and J. Sun, “Deep residual learning for image recognition,” in CVPR, 2016, pp. 770–778.
  • [11] A. Salvador, N. Hynes, Y. Aytar, J. Marin, F. Ofli, I. Weber, and A. Torralba, “Learning cross-modal embeddings for cooking recipes and food images,” in CVPR, 2017, pp. 3020–3028.
  • [12] R. Du, D. Chang, A. K. Bhunia, J. Xie, Z. Ma, Y. Song, and J. Guo, “Fine-grained visual classification via progressive multigranularity training of jigsaw patches,” in ECCV, 2020, pp. 153– 168.
  • [13] J. Qiu, F. P.-W. Lo, Y. Sun, S. Wang, and B. Lo, “Mining discriminative food regions for accurate food recognition,” in BMVC, 2019.
  • [14] Dosovitskiy, Alexey, et al. "An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale." In ICLR, 2020.
  • [15] P. Furtado, M. Caldeira, and P. Martins, “Human visual system vs convolution neural networks in food recognition task: An empirical comparison,” in CVIU, 2020, pp. 102878.
  • [16] H. Zhao, K.-H. Yap, and A. Chichung Kot, “Fusion learning using semantics and graph convolutional network for visual food recognition,” in WACV, 2021, pp. 1711–1720.
  • [17] S. Jiang, W. Min, Y. Lyu, and L. Liu, “Few-shot food recognition via multi-view representation learning,” ACM TOMM, vol. 16, no. 3, pp. 87:1–87:20, 2020.
  • [18] A. Li, T. Luo, Z. Lu, T. Xiang, and L. Wang, “Large-scale few-shot learning: Knowledge transfer with class hierarchy,” in CVPR, 2019, pp. 7212–7220.
  • [19] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in NIPS, vol. 27, 2014.
  • [20] B. Zhu and C. Ngo, “CookGAN: Causality based text-to-image synthesis,” in CVPR, 2020, pp. 5518–5526.
  • [21] B. Liu, Y. Zhu, K. Song, and A. Elgammal, “Towards faster and stabilized gan training for high-fidelity few-shot image synthesis,” in ICLR, 2020.
  • [22] Zhu, H., Ke, W., Li, D., Liu, J., Tian, L., & Shan, Y. Dual cross-attention learning for fine-grained visual categorization and object re-identification. In CVPR 2-22(pp. 4692-4702).
  • [23] He, J., Chen, J. N., Liu, S., Kortylewski, A., Yang, C., Bai, Y., & Wang, C. . Transfg: A transformer architecture for fine-grained recognition. In AAAI 2022 (Vol. 36, No. 1, pp. 852-860).

8 本文作者

致嶺、麗萍、君實、曉明等,均來自美團基礎研發平臺/視覺智慧部。

閱讀更多

| 在美團公眾號選單欄對話方塊回覆【2022年貨】、【2021年貨】、【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章