当前位置: 首页>编程笔记>正文

三星最新概念機,三星提出XFormer | 超越MobileViT、DeiT、MobileNet等模型

三星最新概念機,三星提出XFormer | 超越MobileViT、DeiT、MobileNet等模型

點擊上方“計算機視覺工坊”,選擇“星標”

干貨第一時間送達

2c0da4d77e50d4d4d432d793c8bd8bbe.jpeg

作者丨ChaucerG

來源丨集智書童?

e71b62af366488d784d11af0498a633d.png

ViT 的最新進展在視覺識別任務中取得了出色的表現。卷積神經網絡 (CNN) 利用空間歸納偏差來學習視覺表示,但這些網絡是空間局部的。ViTs 可以通過其self-attention機制學習全局表示,但它們通常是heavy-weight的,不適合移動設備。

在本文中提出了Cross Feature Attention(XFA) 以降低 Transformer 的計算成本,并結合高效的mobile CNNs形成一種新穎的高效輕量級 CNN-ViT 混合模型 XFormer,可作為通用主干學習全局和局部表示。

實驗結果表明,XFormer 在不同的任務和數據集上優于眾多基于 CNNViT 的模型。在 ImageNet-1K 數據集上,XFormer 使用 550 萬個參數實現了 78.5%top-1 準確率,在相似數量的參數下,比 EfficientNet-B0(基于 CNN)和 DeiT(基于 ViT)的準確率分別提高了 2.2%6.3%

三星最新概念機,XFormer的模型在轉移到目標檢測和語義分割任務時也表現良好。在 MS COCO 數據集上,XFormerYOLOv3 框架中超過 MobileNetV2 10.5 AP22.733.2 AP),只有 6.3M 參數和 3.8G FLOPs。在 Cityscapes 數據集上,只有一個簡單的 all-MLP 解碼器,XFormer 實現了 78.5mIoU15.3FPS,超過了最先進的輕量級分割網絡。

1Method

一個標準的 ViT 模型首先使用patch size h×w 將輸入 reshape為一系列flattened patches ,其中 和 表示token數。然后將 投影到固定的 D 維空間 并使用一堆transformer blocks來學習inter-patch表示。由于忽略了空間歸納偏差ViT 通常需要更多參數來學習視覺信息。此外,transformersself-attention 的昂貴計算導致優化此類模型的瓶頸。

1bfa3a9c291fa41c7dd19f500d688b00.png
圖1 XFormer

在本節提出了 XFormer,這是高效、輕量級的 CNN-ViT 框架,以解決 ViT 中的上述問題。首先介紹了一種提高自注意力效率的新方法,然后說明了新的 CNN-ViT 混合模型的架構設計。

1.1 Cross Feature Attention (XFA)

1、Attention Overview

Transformer 的主要計算瓶頸之一在于 self-attention 。在最初的 self-attention 過程中, 首先用于通過線性投影生成query Q、key K 和value V。它們都具有相同的維度(N × D),其中 N 是圖像token數,每個維度為 D。然后計算注意力分數為:

c78c12e486ad94f0d4e0cd1ef3e4fb55.png

三星m die,其中 σ 是 softmax 操作, 是head維度。計算注意力分數的計算復雜度為 。?self-attention 的二次復雜性導致了巨大的計算瓶頸,這使得 ViT 模型難以在移動設備上按比例縮小。

2、Efficient Attention

為了解決 self-attention 中的二次復雜性問題,作者提出了一種新的注意力模塊結構,稱為Cross Feature AttentionXFA)。在之前的工作之后,首先沿特征維度 D 對query Q 和key K 應用 L2 歸一化:

d1d7c77e7e7859a38aa58b60e768d0d5.png

在原始 self-attention 中的直覺是定位應該關注的重要圖像塊。

但是直接計算會導致不必要的冗余和計算開銷。相反,作者為 K 構建了2個中間分數:查詢上下文分數 和查詢特征分數 。使用2個卷積核矩陣 和 沿token維度 N 計算 ,沿特征維度 D 計算 。借助卷積濾波器中間分數向量可以表示計算注意力圖的更緊湊的表示,同時也降低了計算成本。 和 表示為:

e0f5e4b15c65faa5e890e2371f212a8a.png

三星下一代。最后,將Cross Feature Attention(XFA)定義為:

4e437478bd9db916902eb75dd979e8a3.png

其中 λ 是一個溫度參數,用于動態調整不同transformer層中的比例因子,從而提高訓練穩定性。注意到歸一化將注意力值限制在一定范圍內,因此放棄了冗余且昂貴的 softmax 操作。與原始的具有二次復雜度的 self-attention 不同,XFA模塊將計算成本從 降低到 .

3、Comparison with Self-attention

本文提出的 XFA 模塊和原始注意力之間的主要區別是:

  1. XFA 通過構建中間查詢上下文和特征分數,沿特征維度D計算注意力圖,大大降低了計算成本;

  2. 三星X128?XFA 使用可學習的溫度縮放參數來調整歸一化,并且不受 softmax 操作的影響。

本文方法為二次復雜度問題提供了解決方案,并且對于資源受限的設備更有效且對移動設備更友好。

1.2 Building XFormer

1、MobileNetV3 Block

MobileNetV2 首先引入了inverted residuallinear bottleneck以構建更高效的層結構。MobileNetV3 隨后添加了squeeze excitation (SE) 模塊以處理更大的表示特征。最近的工作證明了通過在 ViT 的早期階段結合卷積層來提高 ViT 性能的合法性。受這種直覺的啟發,繼續為輕量級模型探索這種 CNN-ViT 混合設計。MobileNetV3 塊內的操作可以表述為:

bd89b591d1db89e183354ad659b007f6.png

其中 是前一層的輸入特征, 是 MV3 Block 的輸出特征,SEsqueeze excitation模塊。 表示depth-wise卷積操作, 表示point-wise卷積操作。

2、XF Block

三星4攝100X、利用提出的Cross Feature Attention模塊介紹了 XF Block,一個精心設計的輕量級 transformer moduleXF Block內的操作可以表述為:

171e2af75153774b9b8b7e03bafabd8e.png

其中 是前一層的輸入特征, 是 XFA 模塊的特征, 是 XF Block 的輸出特征。LN 表示層歸一化操作,MLP 為全連接層。

3、Patch Size Choice

對于較大的模型(ViT-Large),基于 ViT 的模型通常采用 8×816×16 甚至 32×32Patch Size。具有較大Patch Size的優點之一在于,對于分類等圖像級任務,ViT 可以有效地提取圖像塊信息,而不會增加過多的計算開銷。

最近的工作表明,當遷移到語義和實例分割等下游任務時,更小的Patch Size更受青睞,因為它可以增強 Transformer 學習更好的像素級信息的能力,這通常會帶來更好的性能。

三星X188、此外,隨著Patch Size的減小,token數 N 會大得多。線性復雜度 XFA 模塊可以避免潛在的計算瓶頸。在網絡設計中,每個 XF 塊的Patch Size設置為 2×2

4、XFormer

MobileNetV3XF Block 的基礎上提出了 XFormer,這是一種 CNN-ViT 混合輕量級模型,由堆疊的 MobileNetV3 BlockXF Block 組成,用于學習全局和局部上下文信息。與之前設計高效 CNN 的工作一樣,本文的網絡由 塊組成,用于提取原始圖像特征,在特征由 CNNtransformer blocks處理后,使用 、全局池化和全連接層來產生最終的 logit 預測。

在主要處理塊中,XFormer 有5個階段。前2個階段僅包含 MobileNetV3 Block (MV3) ,因為卷積塊比全 ViT 模型更能提取重要的圖像級特征表示,并隨后幫助轉換器塊看得更清楚。最后三個階段中的每一個都包括一個 MV3 塊和幾個 XF 塊。結合來自 MV3 塊的局部歸納偏差和來自 Transformer Block 的全局信息,網絡可以學習更全面的特征表示,可以輕松地轉移到不同的下游任務。

304bae4545210936f0db2b522b4cccc6.png

先前關于 ViT 的工作表明,應在更深的Transformer layers中使用更大的 MLP 比率,并且 Q-K-V 維度應相對小于嵌入維度,以便在性能和模型大小之間進行更好的權衡。作者遵循這些建議并相應地設計輕量級模型。對于三個不同階段的 XF Block ,它們的 MLP 比率、嵌入維度和 Q-K-V 維度分別設置為(2、2、3)、(144、192、240)和(96、96、96)。在全連接層中將 ReLU 替換為 GELU 激活;在所有其他層中使用 SiLU。對于 MV3 Block,擴展比均設置為 4。規格如表 1 所示。

5、Model efficiency

三星emanual?模型的總參數大小只有 550 萬。與類似大小的基于 ViT 的模型相比,本文的模型可以更有效地處理高分辨率圖像并避免潛在的內存瓶頸(見表 2)。

562eab0ad40ba9a53367c39312bdaa0d.png

例如,當輸入分辨率為 1024×1024 時,與使用原始自注意力的 MobileViT 相比,XFormer 的推理速度提高了近 2 倍,GPU 內存使用量減少了 32%。本文的模型可以輕松處理高分辨率吞吐量,而不會出現內存瓶頸。最重要的是,XFormer 提供了比比較模型更好的精度(參見表 3),在模型大小和性能之間實現了很好的平衡。

2實驗

2.1 圖像分類

44405813678f2e18c12de8f691943d14.png

2.2 目標檢測

58a54c458d9b2f671eaa9823465c3df4.png398f9b18cf5ed631860b719fd06fa8db.png

2.3 語義分割

8b719b666aa2cfc1320b87f7813ba667.pnge70341fe430632655030785554bfbdce.png

3參考

[1].Lightweight Vision Transformer with Cross Feature Attention

本文僅做學術分享,如有侵權,請聯系刪文。

干貨下載與學習

后臺回復:巴塞羅自治大學課件,即可下載國外大學沉淀數年3D Vison精品課件

后臺回復:計算機視覺書籍,即可下載3D視覺領域經典書籍pdf

后臺回復:3D視覺課程,即可學習3D視覺領域精品課程

計算機視覺工坊精品課程官網:3dcver.com

1.面向自動駕駛領域的多傳感器數據融合技術

2.面向自動駕駛領域的3D點云目標檢測全棧學習路線!(單模態+多模態/數據+代碼)
3.徹底搞透視覺三維重建:原理剖析、代碼講解、及優化改進
4.國內首個面向工業級實戰的點云處理課程
5.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解
6.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦
7.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優化
8.徹底剖析室內、室外激光SLAM關鍵算法原理、代碼和實戰(cartographer+LOAM +LIO-SAM)

9.從零搭建一套結構光3D重建系統[理論+源碼+實踐]

10.單目深度估計方法:算法梳理與代碼實現

11.自動駕駛中的深度學習模型部署實戰

12.相機模型與標定(單目+雙目+魚眼)

13.重磅!四旋翼飛行器:算法與實戰

14.ROS2從入門到精通:理論與實戰

15.國內首個3D缺陷檢測教程:理論、源碼與實戰

16.基于Open3D的點云處理入門與實戰教程

重磅!計算機視覺工坊-學習交流群已成立

掃碼添加小助手微信,可申請加入3D視覺工坊-學術論文寫作與投稿?微信交流群,旨在交流頂會、頂刊、SCI、EI等寫作與投稿事宜。

同時也可申請加入我們的細分方向交流群,目前主要有ORB-SLAM系列源碼學習、3D視覺CV&深度學習SLAM三維重建點云后處理自動駕駛、CV入門、三維測量、VR/AR、3D人臉識別、醫療影像、缺陷檢測、行人重識別、目標跟蹤、視覺產品落地、視覺競賽、車牌識別、硬件選型、深度估計、學術交流、求職交流等微信群,請掃描下面微信號加群,備注:”研究方向+學校/公司+昵稱“,例如:”3D視覺?+ 上海交大 + 靜靜“。請按照格式備注,否則不予通過。添加成功后會根據研究方向邀請進去相關微信群。原創投稿也請聯系。

d51b205e734782b7150eed6e8ce8764d.jpeg

▲長按加微信群或投稿

三星第三代?753c842d202e17782753f88b976edd29.jpeg

▲長按關注公眾號

3D視覺從入門到精通知識星球:針對3D視覺領域的視頻課程(三維重建系列、三維點云系列、結構光系列、手眼標定、相機標定、激光/視覺SLAM自動駕駛等)、知識點匯總、入門進階學習路線、最新paper分享、疑問解答五個方面進行深耕,更有各類大廠的算法工程人員進行技術指導。與此同時,星球將聯合知名企業發布3D視覺相關算法開發崗位以及項目對接信息,打造成集技術與就業為一體的鐵桿粉絲聚集區,近4000星球成員為創造更好的AI世界共同進步,知識星球入口:

學習3D視覺核心技術,掃描查看介紹,3天內無條件退款

ddea8e0c95df522cff2b4044f0239b8e.jpeg

?圈里有高質量教程資料、答疑解惑、助你高效解決問題

覺得有用,麻煩給個贊和在看~??

https://www.nshth.com/bcbj/326234.html
>

相关文章:

  • 三星最新概念機
  • 三星m die
  • 三星下一代
  • 三星X128
  • 三星4攝100X
  • 三星X188
  • 三星emanual
  • 三星第三代
  • 編程語言難度排名,8 月最新編程語言排行榜
  • 手機usb調試被禁用怎么恢復,解決安卓手機USB接口被外設占用導致無法調試的問題
  • 手機上的安卓模擬器,連接手機模擬器
  • 搜狗輸入法怎么手寫和拼音一起輸入,零彝輸入法用戶協議
  • ubuntu自帶gcc編譯器嗎,安裝ubuntu20.04(安裝vim、gcc、VMtools、中文輸入法、漢化、修改IP、無法連網問題)
  • 輸入法哪個最好用,android ip格式化輸入法,Android設置默認輸入法
  • blkmov指令使用例子,ORB-SLAM2代碼解析
  • windows補丁kb3033929怎么安裝,Win8.1 kb2919355安裝不上怎么辦?
  • 淘寶店鋪如何增加流量,淘寶賣家開店怎么做有效減少淘寶垃圾流量
  • 商標使用必須加TM或R嗎,商標中R標和TM標的區別
  • 沒有商標可以上速賣通嘛,速賣通商標授權怎么弄?速賣通官方授權模板書分享
  • 商標中R跟C分別代表什么,商標TM和R有什么區別
  • 商標中R跟C分別代表什么,CSDN Markdown 商標標志 C、TM、R
  • 有關向量的重要結論,專題-句向量(Sentence Embedding)
  • 信息安全等級保護的5個級別,信息安全等級保護措施之網絡安全技術
  • 書是黃金屋下一句是什么,書中的“黃金屋”
  • gps定位,定位iowait問題
  • 渲染軟件哪個好用,Android平臺上基于OpenGl渲染yuv視頻
  • C# wpf 通過HwndHost渲染視頻
  • h5商城源碼,H5全新紅包直通車網站源碼 包含多款游戲已對接支付
  • android基礎面試題及答案,安卓手機系統開發教程!BTAJ面試有關散列(哈希)表的面試題詳解,大廠直通車!
  • 中交第一公路勘察設計研究院,緯地道路縱斷面設計教程_直通車 | 中交一公局公路勘察設計院有限公司招聘公告...
  • arduino怎么把程序傳到板上,STM32替換Arduino直通車
  • 記錄2015年年初跳槽的經歷!
  • 什么情況下可以跳槽,記錄 2015 年年初跳槽的經歷!
  • 聚合支付公司前十,聚合支付行業的2019年終總結大會!細品,你細品~
  • mastercam后處理論壇,mastercam2017后處理升級_如何升級Mastercam 9.1版后處理?
  • 動態表情包制作,android 視頻轉表情,視頻怎么轉gif?好用軟件分享,自己也能制作出搞笑表情包...
  • pc頁面怎么打開,頁面的版心html,關于PC端網頁版心及網頁自適應問題
  • webp圖片怎樣改成jpg,如何給圖片更改格式?jpg轉webp怎么操作