自動駕駛語義分割模型的對抗魯棒性研究
自動駕駛語義分割模型的對抗魯棒性研究
On Adversarial Robustness of Semantic Segmen-tation Models for Automated Driving
人們已經提出了一些研究工作來評估基于深度學習的自動駕駛語義分割模型在對抗攻擊下的魯棒性。然而,在以往的實證研究中,所測試的對抗樣本和所評估的分割模型的類型受到了限制,這導致了對語義分割模型的魯棒性理解的限制。為了緩解這些問題,本研究將在數據層面從模型結構的內部因素和環境擾動的外部因素兩個方面系統地推進語義分割模型的魯棒性研究。本研究使用具有不同內部結構的典型模型進行了全面的研究:全卷積網絡(FCN)、金字塔場景分析網絡(PSPNet)、DeepLapv3+和具有不同主干網絡的 SegNet。這些模型將采用魯棒性評價指標對在白盒攻擊和黑盒攻擊下的結果進行評估。在實驗的基礎上,對不同影響因素下不同模型的魯棒性進行了定性和定量分析。隨著更多的實證研究案例,我們的工作為自動駕駛語義分割的魯棒性研究提供了靈感,這對預期功能安全(SOTIF)研究是有意義和有利的。
01 簡介
近年來,隨著深度學習的快速發展,自動駕駛技術取得了巨大進步。在自動駕駛領域,語義分割的性能對安全駕駛非常重要。
然而,深度神經網絡容易受到對抗性示例的影響[1]-[4]。在沒有視覺表征修改的情況下,輕微的對抗性擾動會導致神經網絡上的欺騙。此類攻擊可能威脅圖像分類器、對象檢測器和語義分割模型。
為了緩解此類安全問題,一個合格的神經視覺系統既需要在正常場景下的高泛化能力,也需要在對抗性攻擊下的魯棒性。對這種對抗性攻擊的實證研究是提高深度學習魯棒性的一項重要任務。在實際應用中,用于自動駕駛的基于深度學習的語義分割模型在模型結構的先驗知識的情況下遭受白盒對抗性攻擊。此外,自動駕駛中常見的黑匣子對手,比如異常天氣和相機散焦也可以被視為語義分割模型的隱患,這可能導致預期功能(SOTIF)的安全性受到威脅[5]。SOTIF被認為是自動駕駛安全的一個重要方面。它處理人工智能模型的局限性和人類濫用造成的風險。
盡管語義分割模型在對抗性攻擊的魯棒性方面已經取得了一些研究成果,但攻擊方法和評估模型的類型仍然有限。實際自動駕駛場景中的擾動是復雜的,自動駕駛車輛中存在各種基于深度學習的語義分割模型。如果沒有詳細的實證研究,就不可能深入理解自動駕駛中語義分割模型的魯棒性。為了解決這些問題,我們將從影響因素的兩個方面系統推動語義分割模型魯棒性的研究:模型結構的內部因素和數據層面環境擾動的外部因素。
在本文中,我們評估了Cityscapes[6]上的分割模型在數據級別上對自動駕駛的白盒攻擊(FGSM[2],GD-UAP[7])和黑盒攻擊(圖像腐蝕[8])的魯棒性。
此外,根據不同自動駕駛場景的魯棒性指標,對相同語義分割模型的各種主干網絡進行評估,以探索模型結構的影響。我們對實驗結果進行了定量和定性分析得出了一些發現,這些發現可能會對自動駕駛語義分割的魯棒性研究產生啟發,這對SOTIF是有意義和有益的。
我們的貢獻主要包括兩個方面:
? 在模型層面,通過實證研究,我們發現了模型和主干網絡對魯棒性的影響,如PSPNet的非魯棒特征學習、ReLU6激活函數對GD-UAP攻擊的魯棒性等。此外,我們的理論分析也證實了這一發現。
? 在數據層面,我們研究了各種對抗性擾動的影響,特別是異常天氣和相機畸變等黑匣子攻擊。實證和理論研究均能支持SOTIF相關風險的觸發條件分析,有助于提高駕駛安全。
02 相關工程
在本節中,我們全面回顧了基于深度學習的自動駕駛語義分割模型的開發、對抗性攻擊,以及對語義分割魯棒性的實證研究工作。
A. 基于深度學習的自動駕駛語義分割模型
自2012年以來,卷積神經網絡(CNN)已被廣泛用于圖像分類[9]-[12]并取得了巨大成功。與圖像級分類相比,語義分割使像素級識別成為圖像分類的一項擴展任務。研究人員致力于提出具有最先進性能的語義分割模型,包括全卷積網絡(FCN)[13]、SegNet[14]、金字塔場景解析網絡(PSPNet)[15]、DeepLab系列模型[16]-[19]等。FCN是語義分割領域的一個里程碑,它利用全卷積層而不是全連接層進行像素識別。SegNet在FCN的基礎上使用了編碼器-解碼器結構,并在池化期間緩存像素位置的索引信息,這允許解碼器在上采樣時擁有更準確的位置信息。PSPNet將特征圖輸入到空間金字塔池化(SPP)[20]模塊,該模塊使PSPNet能夠融合不同分辨率的特征,并對其進行改進以獲得全局信息。DeepLab系列型號已經更新了四次,從DeepLabV1[16]、DeepLabV2[17]、DeepLab V3[18]到最先進的DeepLabV3+[19]。
DeepLabV3+不僅利用了空洞空間卷積池化金字塔(多孔空間金字塔池化)(ASPP)模塊,而且還將深度卷積神經網絡(DCNN)與擴張卷積相結合,以提高目標邊界的性能。由于這些具有不同主干網絡的典型模型將應用于自動駕駛領域,因此值得對這些語義分割模型的魯棒性進行評估。
B. 對語義分割的對抗性例子和對抗性攻擊
語義分割模型被白盒對抗性攻擊和黑箱對抗性攻擊所困擾。
白盒攻擊:科學家們在了解L-BFGS[1]、快速梯度符號法(FGSM)[2]、投影梯度下降(PGD)[3]、Carlini和Wagner攻擊(C&W)[4]等模型的基礎上,提出了白盒對抗性攻擊方法。FGSM是一種基于梯度更新的單步無目標對抗性攻擊。FGSM作為一種無目標對抗性攻擊,只需要損失值變大,模型就無法識別正確的分類。另一種特殊類型的白盒攻擊是通用對抗性擾動(UAP)[21]。通過將這種準不可察覺的擾動添加到干凈的圖像中,深度神經網絡估計的標簽很有可能發生變化。這種圖像不可知的擾動被稱為普遍對抗性擾動。制作通用對抗性擾動的通用無數據目標(GD-UAP)[7]是普通UAP攻擊方法的一種變體,它與數據無關,可以在不同的視覺任務之間傳輸。
黑箱攻擊:黑箱對抗性攻擊不需要模型的先驗知識。異常天氣和相機畸變可歸因于黑匣子對抗性攻擊。Hendrycks等人[8]在他們提出的ImageNet-C數據集中應用了15種噪聲來評估圖像分類任務的魯棒性。Michaelis等人[22]在先前工作[8]的基礎上評估了基于自動駕駛的物體檢測器的魯棒性。通常,黑盒圖像損壞[22]包含19種不同類型的噪聲,這些噪聲模擬了自動駕駛中的真實對抗場景。
對語義分割模型進行對抗性攻擊的實證研究:我們的工作受到了幾項關于語義分割的實證研究的啟發。Arnab等人[23]利用FGSM作為對抗性攻擊來評估語義分割模型(如 DeepLabV2)的魯棒性。
Kamann[24]生成損壞的圖像以攻擊圖像并評估模型的魯棒性。然而,在先前的實證研究中,測試的對抗性示例和評估的分割模型的類型是有限的。為了促進語義分割模型魯棒性的研究,本文將從影響因素的兩個方面研究問題:模型結構的內部因素和數據層面環境擾動的外部因素。更多關于不同對抗性攻擊下不同語義分割模型的實證研究案例將有助于深入理解語義分割模型在自動駕駛中的魯棒性。
03 框架
在本節中,我們提出了我們的魯棒性分析框架。四個模型將在干凈的城市景觀數據集上進行訓練:FCN、SegNet、PSPNet和DeepLabV3+。對于對抗性攻擊,FGSM和GD-UAP是白盒對抗性攻擊的兩種類型,黑盒攻擊將由圖像損壞產生。研究了異常天氣和攝像機畸變的駕駛環境因素。
圖一闡述了我們的框架,包括典型的語義分割模型、對抗性擾動和綜合分析。

圖1:我們提出的魯棒性分析框架。
為了評估模型的魯棒性并分析影響因素,我們在干凈的自動駕駛數據集上訓練了四種用于自動駕駛的語義分割模型,然后在各種對抗性擾動下進行測試。(a)對抗性攝動 擾動世代的過程,其中左側展示對抗性攝動 擾動,右側顯示對抗性示例;(b)每個分割模型的結構塊包括FCN、SegNet、DeepLabV3+和PSPNet;(c)來自輸入對抗性示例的預測;(d)定量和定性分析。
A. 語義分割模型
這四種語義分割模型是實際應用中常用的模型,它們具有不同的內部結構。因此,我們基于這四個模型研究了魯棒性。
FCN[13]可以被視為第一個基于深度學習的語義分割模型。通過利用轉置卷積和反池化操作,FCN可以識別圖像中的特定對象。此外,FCN會丟棄丟失空間信息的結構,例如全局池化。為了避免“梯度消失”的現象,在分割模型中加入了跳躍層結構。
經典編碼解碼結構中的SegNet[14]推斷。為了實現最大池化的效果,模型會選擇最大的像素來存儲特征圖中像素的位置,這些像素位置信息被稱為索引。在解碼過程中,SegNet通過對特征圖的反池化,根據索引恢復原始位置的最大值,然后用零填充其他位置,以獲得最終的分割預測圖像。SegNet中的池化操作會記住在選擇最大值期間的相對位置,以便進一步使用上采樣,這是它與FCN的最大區別。
PSPNet[15]在訓練過程中添加了一個輔助損失函數,以加速模型收斂。該模型利用擴張網絡策略,有效地逐個像素提取特征圖。然后,該模型使用金字塔池化模塊通過多尺度特征映射提取上下文信息。
DeepLabV3+[19]的貢獻在于編碼器-編碼器結構,它不僅提高了分割效果,還改善了邊界的信息。為了提取和純化多尺度信息,DeepLabV3+使用空洞空間卷積池化金字塔(多孔空間金字塔池化)(ASPP),在主干網絡之后進行可分離卷積。與DeepLabv3相比,DeepLabv3+引入了解碼器模塊,該模塊將低級特征與高級特征進一步融合,以提高分割邊界的準確性。
B. 對抗性擾動
FGSM和GD-UAP是魯棒性研究中兩種典型的白盒對抗性攻擊。此外,評估黑盒攻擊下的魯棒性有助于提高自動駕駛的SOTIF。
FGSM[2]是一種單步無目標對抗性攻擊方法。擾動將被添加到具有最大梯度變化的方向上,以干擾分類模型的推斷。它是一個最優的最大范數約束對抗性擾動,如方程(1)所定義。

在上式中,x表示原始輸入圖像,xadv表示對抗性樣本,?是最優最大范數約束擾動的參數,sign表示梯度方向。擾動預算ε越大,其獲得的攻擊效果就越好。然而,人眼可以檢測到對抗性擾動,這可能會降低對抗性攻擊的隱蔽性。
通過控制ε的大小,可以實現攻擊效果和圖像質量之間的折衷,這意味著人眼無法識別與原始圖片的差異。
GD-UAP[7]是一種獨立于數據的通用對抗性擾動生成方法,可應用于各種任務,包括圖像分類、語義分割和深度估計。這種方法的目的是通過干擾多層提取的特征來欺騙模型。
具體而言,攻擊其他模型的方法是在多個層上過度填充激活函數,如等式(2)所定義。

在上述公式中,g可以被視為先驗數據。在無數據設置中,g是一個空矩陣。在帶有數據的設置中,g是圖像矩陣。δ是需要優化的隨機噪聲,li(δ)是當g+δ被饋送到網絡時,第i層的輸出張量(非線性之后)中的激活。
圖像破壞擾動[22]是用19種不同的過程對抗性噪聲實現的,包括變焦模糊、運動模糊、散焦、磨砂玻璃、高斯模糊、高斯噪聲、脈沖噪聲、散粒噪聲、斑點噪聲、雪模擬、飛濺模擬、霧模擬、霜模擬、數字亮度、數字對比度、JPEG壓縮、飽和度,像素化和彈性變換。每種對抗性噪聲都有5個嚴重程度,擾動將由從1到5的不同自然數值控制。神經網絡在這種黑箱攻擊下的脆弱性和不確定性可歸因于SOTIF的風險問題。
04 試驗
A. 試驗設置
數據集:試驗基于cityscape數據集[6],該數據集廣泛應用于自動駕駛語義分割基準測試領域。該數據集由車載攝像頭拍攝的道路場景組成,共有19個類。驗證數據集有500張圖像,訓練數據集總計約23000張圖像。所有這些圖像都是高分辨率圖像(1024×2048)取自50多個城市的道路場景。其他自動駕駛的基準數據集,如KITTI[25]和Udacity[26],只能用于對象檢測和跟蹤,不能用于分割。因此,cityscape更適合我們的研究。
模型:最先進的DeepLabV3+[19]模型-具有多個網絡主干網的模型在PyTorch框架中進行訓練。MobileNetV2[11]、ResNet50[10]、ResNet101[10]和Xception65[27]被選為網絡主干網。為了與Deep-LabV3+進行比較,我們選擇FCN8s[13], FCN16s [13], FCN32s[13]與VGG16[9]主干網,FCN與ResNet50和ResNet101主干網,SegNet[14]與VGG16主干網,PSP- Net[15]與ResNet50和ResNet101主干網。所有的主干網都在ImageNet數據集[28]上進行了預訓練。為了保證試驗的準確性,所有這些模型都使用了包括隨機裁剪和隨機水平翻轉在內的圖像增強方法進行訓練。
對抗性攻擊:本文對白盒攻擊和黑盒攻擊進行了研究。FGSM[2]和GD- UAP[7]是兩種白盒攻擊。將異常天氣和圖像損壞產生的攝像機畸變等驅動環境因素視為黑盒攻擊。在FGSM的試驗中,在[1/255,2 / 255,4 / 255,8 / 255,12 / 255,16 /255]的范圍內對不同的攝動 擾動預算 約束e設置l∞范數攻擊。在GD-UAP的試驗中,在[5/ 255,10 /255]范圍內的擾動預算 約束e上設置了l∞范數攻擊。在圖像破壞[22]的試驗中,不同噪聲的5種嚴重程度都將被測試。
評價指標:平均交集超過聯合(mIoU)是語義分割模型評價中最常用的指標。在本文中,對抗性擾動下的mIoU可以看作是魯棒性的度量。
B. FGSM攻擊的試驗
圖2顯示了在Cityscapes數據集上訓練的幾個最先進的模型在FGSM攻擊下的魯棒性。
在FGSM(ε=[1,2,4,8,12,16])中,DeepLabV3+比其他模型具有更高的mIoU。具有輕量級主干MobileNetv2的DeepLabV3+模型不如具有其他3個主干的DeepLab V3+模型,后者具有更多的參數。很明顯,具有Xception65主干的模型在ε≤4的情況下保持了相當大的識別性能,但當擾動預算 約束滿足ε≥8時,mIoU迅速下降。然而,這并不意味著具有Xception65主干的DeepLabV3+模型在實際應用中的魯棒性不好,因為當擾動預算 約束滿足ε≥8時,圖像的噪聲在現實世界中已經變得肉眼可見。

圖2:在FGSM攻擊下,最先進的模型對城市景觀數據集的魯棒性
在與DeepLabV3+中不同主干的比較試驗中,具有ResNet101主干的DeepLabV2+具有最好的魯棒性。它說明了具有ResNet主干的FCN也比具有VGG16主干的FCN好。SegNet是用上采樣 不采樣模型構建的,這可能有助于它在FGSM攻擊下的魯棒性。因此,其性能優于具有相同VGG16主干的FCN。一般來說,主干對模型魯棒性的影響是顯著的。由于其殘差結構,ResNet是一個穩健的主干,可以融合先前卷積層的特征信息。
C. GD-UAP攻擊的試驗
圖3顯示了GD-UAP進攻的試驗結果,DeepLabV3+在擾動預算 約束ε=5和ε=10下的mIoU高于其他模型。在DeepLabV3+中使用的主鏈中,當擾動預算 約束變得更高時,DeepLabV3+與Xception65主鏈的mIoU迅速降低。在FCN和DeepLabV3+的不同支柱中,ResNet50和ResNet101仍然是提高語義分割模型魯棒性的主干。具有SPP結構的PSPNet在這次攻擊中仍然表現不佳,因此我們推斷SPP模塊在網絡中的作用是集成局部和全局特征以提高預測精度,但它無助于提高分割模型的魯棒性。DeepLabV3+與MobileNetV2主干在GD-UAP攻擊下的性能是非常突出的,其魯棒性遠高于具有其他主干的DeepLabV3+模型。

圖3:在GD-UAP無數據(無數據)攻擊下,最先進的模型在城市景觀數據集上的魯棒性
在之前的工作[29]中,有一種觀點表明,ReLU是限定和限制神經網絡模型魯棒性的因素之一。在我們的消融試驗中,激活功能ReLU6被整合到MobileNetV2主干中。圖4顯示,使用ReLU6的MobileNetV2主干的DeepLabV3+的mIoU是使用ReLU的相同主干的Deep LabV3+mIoU的兩倍。GD-UAP的有效性在于通過過度激發激活函數來攻擊分割模型。然而,ReLU6將激活函數的最大值限制為6,并抑制GD-UAP對模型激活函數的攻擊。

圖4:具有不同ReLU和ReLU6函數的基于MobileNetv2主干的DeepLabV3+模型的不同l∞范數GD-UAP擾動的平均mIoU
除了無數據UAP攻擊外,GD-UAP還可以使用訓練數據集作為先驗知識來訓練對抗性擾動。通過使用訓練數據集,試驗結果與無數據模式下的結果相似。圖5表明,DeepLabV3+仍然保持著較高的魯棒性,ResNet是貢獻魯棒性的合適主干。

圖5:GD-UAP下Cityscapes數據集上最先進模型在數據攻擊下的魯棒性
D. 圖像損壞
在圖像損壞中提供了19種不同類型的噪聲。對于自動駕駛,我們關注異常天氣、運動模糊和散焦模糊。其中,異常天氣和飛濺是對圖像的物理攻擊,而運動模糊和散焦模糊是由車輛高速行駛時的相機失真引起的。因此,在試驗中,分析這些黑匣子攻擊對模型魯棒性的影響至關重要。
表I:DeepLabV3+和其他模型的不同網絡主干的驗證集中干凈和損壞圖像的平均mIoU。每個mIoU在前三個嚴重級別上取平均值,因為最后兩個級別的攻擊會嚴重破壞圖像質量。這些自動駕駛損壞類型中的最高mIoU用粗體突出顯示。

表I顯示,在異常天氣(雪、霧、霜、飛濺)的情況下,DeepLabV3+比其他模型更穩健。在DeepLabV3+模型結構組中,具有ResNet主干的模型優于具有Xception65主干和MobileNetV2主干的模型。在FCN組的比較中,具有ResNet主干的模型也優于具有VGG16主干的模型,并且這樣的模型的平均mIoU可以超過40%左右。盡管在干凈圖像下,具有ResNet主干的PSPNet的mIoU高于具有VGG16主干和ResNet主干的FCN的mIoU,但當語義分割模型受到這些黑箱攻擊時,其mIoU顯著下降,其性能甚至比具有ResNet主鏈的FCN差,原因是PSPNet學習到的特征是非魯棒的。在散焦模糊攻擊和運動模糊攻擊下,DeepLabV3+與其他模型相比表現出較強的魯棒性,ResNet也是用于語義分割的評估模型組內最健壯的主干。帶有Xception主干的DeepLabV3+的性能顯示出不同的特性。在模糊攻擊中,即使與具有ResNet主干的DeepLabV3+相比,它也能獲得更高的mIoU。這可能是因為這兩個模糊對模型的干擾較小。
具有Xception主干的DeepLabV3+模型的分割性能在嚴重程度不高時不會下降太多(嚴重程度=1,2,3)。只有當嚴重程度較高(嚴重程度=5)時,對手才能導致具有Xception主干的DeepLabV3+模型的mIoU顯著下降。
E. 討論
基于上述試驗結果,有幾個發現很突出,這些發現與模型結構和環境數據擾動對魯棒性的影響有關。
? 干凈測試數據集上語義分割模型的高精度并不總是與對抗性擾動下的魯棒性相關。在我們的試驗中,在干凈的測試數據集上具有高mIoU的PSPNet在對抗性擾動下很容易受到攻擊。相比之下,具有相同主干的DeepLabV3+模型的性能退化較小,原因可能在于PSPNet學習到的非魯棒性特征。
? 在我們的評估試驗中,具有包含殘差結構的主干(如ResNet)的語義分割模型通常比具有其他基于鏈的VGG主干和輕量級主干(如MobileNetV2)的相同語義分割模型更具魯棒性。
? 具有Xception65主干的語義分割模型具有很高的分割精度。當l∞-范數擾動約束ε很小時,性能不會下降太多。然而,當擾動約束ε變大時,具有Xception主干的語義分割模型的魯棒性比具有其他主干的模型差。
?GD-UAP攻擊有效性的關鍵在于過度激活神經元。由于ReLU6函數通過抑制神經元過度激活的現象將其最大輸出限制在6的值,因此具有激活函數ReLU6的語義分割模型比具有頻繁使用的ReLU函數的模型更具魯棒性。
?在模擬異常天氣的黑盒攻擊試驗中,具有ResNet101主干的DeepLabV3+模型顯示了最佳的魯棒性性能,為建立符合SOTIF安全性要求的語義分割模型提供了參考。
05 結論
神經網絡的脆弱性導致了安全關鍵型自動駕駛的潛在風險。為了解決分割模型的局限性,我們從兩個方面研究了語義分割模型對自動駕駛的魯棒性:模型層面的內部結構和數據層面的外部對抗性擾動。我們提出了魯棒性分析框架,包括模型、對抗性攻擊以及定性和定量分析。在兩種白盒對抗性攻擊(FGSM和GDUAP)和由圖像破壞產生的黑盒攻擊(模擬真實世界中的異常天氣和相機失真)下,在具有不同主干的四個語義分割模型(FCN、SegNet、PSPNet和DeepLabV3+)上實現了評估。基于我們的試驗結果,對不同對抗性攻擊模式下語義分割模型的魯棒性進行了全面分析,并得出了一些有意義的發現。這項實證工作可能會為自動駕駛中基于深度學習的視覺系統的研發過程提供一些參考。
參考文獻:




