您現(xiàn)在的位置：中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法

基于非對稱均方誤差的人體姿態(tài)估計(jì)方法

時(shí)間：2019-05-15 17:31:59來源：黃玉程孟凡陽

導(dǎo)語：?在用于人體姿態(tài)估計(jì)的深度神經(jīng)網(wǎng)絡(luò)中，損失函數(shù)通常使用均方誤差(MeanSquearError,MSE)。MSE雖然計(jì)算簡單，但無法確保與預(yù)測結(jié)果一致性，即神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測熱圖不同，計(jì)算得到的MSE相同。針對該問題，本文基于MSE提出非對稱均方誤差(AsymmetricMeanSquareError,AMSE)損失函數(shù)，對預(yù)測熱圖添加懲罰項(xiàng)，對較大的預(yù)測輸出值進(jìn)行懲罰，保證MSE與預(yù)測結(jié)果的一致性。在COCOval2017數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的AMSE預(yù)測效果優(yōu)于MSE。

摘要：在用于人體姿態(tài)估計(jì)的深度神經(jīng)網(wǎng)絡(luò)中，損失函數(shù)通常使用均方誤差(MeanSquearError,MSE)。MSE雖然計(jì)算簡單，但無法確保與預(yù)測結(jié)果一致性，即神經(jīng)網(wǎng)絡(luò)輸出的預(yù)測熱圖不同，計(jì)算得到的MSE相同。針對該問題，本文基于MSE提出非對稱均方誤差(AsymmetricMeanSquareError,AMSE)損失函數(shù)，對預(yù)測熱圖添加懲罰項(xiàng)，對較大的預(yù)測輸出值進(jìn)行懲罰，保證MSE與預(yù)測結(jié)果的一致性。在COCOval2017數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，本文提出的AMSE預(yù)測效果優(yōu)于MSE。

關(guān)鍵詞：人體姿態(tài)估計(jì)；均方誤差；非對稱均方誤差

1.引言

多人人體姿態(tài)估計(jì)作為眾多計(jì)算機(jī)視覺應(yīng)用，例如行為識(shí)別、人機(jī)交互的基本挑戰(zhàn)之一[1-3]，其主要目的是為了識(shí)別和定位圖片中不同人體的關(guān)鍵點(diǎn)。

自從Toshev等人將深度學(xué)習(xí)應(yīng)用在人體姿態(tài)估計(jì)任務(wù)之后[4]，人體姿態(tài)估計(jì)方法開始逐步由傳統(tǒng)方法向深度學(xué)習(xí)方向轉(zhuǎn)變[5-8]，Toshev等人通過神經(jīng)網(wǎng)絡(luò)直接回歸出人體關(guān)鍵點(diǎn)坐標(biāo)，Tompson等人使用多分辨率圖片作為輸入，提取圖片多尺度特征，并用于人體關(guān)鍵點(diǎn)熱圖預(yù)測[9]。當(dāng)前人體姿態(tài)估計(jì)框架分為兩大類，第一種為基于兩階段的方法[10-12]，首先將圖片中每人的框架的找出，再對各框架中的人體進(jìn)行關(guān)鍵點(diǎn)定位，第二種為基于各關(guān)鍵點(diǎn)的方法[13-15]，首先將圖片中所有的關(guān)鍵點(diǎn)定位，再對定位后的關(guān)鍵點(diǎn)進(jìn)行組合得到多人關(guān)鍵點(diǎn)。通常基于兩階段的方法效果更好，因?yàn)樵摲椒芨玫睦脠D片的全局語義信息。

當(dāng)前最好的人體姿態(tài)估計(jì)方法都致力于新型網(wǎng)絡(luò)模型的研究，例如CPN和SBN，

CPN通過將多層級(jí)特征整合為金字塔網(wǎng)絡(luò)的形式解決困難關(guān)鍵點(diǎn)的檢測問題，SBN提供簡單高效的人體姿態(tài)估計(jì)方法，只對ResNet的最后一層添加反卷積層便取得了較好的結(jié)果[16]。這些方法均使用熱圖的方法進(jìn)行預(yù)測，并通過MSE計(jì)算預(yù)測熱圖與標(biāo)注熱圖之間的損失函數(shù)值，但使用MSE作為損失函數(shù)存在先天的不足，首先，不同預(yù)測熱圖與標(biāo)注熱圖間的MSE值與mAP度量存在不一致問題，這意味著具有相同MSE的兩張預(yù)測熱圖會(huì)產(chǎn)生不同的錯(cuò)誤率，我們稱之為不一致問題。為了解決以上問題，本文提出非對稱均方誤差(AMSE)，通過指引模型選擇更好的輸出來保持一致性。實(shí)驗(yàn)表明，在只增加少許計(jì)算量的情況下，使用AMSE訓(xùn)練的模型效果明顯優(yōu)于MSE訓(xùn)練的模型。

綜上，本文的主要貢獻(xiàn)有以下幾點(diǎn)：

分析在人體姿態(tài)估計(jì)任務(wù)中，使用預(yù)測熱圖和標(biāo)注熱圖計(jì)算MSE值所產(chǎn)生的不一致問題。

提出非對稱均方誤差(AMSE)作為改進(jìn)損失函數(shù)，解決不一致問題。

2.非對稱均方誤差

2.1均方誤差

基于熱圖表示的人體姿態(tài)估計(jì)方法，以 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2063.png 大小的彩圖作為輸入，輸出為一組表示人體部位定位的2D熱圖，如圖1所示:

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2126.png

圖12D熱圖

其中S=(S1,S2,???SJ)表示J張熱圖，每張圖代表一個(gè)關(guān)鍵點(diǎn)，Sj?RW′H熱圖間的MSE值計(jì)算公式定義為：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2235.png (1)

其中M=J′W′H，Gj?RW′H示第j關(guān)鍵點(diǎn)的標(biāo)注熱圖，熱圖是在關(guān)鍵點(diǎn)位置施加高斯斑所產(chǎn)生的圖片。對于第j個(gè)預(yù)測關(guān)鍵點(diǎn)的熱圖Sj，最終的關(guān)鍵點(diǎn)坐標(biāo)Kj由熱圖中最大值 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2327.png 的位置確定：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2356.png (2)

目前最好的人體姿態(tài)估計(jì)方法均采用MSE作為損失函數(shù)[17]，但是MSE卻無法確保預(yù)測結(jié)果的一致性，在模型預(yù)測熱圖具有相同的MSE值的情況下，會(huì)出現(xiàn)不同的預(yù)測結(jié)果，該問題稱之為不一致問題。

2.2問題分析

對于給定標(biāo)注熱圖G0和MSE值 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2484.png ，存在多個(gè)預(yù)測熱圖S*滿足以下公式：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2525.png (3)

不同的熱圖S*預(yù)測結(jié)果不同，卻得到了相同的MSE值。為了簡化這一問題，假設(shè)S*滿足以下條件：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2601.png (4)

如公式(4)所示，對預(yù)測熱圖上的每個(gè)點(diǎn)而言，只存在兩種情況，比目標(biāo)值大 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2644.png 或小。以一維熱圖為例，假設(shè)標(biāo)注熱圖為[0.5,1,0.5]T，則存在8種滿足公式(4)的預(yù)測熱圖存在，如圖2所示，其中黑體字表示比相應(yīng)位置的目標(biāo)值大0.5，非黑體字表示比相應(yīng)位置的目標(biāo)值小0.5。

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉2745.png

圖2具有相同MSE的預(yù)測熱圖

由圖2可知，在相同MSE值的情況下，(a)-(e)和(f)-(h)的預(yù)測熱圖經(jīng)過公式(2)的求最值操作后，將產(chǎn)生一個(gè)像素位置的誤差導(dǎo)致最終結(jié)果不同，這便是MSE的不一致問題。實(shí)際上，不一致問題主要由公式(2)的操作產(chǎn)生，因?yàn)樵摬僮鲗︻A(yù)測熱圖的絕對值不敏感，而預(yù)測熱圖內(nèi)各值的相對順序卻對預(yù)測一致性十分重要，只有當(dāng)預(yù)測熱圖內(nèi)各值的相對順序和標(biāo)注熱圖相同，才能通過公式(2)得到一致的結(jié)果。使用MSE的目的是為了縮小預(yù)測和目標(biāo)間的絕對差值，由此導(dǎo)致的與公式(2)的不匹配現(xiàn)象，產(chǎn)生了不一致問題。

針對該問題，圖像處理領(lǐng)域提出了結(jié)構(gòu)相似性指標(biāo)SSIM[18]，在MSE相同的情況下，通過提高圖片的結(jié)構(gòu)相似性使人眼視覺效果得到改善。在人體姿態(tài)估計(jì)任務(wù)中，標(biāo)注熱圖由關(guān)鍵點(diǎn)部位施加的高斯斑產(chǎn)生，每張64′64大小的標(biāo)注熱圖僅在高斯斑的生成部分有值存在，所以，標(biāo)注熱圖不僅缺少豐富的邊緣紋理信息，還非常的稀疏，使用SSIM并不合適，若增大高斯斑的范圍使紋理更明顯則又會(huì)導(dǎo)致關(guān)鍵點(diǎn)的定位不準(zhǔn)確。

因此MSE仍為當(dāng)前最廣泛使用的損失函數(shù)之一，針對存在的問題，本文提出了非對稱均方誤差(AMSE)進(jìn)行改善。

2.3非對稱均方誤差

因?yàn)閳D2內(nèi)各熱圖MSE值相同，所以MSE無法區(qū)分各熱圖的不同，但是各預(yù)測熱圖卻會(huì)有不同的預(yù)測結(jié)果。由圖2(a)，圖2(b)可知，當(dāng)預(yù)測熱圖各值均大于或小于標(biāo)注熱圖的值時(shí)，預(yù)測效果最好，因此，迫使模型輸出類似于圖2(a)，圖2(b)的值，可能使模型的效果得到提升。通過將模型輸出值的平方加在原始MSE損失函數(shù)上，能引導(dǎo)模型輸出類似于圖2(b)的更小的預(yù)測值，公式定義如下：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉3514.png (5)

式中M=J′W′H，Gj?RW′H，Sj?RW′H，Gj和Sj分別表示第j個(gè)關(guān)鍵點(diǎn)的標(biāo)注熱圖和預(yù)測熱圖。當(dāng) 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉3575.png =0.01時(shí)，該損失函數(shù)稱為正則化均方誤差(RMSE)，RMSE通過對預(yù)測熱圖添加L2懲罰的方式，對預(yù)測熱圖中較大的值進(jìn)行懲罰。但是由于平方項(xiàng)的存在，即使預(yù)測值與目標(biāo)值相同，也無法使損失函數(shù)等于0，并始終對預(yù)測值進(jìn)行懲罰。RMSE在目標(biāo)值為1，0.5，0.25的曲線圖如圖3所示，圖中RMSE的取得最小值的點(diǎn)并不等于目標(biāo)值，這會(huì)導(dǎo)致較差的預(yù)測結(jié)果，然而，RMSE通過對較大預(yù)測值增加懲罰項(xiàng)的方法的確使模型偏向輸出較小的值，這對預(yù)測表現(xiàn)是有利的。

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉3799.png

圖3RMSE預(yù)測曲線圖

如果損失函數(shù)不僅能在到達(dá)目標(biāo)值時(shí)降至最小，還能對較大的預(yù)測值施加更多的懲罰，那么該損失函數(shù)就能更好的引導(dǎo)模型偏向輸出較小的值并避免了RMSE的缺陷。出于此目的，我們提出非對稱性均方誤差(AMSE)，其定義如下：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉3978.png (6)

式中Wj是由模型生成的常數(shù)項(xiàng)矩陣并當(dāng)做常數(shù)進(jìn)行反向傳播，使用Wj的目的是為了使AMSE在等于目標(biāo)值時(shí)最小。當(dāng)Wj等于 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉4044.png 時(shí)，公式(6)為以下形式：

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉4080.png (7)

雖然公式(7)和MSE相同，在預(yù)測值等于目標(biāo)值時(shí)達(dá)到最小，但是它卻能對較大預(yù)測的輸出值進(jìn)行懲罰，因此Wj等于 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉4142.png 是一個(gè)可行的選項(xiàng)，AMSE在目標(biāo)值為1，0.5，0.25的曲線圖如圖4所示。

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉4182.png

圖4AMSE預(yù)測曲線圖

由圖4可知，AMSE預(yù)測曲具有線非對稱性，并在預(yù)測值等于目標(biāo)值時(shí)取最小值。實(shí)驗(yàn)表明，Wj并不需要等于 20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉4280.png ，不同形式的Wj也同樣有效。

3.實(shí)驗(yàn)與分析

3.1實(shí)驗(yàn)數(shù)據(jù)與模型

本實(shí)驗(yàn)將在COCO關(guān)鍵點(diǎn)挑戰(zhàn)數(shù)據(jù)集上進(jìn)行[19]，對不受控環(huán)境下的多人人體關(guān)鍵點(diǎn)坐標(biāo)進(jìn)行預(yù)測，該數(shù)據(jù)集有超過20萬張圖片和25萬個(gè)標(biāo)注人體實(shí)例，其中有15萬的實(shí)例已公開可作為驗(yàn)證集和訓(xùn)練集。與文獻(xiàn)[10]相同，實(shí)驗(yàn)只通過COCOtrain2017數(shù)據(jù)集進(jìn)行訓(xùn)練并不使用額外數(shù)據(jù)，測試實(shí)驗(yàn)將在val2017數(shù)據(jù)集上進(jìn)行。實(shí)驗(yàn)完成后，通過目標(biāo)關(guān)鍵點(diǎn)相似度(OKS)進(jìn)行度量，與目標(biāo)檢測指標(biāo)IoU的作用相似，通過人體尺度標(biāo)準(zhǔn)化后的預(yù)測點(diǎn)和目標(biāo)點(diǎn)的距離，將用于計(jì)算OKS。

雖然當(dāng)前神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)和實(shí)驗(yàn)的復(fù)雜性不斷增加，但SBN作為當(dāng)前最好的人體姿態(tài)估計(jì)方法之一卻簡單有效，因此擬采用SBN作為實(shí)驗(yàn)基準(zhǔn)進(jìn)行AMSE效果驗(yàn)證。ResNet作為圖片特征提取的常用骨干網(wǎng)絡(luò)之一，SBN只需在ResNet的最后一層添加若干反卷積層。與SBN相同，我們將在ResNet最后一層添加三層反卷積層并使用批歸一化和ReLU激活函數(shù)，反卷積層有256個(gè)4′4濾波器并將步幅設(shè)為2，最后通過1′1卷積調(diào)整輸出通道，即可得到預(yù)測熱圖，標(biāo)注熱圖由添加在關(guān)鍵點(diǎn)位置的2D高斯斑產(chǎn)生。

3.2模型訓(xùn)練與測試

實(shí)驗(yàn)骨干模型ResNet的初始化由ImageNet分類任務(wù)上

的預(yù)訓(xùn)練完成，訓(xùn)練時(shí)，標(biāo)注人體邊框?qū)⒈绘i定至一定比例，通過改變邊框長度將比例固定為4比3，最后從圖片中裁剪下固定比例的標(biāo)注邊框并縮放至和SBN實(shí)驗(yàn)相同的256′192分辨率以進(jìn)行對比。實(shí)驗(yàn)數(shù)據(jù)增強(qiáng)包括圖片翻轉(zhuǎn)、30%的圖片尺度變換和40°的圖片旋轉(zhuǎn)，模型訓(xùn)練使用4塊GPU并訓(xùn)練140代，訓(xùn)練學(xué)習(xí)率設(shè)為0.001并在90代和120代降低至0.0001和0.00001，批訓(xùn)練大小設(shè)為128，優(yōu)化器為Adam[20]，ResNet-50和ResNet-101的模型實(shí)驗(yàn)均由Pytorch完成，除特別聲明，使用ResNet-50為默認(rèn)骨干模型。

與文獻(xiàn)[10,11]相似，實(shí)驗(yàn)采用兩階段式并使用預(yù)訓(xùn)練mask-RCNN做第一階段的單人人體框架檢測[21]，檢測器在COCOval2017上的準(zhǔn)確率為56.4mAP。與常規(guī)方法相同[22]，對原始和翻轉(zhuǎn)圖像的預(yù)測熱圖求平均后，即可用于關(guān)鍵點(diǎn)位置的預(yù)測，通過對最高響應(yīng)到次高響應(yīng)的方向上施加四分之一的偏移量，即可得到最終的關(guān)鍵點(diǎn)位置。

3.3實(shí)驗(yàn)結(jié)果與分析

不同超參數(shù)的實(shí)驗(yàn)結(jié)果如表1所示，當(dāng)β=0，AMSE退化成MSE，該結(jié)果可作為比較的基準(zhǔn)結(jié)果。當(dāng)β=0.01時(shí)，實(shí)驗(yàn)結(jié)果高于基準(zhǔn)結(jié)果0.6個(gè)點(diǎn)達(dá)到73.0AP。實(shí)驗(yàn)同時(shí)表明，AMSE對超參數(shù)β的選值并不敏感，當(dāng)取值范圍為0.01到0.1之間時(shí)，都可取得較好的結(jié)果，如未特別聲明，設(shè)β=0.01為實(shí)驗(yàn)?zāi)J(rèn)值。

AMSE和MSE在不同骨干網(wǎng)絡(luò)下的比較如表2所示，gt-box表示是否使用標(biāo)注框架，AMSE在不同骨干網(wǎng)絡(luò)下，不論是否使用標(biāo)注框架，均能取得優(yōu)于MSE的測試結(jié)果，此外，若測試時(shí)使用標(biāo)注框架，AMSE在使用ResNet-101作為骨干網(wǎng)絡(luò)的情況下可使實(shí)驗(yàn)結(jié)果提升更多。結(jié)果表明，AMSE能更有效的激發(fā)模型的性能。相較于MSE，當(dāng)骨干網(wǎng)絡(luò)為ResNet-50時(shí)，在使用標(biāo)注框架和不使用標(biāo)注框架的情況下，AMSE分別能使實(shí)驗(yàn)結(jié)果提升0.6和0.2個(gè)點(diǎn)，該結(jié)果表明，在提供準(zhǔn)確的標(biāo)注框架的情況下測試AMSE，能使實(shí)驗(yàn)效果提升更多。

表3分別將本方法和Hourglass、CPN、SBN進(jìn)行對比。SBN的人體框架檢測器AP為56.4與本方法相同，CPN和Hourglass的人體框架檢測器AP為55.3，OHKM表示是否使用難例挖掘[23]。本實(shí)驗(yàn)的SBN效果與公開代碼效果一致，因此可直接與SBN論文中列出的結(jié)果相比較。表3可知，雖然SBN實(shí)驗(yàn)結(jié)果優(yōu)于Hourglass和CPN，但是AMSE仍然能使最終結(jié)果提高0.2和0.4個(gè)點(diǎn)，而使用AMSE作為損失函數(shù)的代價(jià)僅為訓(xùn)練時(shí)增加的少許計(jì)算量。AMSE在當(dāng)前最好的輕量級(jí)方法SBN上取得了較好的效果，該方法也應(yīng)適用于其他效果一般的人體姿態(tài)估計(jì)方法，預(yù)測圖示例如圖5所示。

20190424 基于非對稱均方誤差的人體姿態(tài)估計(jì)方法柳偉6021.png

圖5預(yù)測熱圖示例

表1不同超參數(shù)的實(shí)驗(yàn)結(jié)果

0.1.jpg

表2不同骨干下的實(shí)驗(yàn)結(jié)果

0.2.jpg

表3不同模型下的實(shí)驗(yàn)結(jié)果

0.3.jpg

4.結(jié)論

本論文介紹了人體姿態(tài)估計(jì)任務(wù)中，在計(jì)算預(yù)測熱圖與標(biāo)注熱圖間的MSE值時(shí)所存在的不一致問題，并針對該問題進(jìn)行了詳細(xì)的分析。為了解決該問題，本文提出了一種新型有效的非對稱均方誤差(AMSE)損失函數(shù)，在MSE的基礎(chǔ)上對預(yù)測熱圖添加懲罰項(xiàng)，進(jìn)而解決了該問題。在COCOval2017數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明，使用標(biāo)注框架數(shù)據(jù)進(jìn)行模型測試能使AMSM的最終效果提高0.5個(gè)點(diǎn)左右。雖然本方法提出于人體姿態(tài)估計(jì)任務(wù)當(dāng)中，但是也應(yīng)同樣適用于任何使用MSE作為損失函數(shù)且對相對值的順序敏感的任務(wù)當(dāng)中。

參考文獻(xiàn)（References）：

0.4.jpg

0.5.jpg

標(biāo)簽：

分享到：

上一篇：機(jī)器視覺光源知識(shí)總結(jié)

下一篇：基于對抗樣本的數(shù)據(jù)擴(kuò)充在魯...

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊