技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 首個基于森林的自編碼器,性能優(yōu)于DNN

首個基于森林的自編碼器,性能優(yōu)于DNN

時間:2018-07-11 16:33:18來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:?現(xiàn)在,在深度森林的基礎(chǔ)上,他們又提出了基于決策樹集成方法的自編碼器(auto-encoder)eForest。實(shí)驗(yàn)結(jié)果表明,eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。

或許你還記得南大LAMDA教授周志華和學(xué)生馮霽在今年早些時候發(fā)表的“深度森林”論文,他們認(rèn)為基于決策樹集成的方法同樣可以構(gòu)建深度學(xué)習(xí)模型,并提出深度森林gcForst,對神經(jīng)網(wǎng)絡(luò)以外的深度模型進(jìn)行了探索?,F(xiàn)在,在深度森林的基礎(chǔ)上,他們又提出了基于決策樹集成方法的自編碼器(auto-encoder)eForest。實(shí)驗(yàn)結(jié)果表明,eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。

自編碼是一項(xiàng)重要的任務(wù),通常由卷積神經(jīng)網(wǎng)絡(luò)(CNN)等深度神經(jīng)網(wǎng)絡(luò)(DNN)實(shí)現(xiàn)。本文中,我們提出了EncoderForest(簡寫為eForest),這是第一個基于樹集成的自編碼器。我們提出了一種方法,讓森林能夠利用樹的決策路徑所定義的等效類來進(jìn)行后向重建,并在監(jiān)督和無監(jiān)督環(huán)境中展示了其使用情況。實(shí)驗(yàn)結(jié)果表明,與DNN自編碼器相比,eForest能夠以較快的訓(xùn)練速度獲得更低的重建誤差,同時模型本身具有可重用性和容損性。

如果上面這段話看上去似曾相識,比如關(guān)鍵詞“基于樹的”、“eForest”,還有“相比DNN,基于樹的方法更加……”的表述,你沒有弄錯,南大LAMDA教授周志華和他的學(xué)生馮霽又出手了。

今年早些時候,他們兩人的論文《深度森林:探索深度神經(jīng)網(wǎng)絡(luò)以外的方法》,在業(yè)界引發(fā)了不小的反響。在那篇論文中,周志華和馮霽提出了一種基于樹的方法gcForest——“multi-GrainedCascadeforest”,多粒度級聯(lián)森林——通過一種全新的決策樹集成方法,使用級聯(lián)結(jié)構(gòu),讓gcForest做表征學(xué)習(xí)。實(shí)驗(yàn)中,gcForest使用相同的參數(shù)設(shè)置,在不同的域中都獲得了優(yōu)異的性能,在大型和小型數(shù)據(jù)集上表現(xiàn)都很好。此外,由于是基于樹的結(jié)構(gòu),gcForest相比神經(jīng)網(wǎng)絡(luò)也更容易分析。

在gcForest論文中,作者寫道:“我們認(rèn)為,要解決復(fù)雜的問題,學(xué)習(xí)模型也需要往深了去。然而,當(dāng)前的深度模型全部都是神經(jīng)網(wǎng)絡(luò)。這篇論文展示了如何構(gòu)建深度森林(deepforest),為在許多任務(wù)中使用深度神經(jīng)網(wǎng)絡(luò)以外的方法打開了一扇門。”

現(xiàn)在,他們在gcForest的基礎(chǔ)上,繼續(xù)探索DNN以外的方法,這次瞄準(zhǔn)的是自編碼器。

繼續(xù)探索神經(jīng)網(wǎng)絡(luò)以外的方法,這次瞄準(zhǔn)自編碼器

在最新論文《用決策樹做自編碼器》(AutoEncoderbyForest)中,周志華和馮霽提出了EncoderForest,也即“eForest”,讓一個決策樹集成在監(jiān)督和無監(jiān)督的環(huán)境中執(zhí)行前向和后向編碼運(yùn)算,實(shí)驗(yàn)結(jié)果表明,eForest方法具有以下優(yōu)點(diǎn):

準(zhǔn)確:實(shí)驗(yàn)重建誤差低于基于MLP或CNN的自編碼器

高效:在單個KNL(多核CPU)上的訓(xùn)練eForest的速度,比在Titan-XGPU上訓(xùn)練CNN自編碼器速度更快

容損:訓(xùn)練好的模型在部分受損的情況下仍然運(yùn)行良好

可復(fù)用:在一個數(shù)據(jù)集上訓(xùn)練好的模型能夠直接應(yīng)用于同領(lǐng)域另外一個數(shù)據(jù)集

下面是小編對最新論文的編譯介紹,要查看完整的論文,請參見文末地址。

首個基于樹集成的自編碼器模型eForest

這一次,我們先從結(jié)論看起,再回過頭看eForest模型的提出和實(shí)驗(yàn)結(jié)果。在結(jié)論部分,作者寫道,

在本文中,我們提出了首個基于樹集成的自編碼器模型EncoderForest(縮寫eForest),我們設(shè)計(jì)了一種有效的方法,使森林能夠利用由樹的決策路徑所定義的最大相容規(guī)則(MCR)來重構(gòu)原始模式。實(shí)驗(yàn)證明,eForest在精度和速度方面表現(xiàn)良好,而且具有容損和模型可復(fù)用的能力。尤其是在文本數(shù)據(jù)上,僅使用10%的輸入比特,模型仍然能夠以很高的精度重建原始數(shù)據(jù)。

eForest的另一個優(yōu)點(diǎn)在于,它可以直接用于符號屬性或混合屬性的數(shù)據(jù),不會將符號屬性轉(zhuǎn)換為數(shù)字屬性,在轉(zhuǎn)換過程通常會丟失信息或引入額外偏差的情況下,這一點(diǎn)就顯得尤為重要。

需要注意,監(jiān)督eForest和無監(jiān)督的eForest實(shí)際上是由多粒度級聯(lián)森林gcForst構(gòu)建的深度森林在每一級同時使用的兩個成分。因此,這項(xiàng)工作也可能加深對gcForst的理解。構(gòu)建深度eForest模型也是未來值得研究的有趣問題。

方法提出:一種可能是最簡單的森林后向重建策略

自編碼器有兩大基本功能:編碼和解碼。編碼對于森林來說很容易,因?yàn)閱问侨~節(jié)點(diǎn)信息就可以被視為一種編碼方式,而節(jié)點(diǎn)的子集甚至分支路徑都可能為編碼提供更多信息。

編碼過程

首先,我們提出EncoderForest的編碼過程。給定一個含有T顆樹的訓(xùn)練好的樹集成模型,前向編碼過程接收輸入數(shù)據(jù)后,將該數(shù)據(jù)發(fā)送到集成中的樹的每個根節(jié)點(diǎn),當(dāng)數(shù)據(jù)遍歷所有樹的葉節(jié)點(diǎn)后,該過程將返回一個T維向量,其中每個元素t是樹t中葉節(jié)點(diǎn)的整數(shù)索引。

Algorithm1展示了一種更具體的前向編碼算法。注意該編碼過程與如何分割樹節(jié)點(diǎn)的特定學(xué)習(xí)規(guī)則是彼此獨(dú)立的。例如,可以在隨機(jī)森林的監(jiān)督環(huán)境中學(xué)習(xí)決策規(guī)則,也可以在無監(jiān)督的環(huán)境(例如完全隨機(jī)樹)中學(xué)習(xí)。

解碼過程

至于解碼過程,則不那么明顯。事實(shí)上,森林通常用于從每棵樹根到葉子的前向預(yù)測,如何進(jìn)行向后重建,也即從葉子獲得的信息中推演原始樣本的過程并不清晰。

在這里,我們提出了一種有效并且簡單(很可能是最簡單的)策略,用于森林的后向重建。首先,每個葉節(jié)點(diǎn)實(shí)際上對應(yīng)于來自根的一條路徑,我們可以基于葉節(jié)點(diǎn)確定這個路徑,例如下圖中紅色高亮的路徑。

其次,每條路徑對應(yīng)一個符號規(guī)則,上圖中高亮的路徑可以對應(yīng)以下規(guī)則集,其中RULEi對應(yīng)森林中第i顆樹的路徑,符號“:”表示否定判斷:

然后,我們可以推導(dǎo)出最大相容規(guī)則(MCR)。從上面的規(guī)則集中可以得到這樣的MCR:

這個MCR的每個組成部分覆蓋范圍都不能擴(kuò)大,否則就會與其他條件沖突。因此,原始樣本不得超出MCR定義的輸入?yún)^(qū)域。Algorithm2對這一規(guī)則給出了更詳細(xì)的描述。

獲得了MCR后,就可以對原始樣本進(jìn)行重建。具體說,給定一個訓(xùn)練好的含有T棵樹的森林,以及一個有中前向編碼的特定數(shù)據(jù),后向解碼將首先通過中的每個元素定位單個葉節(jié)點(diǎn),然后根據(jù)對應(yīng)的決策路徑獲得相應(yīng)的T個決策規(guī)則。通過計(jì)算MCR,我們可以將返回給輸入?yún)^(qū)域中的。Algorithm3給出了具體的算法。

通過前向編碼和后向編碼運(yùn)算,eForest就能實(shí)現(xiàn)自編碼任務(wù)。

此外,eForest模型還可能給出一些關(guān)于決策樹集成模型表征學(xué)習(xí)能力的理論洞察,有助于設(shè)計(jì)新的深度森林模型。

實(shí)驗(yàn)結(jié)果

作者在監(jiān)督和無監(jiān)督條件下評估了eForest的性能。其中,下標(biāo)500和1000分別表示含有500顆和1000顆樹的森林,上標(biāo)s和u分別表示監(jiān)督和無監(jiān)督。在這里eForestN將輸入實(shí)例重新表示為N維向量。

相比基于DNN的自編碼器,eForest在圖像重建、計(jì)算效率、模型可復(fù)用以及容損性實(shí)驗(yàn)中表現(xiàn)都更好,而且無監(jiān)督eForest表現(xiàn)有時候比監(jiān)督eForest更好。此外,eForest還能用于文本類型數(shù)據(jù)。

圖像重建

文本重建

由于基于CNN和MLP的自編碼器無法用于文本類型數(shù)據(jù),這里只比較了eForest的性能。也展示了eForest可以用于文本數(shù)據(jù)。

計(jì)算效率

容損性

模型可復(fù)用

論文地址:https://arxiv.org/pdf/1709.09018.pdf

標(biāo)簽:

點(diǎn)贊

分享到:

上一篇:工業(yè)以太網(wǎng)三部曲

下一篇:FF157減速機(jī)電機(jī)轉(zhuǎn)速和扭矩計(jì)...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號