您現(xiàn)在的位置：中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 首個基于森林的自編碼器，性能優(yōu)于DNN

首個基于森林的自編碼器，性能優(yōu)于DNN

時間：2018-07-11 16:33:18來源：網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語：?現(xiàn)在，在深度森林的基礎(chǔ)上，他們又提出了基于決策樹集成方法的自編碼器（auto-encoder)eForest。實(shí)驗(yàn)結(jié)果表明，eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。

或許你還記得南大LAMDA教授周志華和學(xué)生馮霽在今年早些時候發(fā)表的“深度森林”論文，他們認(rèn)為基于決策樹集成的方法同樣可以構(gòu)建深度學(xué)習(xí)模型，并提出深度森林gcForst，對神經(jīng)網(wǎng)絡(luò)以外的深度模型進(jìn)行了探索?，F(xiàn)在，在深度森林的基礎(chǔ)上，他們又提出了基于決策樹集成方法的自編碼器（auto-encoder)eForest。實(shí)驗(yàn)結(jié)果表明，eForest在速度和精度等方面均優(yōu)于基于DNN的自編碼器。

自編碼是一項(xiàng)重要的任務(wù)，通常由卷積神經(jīng)網(wǎng)絡(luò)（CNN）等深度神經(jīng)網(wǎng)絡(luò)（DNN）實(shí)現(xiàn)。本文中，我們提出了EncoderForest（簡寫為eForest），這是第一個基于樹集成的自編碼器。我們提出了一種方法，讓森林能夠利用樹的決策路徑所定義的等效類來進(jìn)行后向重建，并在監(jiān)督和無監(jiān)督環(huán)境中展示了其使用情況。實(shí)驗(yàn)結(jié)果表明，與DNN自編碼器相比，eForest能夠以較快的訓(xùn)練速度獲得更低的重建誤差，同時模型本身具有可重用性和容損性。

如果上面這段話看上去似曾相識，比如關(guān)鍵詞“基于樹的”、“eForest”，還有“相比DNN，基于樹的方法更加……”的表述，你沒有弄錯，南大LAMDA教授周志華和他的學(xué)生馮霽又出手了。

今年早些時候，他們兩人的論文《深度森林：探索深度神經(jīng)網(wǎng)絡(luò)以外的方法》，在業(yè)界引發(fā)了不小的反響。在那篇論文中，周志華和馮霽提出了一種基于樹的方法gcForest——“multi-GrainedCascadeforest”，多粒度級聯(lián)森林——通過一種全新的決策樹集成方法，使用級聯(lián)結(jié)構(gòu)，讓gcForest做表征學(xué)習(xí)。實(shí)驗(yàn)中，gcForest使用相同的參數(shù)設(shè)置，在不同的域中都獲得了優(yōu)異的性能，在大型和小型數(shù)據(jù)集上表現(xiàn)都很好。此外，由于是基于樹的結(jié)構(gòu)，gcForest相比神經(jīng)網(wǎng)絡(luò)也更容易分析。

在gcForest論文中，作者寫道：“我們認(rèn)為，要解決復(fù)雜的問題，學(xué)習(xí)模型也需要往深了去。然而，當(dāng)前的深度模型全部都是神經(jīng)網(wǎng)絡(luò)。這篇論文展示了如何構(gòu)建深度森林（deepforest），為在許多任務(wù)中使用深度神經(jīng)網(wǎng)絡(luò)以外的方法打開了一扇門。”

現(xiàn)在，他們在gcForest的基礎(chǔ)上，繼續(xù)探索DNN以外的方法，這次瞄準(zhǔn)的是自編碼器。

繼續(xù)探索神經(jīng)網(wǎng)絡(luò)以外的方法，這次瞄準(zhǔn)自編碼器

在最新論文《用決策樹做自編碼器》（AutoEncoderbyForest）中，周志華和馮霽提出了EncoderForest，也即“eForest”，讓一個決策樹集成在監(jiān)督和無監(jiān)督的環(huán)境中執(zhí)行前向和后向編碼運(yùn)算，實(shí)驗(yàn)結(jié)果表明，eForest方法具有以下優(yōu)點(diǎn)：

準(zhǔn)確：實(shí)驗(yàn)重建誤差低于基于MLP或CNN的自編碼器

高效：在單個KNL（多核CPU）上的訓(xùn)練eForest的速度，比在Titan-XGPU上訓(xùn)練CNN自編碼器速度更快

容損：訓(xùn)練好的模型在部分受損的情況下仍然運(yùn)行良好

可復(fù)用：在一個數(shù)據(jù)集上訓(xùn)練好的模型能夠直接應(yīng)用于同領(lǐng)域另外一個數(shù)據(jù)集

下面是小編對最新論文的編譯介紹，要查看完整的論文，請參見文末地址。

首個基于樹集成的自編碼器模型eForest

這一次，我們先從結(jié)論看起，再回過頭看eForest模型的提出和實(shí)驗(yàn)結(jié)果。在結(jié)論部分，作者寫道，

在本文中，我們提出了首個基于樹集成的自編碼器模型EncoderForest（縮寫eForest），我們設(shè)計(jì)了一種有效的方法，使森林能夠利用由樹的決策路徑所定義的最大相容規(guī)則（MCR）來重構(gòu)原始模式。實(shí)驗(yàn)證明，eForest在精度和速度方面表現(xiàn)良好，而且具有容損和模型可復(fù)用的能力。尤其是在文本數(shù)據(jù)上，僅使用10％的輸入比特，模型仍然能夠以很高的精度重建原始數(shù)據(jù)。

eForest的另一個優(yōu)點(diǎn)在于，它可以直接用于符號屬性或混合屬性的數(shù)據(jù)，不會將符號屬性轉(zhuǎn)換為數(shù)字屬性，在轉(zhuǎn)換過程通常會丟失信息或引入額外偏差的情況下，這一點(diǎn)就顯得尤為重要。

需要注意，監(jiān)督eForest和無監(jiān)督的eForest實(shí)際上是由多粒度級聯(lián)森林gcForst構(gòu)建的深度森林在每一級同時使用的兩個成分。因此，這項(xiàng)工作也可能加深對gcForst的理解。構(gòu)建深度eForest模型也是未來值得研究的有趣問題。

方法提出：一種可能是最簡單的森林后向重建策略

自編碼器有兩大基本功能：編碼和解碼。編碼對于森林來說很容易，因?yàn)閱问侨~節(jié)點(diǎn)信息就可以被視為一種編碼方式，而節(jié)點(diǎn)的子集甚至分支路徑都可能為編碼提供更多信息。

編碼過程

首先，我們提出EncoderForest的編碼過程。給定一個含有T顆樹的訓(xùn)練好的樹集成模型，前向編碼過程接收輸入數(shù)據(jù)后，將該數(shù)據(jù)發(fā)送到集成中的樹的每個根節(jié)點(diǎn)，當(dāng)數(shù)據(jù)遍歷所有樹的葉節(jié)點(diǎn)后，該過程將返回一個T維向量，其中每個元素t是樹t中葉節(jié)點(diǎn)的整數(shù)索引。

Algorithm1展示了一種更具體的前向編碼算法。注意該編碼過程與如何分割樹節(jié)點(diǎn)的特定學(xué)習(xí)規(guī)則是彼此獨(dú)立的。例如，可以在隨機(jī)森林的監(jiān)督環(huán)境中學(xué)習(xí)決策規(guī)則，也可以在無監(jiān)督的環(huán)境（例如完全隨機(jī)樹）中學(xué)習(xí)。

解碼過程

至于解碼過程，則不那么明顯。事實(shí)上，森林通常用于從每棵樹根到葉子的前向預(yù)測，如何進(jìn)行向后重建，也即從葉子獲得的信息中推演原始樣本的過程并不清晰。

在這里，我們提出了一種有效并且簡單（很可能是最簡單的）策略，用于森林的后向重建。首先，每個葉節(jié)點(diǎn)實(shí)際上對應(yīng)于來自根的一條路徑，我們可以基于葉節(jié)點(diǎn)確定這個路徑，例如下圖中紅色高亮的路徑。

其次，每條路徑對應(yīng)一個符號規(guī)則，上圖中高亮的路徑可以對應(yīng)以下規(guī)則集，其中RULEi對應(yīng)森林中第i顆樹的路徑，符號“:”表示否定判斷：

然后，我們可以推導(dǎo)出最大相容規(guī)則（MCR）。從上面的規(guī)則集中可以得到這樣的MCR：

這個MCR的每個組成部分覆蓋范圍都不能擴(kuò)大，否則就會與其他條件沖突。因此，原始樣本不得超出MCR定義的輸入?yún)^(qū)域。Algorithm2對這一規(guī)則給出了更詳細(xì)的描述。

獲得了MCR后，就可以對原始樣本進(jìn)行重建。具體說，給定一個訓(xùn)練好的含有T棵樹的森林，以及一個有中前向編碼的特定數(shù)據(jù)，后向解碼將首先通過中的每個元素定位單個葉節(jié)點(diǎn)，然后根據(jù)對應(yīng)的決策路徑獲得相應(yīng)的T個決策規(guī)則。通過計(jì)算MCR，我們可以將返回給輸入?yún)^(qū)域中的。Algorithm3給出了具體的算法。

通過前向編碼和后向編碼運(yùn)算，eForest就能實(shí)現(xiàn)自編碼任務(wù)。

此外，eForest模型還可能給出一些關(guān)于決策樹集成模型表征學(xué)習(xí)能力的理論洞察，有助于設(shè)計(jì)新的深度森林模型。

實(shí)驗(yàn)結(jié)果

作者在監(jiān)督和無監(jiān)督條件下評估了eForest的性能。其中，下標(biāo)500和1000分別表示含有500顆和1000顆樹的森林，上標(biāo)s和u分別表示監(jiān)督和無監(jiān)督。在這里eForestN將輸入實(shí)例重新表示為N維向量。

相比基于DNN的自編碼器，eForest在圖像重建、計(jì)算效率、模型可復(fù)用以及容損性實(shí)驗(yàn)中表現(xiàn)都更好，而且無監(jiān)督eForest表現(xiàn)有時候比監(jiān)督eForest更好。此外，eForest還能用于文本類型數(shù)據(jù)。

圖像重建

文本重建

由于基于CNN和MLP的自編碼器無法用于文本類型數(shù)據(jù)，這里只比較了eForest的性能。也展示了eForest可以用于文本數(shù)據(jù)。

計(jì)算效率

容損性

模型可復(fù)用

論文地址：https://arxiv.org/pdf/1709.09018.pdf

標(biāo)簽：

分享到：

上一篇：工業(yè)以太網(wǎng)三部曲

下一篇：FF157減速機(jī)電機(jī)轉(zhuǎn)速和扭矩計(jì)...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負(fù)版權(quán)法律責(zé)任。

相關(guān)資訊

技術(shù)熱點(diǎn)