技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 推薦系統(tǒng)中的EE問題及解決問題的基本Bandit算法詳細(xì)概述

推薦系統(tǒng)中的EE問題及解決問題的基本Bandit算法詳細(xì)概述

時間:2018-10-15 11:00:39來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:?ExplorationandExploitation(EE問題,探索與開發(fā))是計算廣告和推薦系統(tǒng)里常見的一個問題,為什么會有EE問題?簡單來說,是為了平衡推薦系統(tǒng)的準(zhǔn)確性和多樣性。

1、推薦系統(tǒng)中的EE問題

ExplorationandExploitation(EE問題,探索與開發(fā))是計算廣告和推薦系統(tǒng)里常見的一個問題,為什么會有EE問題?簡單來說,是為了平衡推薦系統(tǒng)的準(zhǔn)確性和多樣性。

EE問題中的Exploitation就是:對用戶比較確定的興趣,當(dāng)然要利用開采迎合,好比說已經(jīng)掙到的錢,當(dāng)然要花;而exploration就是:光對著用戶已知的興趣使用,用戶很快會膩,所以要不斷探索用戶新的興趣才行,這就好比雖然有一點錢可以花了,但是還得繼續(xù)搬磚掙錢,不然花完了就得喝西北風(fēng)。

2、Bandit算法

Bandit算法是解決EE問題的一種有效算法,我們先來了解一下Bandit算法的起源。Bandit算法來源于歷史悠久的賭博學(xué),它要解決的問題是這樣的:

一個賭徒,要去搖老虎機,走進(jìn)賭場一看,一排老虎機,外表一模一樣,但是每個老虎機吐錢的概率可不一樣,他不知道每個老虎機吐錢的概率分布是什么,那么每次該選擇哪個老虎機可以做到最大化收益呢?這就是多臂賭博機問題(Multi-armedbanditproblem,K-armedbanditproblem,MAB)。

怎么解決這個問題呢?最好的辦法是去試一試,不是盲目地試,而是有策略地快速試一試,這些策略就是Bandit算法。

Bandit算法如何同推薦系統(tǒng)中的EE問題聯(lián)系起來呢?假設(shè)我們已經(jīng)經(jīng)過一些試驗,得到了當(dāng)前每個老虎機的吐錢的概率,如果想要獲得最大的收益,我們會一直搖哪個吐錢概率最高的老虎機,這就是Exploitation。但是,當(dāng)前獲得的信息并不是老虎機吐錢的真實概率,可能還有更好的老虎機吐錢概率更高,因此還需要進(jìn)一步探索,這就是Exploration問題。

下面,我們就來看一下一些經(jīng)典的Bandit算法實現(xiàn)吧,不過我們還需要補充一些基礎(chǔ)知識。

3、基礎(chǔ)知識

3.1累積遺憾

Bandit算法需要量化一個核心問題:錯誤的選擇到底有多大的遺憾?能不能遺憾少一些?所以我們便有了衡量Bandit算法的一個指標(biāo):累積遺憾:

這里t表示輪數(shù),r表示回報。公式右邊的第一項表示第t輪的期望最大收益,而右邊的第二項表示當(dāng)前選擇的arm獲取的收益,把每次差距累加起來就是總的遺憾。

對應(yīng)同樣的問題,采用不同bandit算法來進(jìn)行實驗相同的次數(shù),那么看哪個算法的總regret增長最慢,那么哪個算法的效果就是比較好的。

3.2Beta分布

有關(guān)Beta分布,可以參考帖子:https://www.zhihu.com/question/30269898。這里只做一個簡單的介紹。beta分布可以看作一個概率的概率分布。它是對二項分布中成功概率p的概率分布的描述。它的形式如下:

其中,a和b分別代表在a+b次伯努利試驗中成功和失敗的次數(shù)。我們用下面的圖來說明一下Beta分布的含義:

上圖中一共有三條線,我們忽略中間的一條線,第一條線中a=81,b=219。也就是說在我們進(jìn)行了300次伯努利試驗中,成功81次,失敗219次的情況下,成功概率p的一個分布,可以看到,p的概率在0.27左右概率最大,但我們不能說成功的概率就是0.27,這也就是頻率派和貝葉斯派的區(qū)別,哈哈。此時,我們又做了300次試驗,此時在總共600次伯努利試驗中,成功了181次,失敗了419次,此時成功概率p的概率分布變味了藍(lán)色的線,在0.3左右概率最大。

4、經(jīng)典Bandit算法原理及實現(xiàn)

下文中的收益可以理解為老虎機吐錢的觀測概率。

4.1樸素Bandit算法

先隨機試若干次,計算每個臂的平均收益,一直選均值最大那個臂。

4.2Epsilon-Greedy算法

選一個(0,1)之間較小的數(shù)epsilon,每次以epsilon的概率在所有臂中隨機選一個。以1-epsilon的概率選擇截止當(dāng)前,平均收益最大的那個臂。根據(jù)選擇臂的回報值來對回報期望進(jìn)行更新。

這里epsilon的值可以控制對exploit和explore的偏好程度,每次決策以概率ε去勘探Exploration,1-ε的概率來開發(fā)Exploitation,基于選擇的item及回報,更新item的回報期望。

對于Epsilon-Greedy算法來首,能夠應(yīng)對變化,即如果item的回報發(fā)生變化,能及時改變策略,避免卡在次優(yōu)狀態(tài)。同時Epsilon的值可以控制對Exploit和Explore的偏好程度。越接近0,越保守,只想花錢不想掙錢。但是策略運行一段時間后,我們已經(jīng)對各item有了一定程度了解,但沒用利用這些信息,仍然不做任何區(qū)分地隨機Exploration,這是Epsilon-Greedy算法的缺點。

4.3Thompsonsampling算法

Thompsonsampling算法用到了Beta分布,該方法假設(shè)每個老虎機都有一個吐錢的概率p,同時該概率p的概率分布符合beta(wins,lose)分布,每個臂都維護(hù)一個beta分布的參數(shù),即wins,lose。每次試驗后,選中一個臂,搖一下,有收益則該臂的wins增加1,否則該臂的lose增加1。

每次選擇臂的方式是:用每個臂現(xiàn)有的beta分布產(chǎn)生一個隨機數(shù)b,選擇所有臂產(chǎn)生的隨機數(shù)中最大的那個臂去搖。

4.4UCB算法

前面提到了,Epsilon-Greedy算法在探索的時候,所有的老虎機都有同樣的概率被選中,這其實沒有充分利用歷史信息,比如每個老虎機之前探索的次數(shù),每個老虎機之前的探索中吐錢的頻率。

那我們怎么能夠充分利用歷史信息呢?首先,根據(jù)當(dāng)前老虎機已經(jīng)探索的次數(shù),以及吐錢的次數(shù),我們可以計算出當(dāng)前每個老虎機吐錢的觀測概率p'。同時,由于觀測次數(shù)有限,因此觀測概率和真實概率p之間總會有一定的差值?,即p'-?<=p<=p'+?。

基于上面的討論,我們得到了另一種常用的Bandit算法:UCB(UpperConfidenceBound)算法。該算法在每次推薦時,總是樂觀的認(rèn)為每個老虎機能夠得到的收益是p'+?。

好了,接下來的問題就是觀測概率和真實概率之間的差值?如何計算了,我們首先有兩個直觀的理解:1)對于選中的老虎機,多獲得一次反饋會使?變小,當(dāng)反饋無窮多時,?趨近于0,最終會小于其他沒有被選中的老虎機的?。2)對于沒有被選中的老虎機,?會隨著輪數(shù)的增大而增加,最終會大于其他被選中的老虎機。

因此,當(dāng)進(jìn)行了一定的輪數(shù)的時候,每個老虎機都有機會得到探索的機會。UCB算法中p'+?的計算公式如下:

其中加號前面是第j個老虎機到目前的收益均值,后面的叫做bonus,本質(zhì)上是均值的標(biāo)準(zhǔn)差,T是目前的試驗次數(shù),n是該老虎機被試次數(shù)。

為什么選擇上面形式的?呢,還得從Chernoff-HoeffdingBound說起:

因此(下面的截圖來自于知乎https://zhuanlan.zhihu.com/p/32356077):

5、代碼實現(xiàn)

接下來,我們來實現(xiàn)兩個基本的Bandit算法,UCB和Thompsonsampling算法。

5.1UCB算法

代碼中有詳細(xì)的注釋,所以我直接貼完整的代碼了:

importnumpyasnpT=1000#T輪試驗N=10#N個老虎機true_rewards=np.random.uniform(low=0,high=1,size=N)#每個老虎機真實的吐錢概率estimated_rewards=np.zeros(N)#每個老虎機吐錢的觀測概率,初始都為0chosen_count=np.zeros(N)#每個老虎機當(dāng)前已經(jīng)探索的次數(shù),初始都為0total_reward=0#計算deltadefcalculate_delta(T,item):ifchosen_count[item]==0:return1else:returnnp.sqrt(2*np.log(T)/chosen_count[item])#計算每個老虎機的p+delta,同時做出選擇defUCB(t,N):upper_bound_probs=[estimated_rewards[item]+calculate_delta(t,item)foriteminrange(N)]item=np.argmax(upper_bound_probs)reward=np.random.binomial(n=1,p=true_rewards[item])returnitem,rewardfortinrange(1,T):#依次進(jìn)行T次試驗#選擇一個老虎機,并得到是否吐錢的結(jié)果item,reward=UCB(t,N)total_reward+=reward#一共有多少客人接受了推薦#更新每個老虎機的吐錢概率estimated_rewards[item]=((t-1)*estimated_rewards[item]+reward)/tchosen_count[item]+=1

5.2Thompsonsampling算法

Thompsonsampling算法涉及到了beta分布,因此我們使用pymc庫來產(chǎn)生服從beta分布的隨機數(shù),只需要一行代碼就能在選擇合適的老虎機。

np.argmax(pymc.rbeta(1+successes,1+totals-successes))

標(biāo)簽:

點贊

分享到:

上一篇:微軟新的機器學(xué)習(xí)框架核心產(chǎn)...

下一篇:淺析交流接觸器運用IT7300交...

中國傳動網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡介|會員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動網(wǎng)-工業(yè)自動化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號 | 營業(yè)執(zhí)照證書 | 不良信息舉報中心 | 粵公網(wǎng)安備 44030402000946號