技術(shù)頻道

娓娓工業(yè)
您現(xiàn)在的位置: 中國傳動(dòng)網(wǎng) > 技術(shù)頻道 > 技術(shù)百科 > 人工智能系統(tǒng)如何識(shí)別重復(fù)數(shù)據(jù)?

人工智能系統(tǒng)如何識(shí)別重復(fù)數(shù)據(jù)?

時(shí)間:2021-05-17 14:38:22來源:中國傳動(dòng)網(wǎng)

導(dǎo)語:?對(duì)人工智能概念的討論,例如比較數(shù)據(jù)庫中的記錄,以及如何將這些技術(shù)與Salesforce結(jié)合使用。在本文中,我們將更仔細(xì)地研究數(shù)據(jù)科學(xué)家用來訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)以識(shí)別重復(fù)項(xiàng)的一些方法。

對(duì)人工智能概念的討論,例如比較數(shù)據(jù)庫中的記錄,以及如何將這些技術(shù)與Salesforce結(jié)合使用。

當(dāng)您同時(shí)比較兩個(gè)Salesforce記錄或任何其他CRM記錄時(shí),您可以很容易地確定它們是否重復(fù)。然而,即使你有少量的記錄,比如說不到10萬條,也幾乎不可能一個(gè)一個(gè)地篩選它們,并進(jìn)行這樣的比較。這就是為什么公司已經(jīng)開發(fā)了各種工具來自動(dòng)化這些過程,但是,為了做好工作,機(jī)器需要能夠識(shí)別記錄之間的所有相似性和差異性。在本文中,我們將更仔細(xì)地研究數(shù)據(jù)科學(xué)家用來訓(xùn)練機(jī)器學(xué)習(xí)系統(tǒng)以識(shí)別重復(fù)項(xiàng)的一些方法。

 人工智能

機(jī)器學(xué)習(xí)系統(tǒng)如何比較和對(duì)比記錄?

研究人員使用的主要工具之一是字符串度量。當(dāng)您獲取兩個(gè)數(shù)據(jù)字符串并返回一個(gè)值時(shí),如果字符串相似,則返回低值;如果字符串不同,則返回高值。這在實(shí)踐中是如何起作用的?

如果一個(gè)人看到這兩個(gè)記錄,很明顯這是重復(fù)的。然而,機(jī)器依靠字符串度量來復(fù)制人類的思維過程,這就是人工智能的全部?jī)?nèi)容。最著名的字符串度量之一是漢明距離,它度量將一個(gè)字符串轉(zhuǎn)換為另一個(gè)字符串所需的替換次數(shù)。例如,如果我們返回到上面的兩個(gè)記錄,只需要進(jìn)行一次替換就可以將burgendy”變成“burgendy”,因此Hamming距離為1

還有許多其他的字符串度量標(biāo)準(zhǔn)來度量?jī)蓚€(gè)字符串之間的相似性,而分隔每個(gè)字符串的是它們所允許的操作。例如,我們提到了漢明距離,但是這個(gè)字符串度量只允許替換,這意味著它只能應(yīng)用于長(zhǎng)度相等的字符串。類似Levenshtein距離的東西允許刪除、插入和替換。

如何將所有這些用于重復(fù)數(shù)據(jù)消除Salesforce?

人工智能系統(tǒng)有幾種方法可以實(shí)現(xiàn)Salesforce重復(fù)數(shù)據(jù)消除。方法之一是阻塞方法,如下所示:

這種阻塞方法使這種方法具有可擴(kuò)展性。它的工作方式是,每當(dāng)你上傳新的記錄到你的Salesforce中,系統(tǒng)會(huì)自動(dòng)將看起來“相似”的記錄屏蔽在一起,這可以是名字的前三個(gè)字母或任何其他條件。

這是非常有益的,因?yàn)樗鼫p少了需要進(jìn)行比較的次數(shù)。例如,假設(shè)Salesforce中有100000條記錄,并且您希望上載一個(gè)包含50000條記錄的Excel電子表格。傳統(tǒng)的基于規(guī)則的重復(fù)數(shù)據(jù)消除應(yīng)用程序需要將每個(gè)新記錄與現(xiàn)有記錄進(jìn)行比較,這意味著需要進(jìn)行5000000000次比較(100000 x 50000)。想象一下這需要多長(zhǎng)時(shí)間,它會(huì)增加多少出錯(cuò)的概率。此外,我們需要記住,100000條記錄只是Salesforce記錄中相當(dāng)有限的一部分。有很多組織擁有數(shù)十萬甚至數(shù)百萬的記錄。因此,在嘗試適應(yīng)此類模型時(shí),傳統(tǒng)方法的可擴(kuò)展性很差。

另一種選擇是單獨(dú)比較每個(gè)字段:

Acme公司

一旦系統(tǒng)將“相似”的記錄組合在一起,它將繼續(xù)逐字段分析每個(gè)記錄。這就是我們前面討論的所有字符串度量將發(fā)揮作用的地方。除此之外,系統(tǒng)將為每個(gè)字段指定一個(gè)特定的“權(quán)重”或重要性。例如,假設(shè)對(duì)于您的數(shù)據(jù)集,“Email”字段是最重要的。您可以自己調(diào)整算法,或者當(dāng)您將記錄標(biāo)記為重復(fù)(或不重復(fù))時(shí),系統(tǒng)將自動(dòng)學(xué)習(xí)正確的權(quán)重。這被稱為主動(dòng)學(xué)習(xí),更可取的是,因?yàn)橄到y(tǒng)可以精確計(jì)算一個(gè)領(lǐng)域?qū)α硪粋€(gè)領(lǐng)域的重要性。

機(jī)器學(xué)習(xí)方法的優(yōu)點(diǎn)是什么?

機(jī)器學(xué)習(xí)能提供的最大好處是它能為你做所有的工作。我們?cè)谏弦还?jié)中描述的主動(dòng)學(xué)習(xí)方面將自動(dòng)對(duì)每個(gè)字段應(yīng)用所有必要的權(quán)重。這意味著不需要?jiǎng)?chuàng)建復(fù)雜的設(shè)置過程或規(guī)則。讓我們看看下面的場(chǎng)景。假設(shè)其中一個(gè)銷售代表發(fā)現(xiàn)了一個(gè)重復(fù)的問題,并將此問題通知Salesforce管理員。然后Salesforce管理員將繼續(xù)創(chuàng)建一個(gè)規(guī)則,以防止將來發(fā)生此類重復(fù)。每次發(fā)現(xiàn)一個(gè)新的復(fù)制品使這樣一個(gè)過程變得不可持續(xù)時(shí),就必須一遍又一遍地重復(fù)這個(gè)過程。

另外,我們需要記住,Salesforce中基于重復(fù)數(shù)據(jù)消除的功能也是基于規(guī)則的,只是非常有限。例如,一次只能合并三條記錄,不支持自定義對(duì)象,還有許多其他限制。機(jī)器學(xué)習(xí)只是一種更聰明的方法,因?yàn)橐?guī)則的創(chuàng)建是簡(jiǎn)單的自動(dòng)化,而人工智能和機(jī)器學(xué)習(xí)則試圖重現(xiàn)人類的思維過程。本文討論了機(jī)器學(xué)習(xí)和自動(dòng)化的區(qū)別。選擇一個(gè)簡(jiǎn)單地?cái)U(kuò)展Salesforce功能而不是修復(fù)整個(gè)過程的重復(fù)數(shù)據(jù)消除產(chǎn)品是沒有意義的。這就是為什么機(jī)器學(xué)習(xí)方法是最好的方法。

標(biāo)簽: 人工智能

點(diǎn)贊

分享到:

上一篇:邊緣計(jì)算和物聯(lián)網(wǎng)之間的共生關(guān)系

下一篇:嵌入式操作系統(tǒng)的八大優(yōu)點(diǎn)

中國傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

網(wǎng)站簡(jiǎn)介|會(huì)員服務(wù)|聯(lián)系方式|幫助信息|版權(quán)信息|網(wǎng)站地圖|友情鏈接|法律支持|意見反饋|sitemap

中國傳動(dòng)網(wǎng)-工業(yè)自動(dòng)化與智能制造的全媒體“互聯(lián)網(wǎng)+”創(chuàng)新服務(wù)平臺(tái)

網(wǎng)站客服服務(wù)咨詢采購咨詢媒體合作

Chuandong.com Copyright ?2005 - 2024 ,All Rights Reserved 版權(quán)所有 粵ICP備 14004826號(hào) | 營(yíng)業(yè)執(zhí)照證書 | 不良信息舉報(bào)中心 | 粵公網(wǎng)安備 44030402000946號(hào)