工業(yè)大數(shù)據(jù)的復雜性高、可靠性要求高,但數(shù)據(jù)量可能相對偏小。認識工業(yè)大數(shù)據(jù)的特點,本身就是個復雜的問題。
從以下幾個角度來談一談工業(yè)大數(shù)據(jù):
1、一次利用和二次利用
我們知道,收集和記錄數(shù)據(jù)都是有成本的。多數(shù)數(shù)據(jù)都是為了滿足某個應用而產(chǎn)生、記錄的。大數(shù)據(jù)一般只是對數(shù)據(jù)的二次利用——或者叫廢物利用。一次利用是在線的,二次利用是離線的。隨著對大數(shù)據(jù)的重視,人們似乎應該在產(chǎn)生一次數(shù)據(jù)的時候,就關注數(shù)據(jù)的二次利用:就像策劃生產(chǎn)的時候就關注廢物如何利用。
2、一線應用和二線監(jiān)控
一線管理系統(tǒng)是為了滿足某個業(yè)務的需求,二線應用是為了監(jiān)控。我曾經(jīng)有個比喻:一線應用是政府、黨委、人大;二線監(jiān)控是政協(xié)、紀委、監(jiān)察。在數(shù)據(jù)成本很高的情況下,數(shù)據(jù)一般只服務于一線應用;在數(shù)據(jù)成本低的情況下,數(shù)據(jù)會越來越多地服務于二線應用。同時,在考慮一線應用的時候,就要考慮到如何便于二線應用。
3、可靠性要求高低
可靠性要求低的場合,分析相關性就可以了;可靠性要求高的場合,不僅要關注因果性,還要關注交叉驗證、證據(jù)的獨立性、反例的合理性。可靠性要求高的時候,對數(shù)據(jù)分析的技術要求也高,但價值一般也大。
4、關聯(lián)關系復雜性高低
關聯(lián)關系復雜時,分析難度就大、出現(xiàn)錯誤的可能性就大。要解決這個問題,首先要把人腦中的知識結構化地表述出來并有效地加以應用。我常說:在工業(yè)界,數(shù)據(jù)挖掘得到的知識首先存在于人腦中、只是不精確;數(shù)據(jù)餓作用,是用來雕琢這些模糊知識。但是,要把人腦中的知識表達出來,要有合適的方法才行。我不贊同“知識存在于數(shù)據(jù)中,人的作用是挖掘這種知識。”
更多資訊請關注工業(yè)機器人頻道