傳動網 > 新聞頻道 > 技術前沿 > 資訊詳情

智能電網領域知識體系構建和語義研究與應用

時間:2017-12-11

來源:網絡轉載

導語:如今,隨著電力技術的發(fā)展日新月異,用戶對電能質量的要求也逐漸提高,多個國家陸續(xù)提出了各自關于智能電網建設的方案。

如今,隨著電力技術的發(fā)展日新月異,用戶對電能質量的要求也逐漸提高,多個國家陸續(xù)提出了各自關于智能電網建設的方案。國家電網公司作為國有特大型央企,提出了建設堅強智能電網,以實現(xiàn)電網中電力流、業(yè)務流、信息流的高度融合。智能電網的發(fā)展必將使電力系統(tǒng)各環(huán)節(jié)的聯(lián)系更加緊密、數(shù)據與信息交互更加頻繁,也正因為如此,各級電網工作人員對知識的需求也更加迫切。

1、當前智能電網領域知識服務存在的問題

1)知識資源組織管理體系結構落后。現(xiàn)有的智能電網知識資源組織管理體系結構比較單一,缺乏知識點間的關聯(lián)性,層級簡單,體系結構仍以圖書形式為主,分類單一,知識點僅遵循“用、代、屬、分、參”關系,顯示方法比較扁平化,已經不能滿足高性能、大容量知識服務的建構、處理與運行的要求。如何描述、存儲、管理、處理、分析和使用海量分布的知識資源進行知識服務,是智能電網領域知識服務應用的重要問題。

2)知識服務開發(fā)成本高、更新維護困難。智能電網領域的專家系統(tǒng)和知識服務應用雖然可以較好地滿足用戶對知識服務的需求,但受到知識本身時效性強、更新速度快等特點的影響,導致此類知識服務的開發(fā)成本高,重用難度大,使得其實現(xiàn)和推廣的難度相對較大。

3)知識服務同用戶需求本身存在一定的差距。當前智能電網的知識服務檢索結果往往沒有考慮檢索者本身的實際情況,以及用戶難以用計算機能理解的方式描述出其希望了解的內容。

造成這些問題的原因,一方面在于激增的數(shù)據超過了現(xiàn)有用戶和系統(tǒng)所能承受、處理和利用的范圍,導致數(shù)據無法被及時、合理地組織,決策者未能從中得到應有的啟示;另一方面,知識的表現(xiàn)形式使其不能被有效利用,這是因為目前的知識表示方法不利于電網知識的發(fā)現(xiàn),進而導致不能形式化地表示電網領域知識。

因此,本文研究基于語義網技術,并以輸變電圖書為樣例,對智能電網(輸變電部分)領域知識開展研究,完成智能電網(輸變電部分)知識體系構建,以期更好地為國家電網公司提供知識服務。另外,通過本文研究成果對國家電網公司企業(yè)級知識管理系統(tǒng)進行優(yōu)化,有利于實現(xiàn)知識整理和標引、知識協(xié)同構建、資源自動檢索和標注、知識服務模型以及知識資源個性化推送等目標。以智能電網(輸變電部分)領域知識為研究范圍,以10kV配網不停電作業(yè)知識為突破口,著力做好該領域知識收集、概念抽取、語義研究和本體設計,研究知識體系構建以及知識庫搭建工作。

本文內容包含系統(tǒng)梳理智能電網(輸變電部分)領域的主題詞條,闡明詞條之間的相互聯(lián)系和相互作用;基于本體語言的知識表示方法和原則,開發(fā)專用的本體工具,構建智能電網(輸變電部分)知識體系;并以語義檢索應用為目的完成智能電網(輸變電部分)專業(yè)知識庫的建立,為整個智能電網領域知識體系的構建提供理論依據及技術支持,同時可對智能電網領域知識挖掘、發(fā)現(xiàn)與利用進行有益的探索。

基于本體設計、語義標引技術,在電力領域專家的指導和配合下,對智能電網(輸變電部分)領域知識開展研究,研究該領域知識收集、概念抽取、本體設計、語義標引、概念體系構建的關鍵技術路徑,并完成了最終的知識庫搭建工作。所完成的專業(yè)知識庫系統(tǒng)提供了網站作為檢索接口,集成了本體工具、數(shù)據加工模型的圖書文獻檢索等技術,實現(xiàn)了智能電網(輸變電部分)知識的語義檢索應用。系統(tǒng)除了處理常規(guī)的文本檢索之外,還提供了本體的交互式圖形可視系統(tǒng)、自然語言及問句式查詢系統(tǒng)、語義增強搜索系統(tǒng)以及相關詞條推薦系統(tǒng),可以智能化地協(xié)助用戶提高檢索效率。

2、領域知識收集

領域知識收集工作包括對793本與輸變電專業(yè)相關圖書、《電力名詞(第二版送審稿)》中指定書目以及《電力主題詞表》的計算機自動處理,并結合專家所提供的分類體系開展工作。

2.1自動分詞

對這些圖書進行自動分詞,即將一本書、一段話看作一個漢字序列,通過計算機將其切分成一個個單獨的詞,以便進行下一步的理解和分析。

在本文研究中,對開源工具Ikanalyzer、Rwordseg進行了調研和試驗。Ikanalyzer提供了可供Java使用的jar包,以及面向全文檢索工具Lucene的接口,使用方便,主要用它來建立索引、本體以及對搜索語句進行分詞,準確率可達95%,其分詞示例分詞前的整個段落:“在電力系統(tǒng)中,除應采取各項積極措施消除或減少發(fā)生故障的可能性外,故障一旦發(fā)生,必須迅速而有選擇地切除故障元件,這是保證電力系統(tǒng)安全運行的最有效方法之一,而繼電保護裝置就是能反映電力系統(tǒng)中電氣元件發(fā)生故障或不正常運行的狀態(tài),并動作于斷路器跳閘或發(fā)出信號的一種自動裝置?!?/p>

計算機分詞和自動去除無實意的詞后的效果如下:“電力系統(tǒng)中因各項措施消除減少發(fā)生故障可能性外,故障發(fā)生而有選擇切除故障元件這是保證電力系統(tǒng)安全運行最有效方法之一,而繼電保護裝置電力系統(tǒng)中電氣元件發(fā)生故障不正常運行狀態(tài)動作斷路器跳閘發(fā)出信號一種自動裝置”,可以達到建立索引的要求。

Rwordseg是一個R環(huán)境下的中文分詞工具,使用rJava調用Java分詞工具Ansj。Ansj基于ApacheLicense,是一個完全開源、免費的Java中文薦分詞工具。它的實現(xiàn)原理基于Google語義模型和條件隨機場模型。分詞速度可達每秒約200萬字(在MacAir下測試),準確率能達到96%以上。通過研究,重寫了一個Java版本,并且全部開源,使得Ansj可用于人名識別、地名識別、組織機構名識別、多級詞性標注、關鍵詞提取、指紋提取等領域,支持行業(yè)詞典、用戶自定義詞典。

2.2詞向量訓練

詞向量訓練是利用深度學習的思想把單詞表示

成向量的一種方式,語義越相近的詞,形成的向量相似度越高。本文采用Googleword2vec工具(基于ApacheLicense2.0的開源工具,提供continuousbag-of-words和skip-gramarchitectures等算法對詞向量進行訓練)進行詞向量訓練,得到詞向量之后,可以進一步得出這些詞向量的聚類。

2.3詞語篩選

根據停用詞表,去除“的”、“比如”、“別的”等無實意、頻繁出現(xiàn)的但對專業(yè)語義分析無實際幫助的詞,編寫程序去除無關的標點符號、亂碼字符及其他短字符。在此基礎上,研究人員通過人工對得到的詞語進行篩選,得出重要的名詞和動詞以及相關概念的英文名和中文描述信息,作為本體分析的對象。其中,名詞集用來構建領域本體的相關概念,動詞集用來描述領域本體概念之間的關系。

3、概念抽取

本文研究根據專家提供的輸變電專業(yè)概念分類,對領域知識中的相關名詞集進行總結歸納,以半自動的方式從相關的圖書和詞典中提取出相關概念,并將其結構化,形成分類體系。

專家提供的輸變電專業(yè)概念分類主要包含資產、作業(yè)、文檔的大體框架分類結構,但不涉及每個具體詞條的歸屬。其中資產可以在EnterpriseArchitecture軟件中查看。其他分類體系通過專家口述,研究人員進行記錄,專家進行核對的形式提供。

在領域知識收集之后,使用ApacheJena(Apche的開源項目,提供了Java接口,可使用Java編程對本體進行創(chuàng)建、修改、讀入、保存、查詢、推理等操作)將概念體系導入本體,將詞條進行粗分類;在此基礎上,多次征求高校電氣學院領域專家的意見,使用StanfordProtégé工具(本體開發(fā)工具,具有導入、可視化編輯和保存本體的功能)進行交互展示,供專家審核、修改,并進行細分類。Protégé(本體開發(fā)工具)中對本體進行展示及審核修改的工作界面如圖1所示。

4、本體設計

在此階段中,根據相關圖書及專家所提供的頂層概念模型,使用Apache提供的開源工具Jena創(chuàng)建本體,并使用Protégé和Word文檔相結合的方式進行人工核對。

存儲了中英文名的類如圖2所示,其中每個類均存儲了中英文名、所屬詞典以及簡介。

具體建立過程如下:

1)根據字符串匹配的方式得出父類與子類的關系;

2)根據詞典中的描述信息建立等價類關系;

3)根據詞典中的描述信息得出包含關系,如:根據U型掛環(huán)的描述信息得出結論“U型掛環(huán)有連接件”;

4)根據詞典中的描述信息定義反關系,如:“有連接件關系的反關系是組成U型掛環(huán)”;

5)根據名稱定義包含關系及其反關系;

6)根據詞典中的描述信息建立相關關系,如:鋼管塔的描述信息及其所建立的關系,圖3顯示了從鋼管塔的描述信息中建立其與金具、導線和絕緣子的關系;

7)根據詞典中的描述信息建立數(shù)值型屬性,如:塔高的數(shù)值屬性;

8)建立實例,如:以中原變電站為例,變電站類有地址屬性,屬性用string表示,中原變電站作為其中一個具體的變電站,地址在鄭州,將鄭州作為中原變電站的地址屬性的值。

根據Protégé軟件的自動統(tǒng)計信息,本次研究所建成的本體的規(guī)模共有8094個類、21657個Object型屬性、7511個父類–子類關系以及757個等價類。

5、語義標引

在此階段,利用已有的本體對該領域中的文檔資源進行標引,從而實現(xiàn)語義推理的目的,最終實現(xiàn)語義信息檢索。

在語義標引過程中,對屬于本體中的實例,如:“巡視”、“維護”、“substation”等加上html的標簽,在前端通過處理與其他未標注文本進行區(qū)別顯示,點擊時可自動查詢相應本體。

使用Jena和Java對本體進行標注。首先,將本體中類的中文名和英文名用Jena導出,并根據詞條長度進行由長到短的排序,排序后,“電子互感器”排在“互感器”之前。使用Java遍歷排序后的數(shù)組,為文本中匹配處依次加上標簽,避免了重復地將“電子互感器”標注為“電子互感器”和“互感器”。

專業(yè)詞匯如“變電站”、“互感器”等的標注基本無誤。本體中的其他相關詞匯中含有一些多義詞,人工篩選了“條件”、“單元”、“連結”等多義詞進行剔除。

6、概念體系設計

在專家的幫助下,將智能電網的中英文名、描述信息、層次結構及其關系等知識進行整合,得到智能電網(輸變電部分)領域中的一個概念體系。

概念體系包含了智能電網領域(輸變電部分)中前面提到的所有信息(即概念分類體系以及詞條的中英文名、釋義、等價類、屬性等)。以光纜為例,光纜示例如圖4所示。

圖4中303.3.8是“光纜”在本文概念體系中的編號,“opticalfibercable”是英文名,“18.307”是“光纜”在《電力名詞(第二版送審稿)》中的編號,“以光纖為傳輸元件……”這句話是“光纜”的描述信息,“相關材料”,表示“光纜”與“材料”這個概念相關。

7、知識庫檢索系統(tǒng)

本文研究基于領域知識的語義標引技術,通過對本體工具、數(shù)據加工模型的圖書文獻檢索等技術的研究,完成了以語義檢索應用為目的的智能電網(輸變電部分)專業(yè)知識庫系統(tǒng)研究。系統(tǒng)除處理常規(guī)的文本檢索之外,還提供了本體的交互式圖形可視系統(tǒng)、自然語言及問句式查詢系統(tǒng)、語義增強搜索系統(tǒng)以及相關詞條推薦系統(tǒng),智能化地協(xié)助用戶提高檢索效率,主要支持的查詢功能如下。

7.1拼音提示

用Jena將本體中的中文信息全部導出成為詞典,對詞條的拼音進行關鍵詞查詢和操作。以“變壓器”為例:

1)在輸入框輸入或粘貼拼音,則輸出為全拼按從左到右的順序與輸入的拼音相同的一組提示詞,如輸入“biany”時,提示包括“變壓器”在內的10個詞;

2)在輸入框輸入或粘貼拼音首字母,則輸出為拼音首字母按從左到右的順序與輸入相同的一組提示詞,如輸入“byq”時,提示包括“變壓器”在內的10個詞;

3)在輸入框輸入或粘貼漢字,則輸出根據該漢字的全拼給出同音詞的輸入提示,如輸入“邊壓氣”時,提示包括“變壓器”在內的10個詞。

7.2普通搜索

以“變電站”為例,在輸入框中輸入搜索詞條,如變電站,則輸出如下:

1)在“您是不是想搜”條目下顯示的9個詞條,采用Lucene的StandardAnalyzer對詞典進行處理,根據中文字形匹配程度得到結果;

2)書籍的總搜索結果數(shù)和用時,通過數(shù)學統(tǒng)計計算得到;

3)前10本書的標題、與搜索詞條匹配的摘要(摘要中搜索詞用紅色標出)、相關度,使用Lucene對文本進行全文檢索計算得到;

4)頁碼選項,單擊頁碼之后跳轉到該頁碼,使用Lucene進行分頁查詢;

5)如果是本體中的詞條,則出現(xiàn)本體交互圖,單擊可跳轉到交互界面,交互界面的查詢部分采用Jena預先加載本體,以加快與用戶交互的速度;

6)如果有同級本體,則出現(xiàn)同級本體,單擊可跳轉到該詞條的搜索界面,同級本體通過Jena查詢得到;

7)如果有相關本體,則出現(xiàn)相關本體,單擊可跳轉到該詞條的搜索界面,事先由Jena查詢得出本體中各個類和實例的描述信息及其屬性,存為文本,對這些文本用Lucene建立索引,之后采用Lucene根據查詢語句進行查詢,當與查詢語句匹配度達到閾值之后,則返回相關本體;

8)出現(xiàn)更多詞條等相關內容,單擊可跳轉到該詞條的搜索界面,更多詞條的信息來自于使用Googleword2vec對793本圖書進行詞向量訓練得到的詞向量和詞語的聚類,首先找出查詢詞語中與聚類中詞語最相近的一個,之后返回這個聚類中的其他詞語。

7.3根據英文搜索中文結果

通過英文查詢中文的功能是通過Lucene對英文和中文建立一一對應的索引,這樣根據索引中英文的匹配程度,可以找到相應的中文。以“keysubstation”為例,根據英文搜索中文結果的界面如圖6所示。

7.4語義增強搜索

語義增強搜索采用Jena查詢出所查詞語的子類,再根據這些子類的名稱在793本圖書中搜索,并將這些結果根據相關度由高到低排序,得出所需結果與子類匹配出的摘要。如搜“建筑物”時,得到的是與其子類“防火墻”、“換流站”等匹配的文本,其他部分內容與普通查詢時相同。

7.5自然語言查詢

在輸入框中以自然語言的形式輸入,如果有對應的詞條,則輸出相應的詞條和解釋。以“變電站”為例,輸入“變換電壓等級匯集配送電能的設施是什么”時可以輸出結果“變電站”;輸入“在河流上下游的水電站”,則輸出“梯級水電站”;輸入“埋在地下的管子”,輸出“電纜排管”。自然語言查詢結果界面如圖7所示。

7.6本體圖形交互

本體的圖形交互功能均通過Jena預先加載本體,在查詢時對本體的各項信息進行查詢。

1)單擊本體交互界面,界面放大,如果詞條有英文或釋義,則顯示當前詞條的詳細信息。在圖形中,父類與子類以不同的形式展示,變電站本體交互界面如圖8所示,其中“建筑物”為父類,其他為子類。

2)單擊某個詞條并進行拖動,顯示鼠標實時拖動效果。

3)雙擊當前詞條(如當前的“變電站”),則顯示/隱藏該詞條的屬性。其中包括Object型的“線阻濾波器”和Data型的“進線電壓:string”(string表示Data的類型)。顯示/隱藏變電站屬性界面如圖9所示。

4)雙擊除當前詞條外的其他詞條,則以雙擊的詞條進行查詢,并顯示新的結果。雙擊建筑物顯示的界面如圖10所示。

7.7書籍顯示

1)在搜索結果頁面,單擊某本想看的書,則跳轉到書籍顯示界面,默認顯示pdf文件,可通過右側滑動條翻頁,并顯示其相關文檔。書籍顯示界面如圖11所示。

2)點擊txt標簽,則跳轉到txt顯示界面,顯示該書籍對應的文本,可閱讀書籍文本,與本體相關的標注(包括中英文)用藍色和下劃線表示,單擊這些標注,如“變電站”、“substation”均可查看對應的“變電站”本體。中英文標注示例如圖12、圖13所示。

8、結語

通過本文智能電網領域(輸變電部分)專業(yè)知識概念體系的建立,完成了對一個典型的專業(yè)知識概念體系完整的建立過程的調研,以及初步的專業(yè)知識庫原型系統(tǒng)搭建。傳統(tǒng)以單本或單冊圖書為載體,一般按單一分類介紹的電力知識,很難形成體系,且概念之間的關系無法展示,相比之下智能電網領域(輸變電部分)專業(yè)知識概念體系解決了知識點分類單一且孤立的難題,方便使用者在相關領域輕松獲取所需知識概念及相關知識。在未來工作中,以下方面還有待進一步深入提高:

1)在研究上,還需研究如何更好地進行本體的可視化,如何利用聚類、分類算法消除語義標注的歧義,如何自動對未知的屬性進行屬性發(fā)現(xiàn),如何進語義推理得到更多屬性以及加快語義搜索速度;

2)在工程上,可以在txt閱讀模式下提供圖片支持、完善作者信息、增加作者搜索、出版年份搜索、按標題搜索等功能,進一步實現(xiàn)根據詞頻、查詢頻繁度等更多信息進行拼音推薦等。

中傳動網版權與免責聲明:

凡本網注明[來源:中國傳動網]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(www.treenowplaneincome.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網站或個人轉載使用時須注明來源“中國傳動網”,違反者本網將追究其法律責任。

本網轉載并注明其他來源的稿件,均來自互聯(lián)網或業(yè)內投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內容、版權等問題,請在作品發(fā)表之日起一周內與本網聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0