打造"威尼斯時光機" 機器學習重現(xiàn)古城歷史

時間:2017-08-28

來源:網(wǎng)絡轉載

導語:默默矗立在意大利威尼斯的圣方濟會榮耀圣母教堂有著"威尼斯萬神殿"之稱。這座14世紀的古老教堂于1815年被改為威尼斯國家檔案館,里面存放著這座城市幾千年厚重的歷史。

默默矗立在意大利威尼斯的圣方濟會榮耀圣母教堂有著"威尼斯萬神殿"之稱。這座14世紀的古老教堂于1815年被改為威尼斯國家檔案館,里面存放著這座城市幾千年厚重的歷史。

海量的地圖、手稿和專著,以及威尼斯一代又一代的官方文件,都堆放在總長超過80千米的書架上。但可惜的是,其中大部分都沒有被現(xiàn)代歷史學家閱讀過。由于年代久遠,很多文檔(如一些遺囑和手寫稿)已經(jīng)無法閱讀,因為一經(jīng)打開就會被損毀。

如今,一項雄心勃勃的新計劃正致力于發(fā)掘這座巨大檔案庫的秘密,并用數(shù)字化手段重建它所描述的那個威尼斯。

水城的黃金年代

威尼斯值得科學家們投入大量時間和精力,因為它擁有大量極具歷史價值、保存有序的文件。公元5世紀,羅馬帝國公民為逃避入侵,南下建立了威尼斯。具有戰(zhàn)略優(yōu)勢的地理位置,使它成為西歐與東方的重要貿(mào)易樞紐,積累了大量財富和力量。

威尼斯在逐漸壯大的同時,也建立起多套行政系統(tǒng),記錄了大量信息:誰在哪里居住,每一艘進出港灣的船只的信息,還有每一次對建筑或運河的改造?,F(xiàn)代銀行業(yè)起始于里亞爾托(威尼斯最古老的地區(qū)之一),那里的公證人記錄了所有的貿(mào)易交流和金融交易。

重要的是,這些記錄歷經(jīng)動蕩的幾個世紀仍被保留了下來。在圣方濟會榮耀圣母教堂被改為威尼斯國家檔案館之后的幾十年里,所有的國家行政文件都被轉移至此,包括死亡登記簿、醫(yī)療記錄、公證記錄、地圖和建筑平面圖、專利登記簿及其他各式各樣的文檔,有些甚至來自意大利其他地方。其中意義重大的是來自歐洲和奧斯曼帝國的大使報告,這些獨一無二的資料為后人提供了當時日常生活的詳細信息。大多數(shù)檔案都由拉丁文或威尼斯方言寫成,現(xiàn)代歷史學家從未讀過它們。

打造"威尼斯時光機"

瑞士洛桑聯(lián)邦理工學院(EPFL)數(shù)字人文科學實驗室主管、計算機科學家弗雷德里克?卡普蘭致力于將人工智能(AI)應用于人文科學,尤其是語言學。他用AI搜索幾個世紀的新聞報道,尋找詞匯和詞組的使用規(guī)律,并借此建立了語言演化模型。他一直都渴望在某個擁有數(shù)百年檔案的歐洲城市,應用這些技術來建造一臺時光機。

卡普蘭清楚地記得在2012年第一次走進檔案館的場景。時間在這個擁有300多個房間的建筑中凝固了,里面既沒有空調(diào)也沒有暖氣;易碎的文件從地面一直堆到天花板,泛黃的紙張碎片時不時地從邊緣飄落。"我被眼前的場景震驚了。"他說,"見到上千年的檔案卻無法閱讀它們,我當時就下定決心要做這個項目。"

威尼斯國家檔案保管員習慣于傳統(tǒng)的保護辦法,一開始并沒有接受這個想法。但是不到一年,他們就決定與卡普蘭以及一些歷史學家和檔案保管員開展跨學科全力合作。

"威尼斯時光機"項目致力于幫助研究者獲取存儲在威尼斯國家檔案館的大量數(shù)據(jù),每一頁文檔都要經(jīng)過掃描和數(shù)字化。通過這架虛擬的時光機,現(xiàn)代歷史學家和公眾便能探索古代威尼斯書面文檔提供的數(shù)據(jù)集,內(nèi)容將涵蓋從貿(mào)易和金融市場,到公共衛(wèi)生和疾病傳播的方方面面。為"威尼斯時光機"項目研發(fā)出的技術,也可應用于其他古老的檔案庫,為觀察過去打開一扇扇細致入微而又富于啟迪的窗戶。

自動讀取古老手稿

在"威尼斯時光機"到來之前,威尼斯國家檔案館已經(jīng)開始了一項由意大利文化遺產(chǎn)部支持的數(shù)字化項目--自2006年起,一架特制的大型掃描儀開始對檔案館中超過3000幅的意大利城鎮(zhèn)地圖進行數(shù)字化,其中許多是由拿破侖下令繪制的,可謂是鎮(zhèn)館之寶。

但對檔案中大量的手寫稿來說,普通的文字識別掃描軟件根本無法勝任精確的識別工作。"威尼斯時光機"項目能脫穎而出,依托的是新穎的技術:既有能夠將手寫文件轉變?yōu)閿?shù)字化文本的適應算法,還有頂級的高速掃描儀。

其中一臺掃描儀有一條機械臂,能夠翻開書頁;還有一臺是壯觀的旋轉式掃描儀,它有一個兩米寬的轉臺,技術人員能夠面對面站在兩邊,同時向其中添加多本A3大小的文檔。這些掃描儀組成一道流水線,每小時生成幾千張高清圖片,這些以兆兆字節(jié)計的信息被傳送到威尼斯的服務器進行長期存儲,同時也被傳送到洛桑,那里的高性能計算機將圖片轉為可以加注釋的數(shù)字文本。

自動讀取古老的手寫稿是一個巨大的挑戰(zhàn)。標準的字符識別軟件能一個字母一個字母(無論字體是什么)地讀取印刷本,使它們變成可搜索的文本。但是這并不適用于手寫稿,因為抄寫員書寫的單個字母形狀差異巨大,并且隨著時間推移而發(fā)生變化。

在"威尼斯時光機"項目中,卡普蘭運用了一種叫"機器學習"的方法來識別整個詞的形狀。機器學習依賴于能在搜集數(shù)據(jù)樣本的過程中修改自身規(guī)則和行為的算法,每一次的新體驗會提升算法的能力。時光機的算法能夠分析書面文字的結構,并找出看起來相似的圖形,在兩者之間建立關聯(lián)。所以,用戶可以從某個文檔中挑選一個名字,然后要求系統(tǒng)找出同樣的名字在數(shù)據(jù)庫所有其它手稿中出現(xiàn)的位置。

在不同文件之間進行匹配、交叉引用人名,意味著研究者能建立起威尼斯的社會關系網(wǎng)絡,而地圖中包含的數(shù)據(jù)則能幫助他們重建威尼斯建筑建造(有時還有倒塌)的過程。接下來,研究者可以將地圖中的信息與歷史上的繪畫和現(xiàn)代的照片進行交叉比對,將這些畫面和那些看似平凡無奇的商業(yè)文書結合起來,這意味著歷史學家們可以重建出威尼斯在歷史上幾乎任何時間點的城市細節(jié)。

研究人員目前正在開發(fā)一種可掃描未打開書本的頂級掃描儀。這個概念基于醫(yī)學中的CT掃描技術---從不同角度拍攝X光照片,然后一層一層疊加,構建身體內(nèi)部的3D圖像。目前,EPFL的科學家正在對該概念進行完善,他們希望通過分析古代墨水的成分,找出能夠用來當作X光造影劑的分子??ㄆ仗m說:"這種斷層掃描儀投入實際運用或許還需要五年以上的時間,它將能實現(xiàn)無損掃描,且掃描速度更快。"

更多資訊請關注工業(yè)機器人頻道

中傳動網(wǎng)版權與免責聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權屬于原版權人。轉載請保留稿件來源及作者,禁止擅自篡改,違者自負版權法律責任。

如涉及作品內(nèi)容、版權等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關權利。

關注伺服與運動控制公眾號獲取更多資訊

關注直驅與傳動公眾號獲取更多資訊

關注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運動控制
  • 伺服系統(tǒng)
  • 機器視覺
  • 機械傳動
  • 編碼器
  • 直驅系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機器人
  • 低壓電器
  • 機柜
回頂部
點贊 0
取消 0