騰訊:5個人花2年時間調(diào)教寫稿機(jī)器人

時間:2017-04-19

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:距離寫稿機(jī)器人DreamWriter發(fā)出的第一篇新聞已有一年半的時間,媒體中陸續(xù)已有如第一財經(jīng)“DT稿王”、新華社“快筆小新”等機(jī)器人開始參與寫稿工作。

2015年9月10日,一條標(biāo)題為《8月CPI漲2%創(chuàng)12個月新高》的新聞在騰訊財經(jīng)上發(fā)布??瓷先ィ@條新聞的內(nèi)容和媒體記者日常的消息稿無異,引用了統(tǒng)計局的數(shù)據(jù),還加入了國家統(tǒng)計局城市司高級統(tǒng)計師余秋梅以及銀河證券等分析師對數(shù)據(jù)的分析和預(yù)測。但它背后的作者,其實是騰訊財經(jīng)開發(fā)的寫稿機(jī)器人DreamWriter。

“機(jī)器人來搶記者飯碗了!”“記者們已哭暈”……寫稿機(jī)器人一時間引發(fā)業(yè)內(nèi)熱議。

距離寫稿機(jī)器人DreamWriter發(fā)出的第一篇新聞已有一年半的時間,媒體中陸續(xù)已有如第一財經(jīng)“DT稿王”、新華社“快筆小新”等機(jī)器人開始參與寫稿工作。

DreamWriter項目副總監(jiān)劉康對包括第一財經(jīng)在內(nèi)的媒體透露,目前財經(jīng)+科技應(yīng)用的發(fā)稿量超過2000篇/天,體育稿量500篇/天,包括每天行情報盤、上市公司公告精要報道,以及體育賽事每輪每場的消息。

不僅如此,據(jù)第一財經(jīng)記者了解,基于寫稿機(jī)器人,騰訊內(nèi)部一款集合了新聞資訊類AI和超級資訊服務(wù)秘書類的應(yīng)用正在研發(fā)當(dāng)中。

機(jī)器人這樣“寫稿”

之所以開發(fā)一款寫稿機(jī)器人,源自騰訊自己的“痛點(diǎn)”。

劉康對第一財經(jīng)記者回憶,當(dāng)時他所在的騰訊財經(jīng)頻道招了一批新人和實習(xí)生,大量的基礎(chǔ)工作、快速的稿件、財報、宏觀數(shù)據(jù)變動、板塊變動都需要快稿,這對新人來說既枯燥也辛苦。“所以大家都在問能不能讓機(jī)器來做,這樣的話,我們富有創(chuàng)造力的新人可以把自己的精力留下來,做更有創(chuàng)造力的事情,這是我們做這件事情的起點(diǎn)。”

于是,從2014年12月開始籌劃并建立數(shù)據(jù)庫,到2015年3月正式啟動機(jī)器人寫作項目,經(jīng)過開發(fā)和測試約半年后,騰訊寫稿機(jī)器人DreamWriter于2015年9月正式上線。

劉康告訴第一財經(jīng)記者,事實上DreamWriter的團(tuán)隊僅有五個人,不過多個騰訊部門均被卷入DreamWriter工作中,參與搭建和底層支持。

在過去一年半的時間里,這支團(tuán)隊一直在低調(diào)運(yùn)作。劉康告訴記者,DreamWriter一直在持續(xù)工作,尤其在奧運(yùn)會期間,DreamWriter產(chǎn)出內(nèi)容達(dá)3600余篇,其中第一塊金牌的新聞就是機(jī)器人寫的。

寫稿機(jī)器人DreamWriter,究竟是如何寫出一篇新聞稿件的?

劉康表示,從文本的角度,機(jī)器寫作實現(xiàn)從0到1,是相對簡單的,例如,用技術(shù)團(tuán)隊簡單做一個財報系統(tǒng),或是給體育賽事做一個基本的描述這類模塊化的寫作,但是如何從1到3,讓機(jī)器人的稿子寫得有“人情味兒”、對細(xì)節(jié)描述更加到位和精彩,花費(fèi)了相當(dāng)多的精力。

以寫跳水新聞為例,這是一個評分制的比賽,評委對于走板、空中姿態(tài)、落水姿態(tài)、水花等每個動作的打分,都有翔實的數(shù)據(jù)被記錄在數(shù)據(jù)庫里。接下來,這些數(shù)據(jù)會被騰訊通過一定的算法和機(jī)器自己的識別——先讓機(jī)器跑幾十萬篇的數(shù)據(jù),跑一個規(guī)則出來,它會自己把這些數(shù)據(jù)重新還原。因為每一個分?jǐn)?shù)都可以還原成一個動作,這樣通過一定的算法把它還原成原先的場面就變得可行。

劉康提到,其實競爭對手也有很聰明的寫稿機(jī)器人,不過對方的做法是抓直播間的描述,通過一定的算法和邏輯拼接成一篇文章,而騰訊寫稿機(jī)器人DreamWriter不一樣,是基于特別細(xì)顆?;臄?shù)據(jù)進(jìn)行還原。

“今天數(shù)據(jù)量非常細(xì),細(xì)到可以描述到每一個數(shù)據(jù)的顆粒還原?!眲⒖嫡f,“比如足球的動作怎么記進(jìn)數(shù)據(jù)庫里面,射門包括射偏、打中立柱、高出立柱……這些都可以用數(shù)據(jù)還原?!?/p>

而在寫稿機(jī)器人背后的核心技術(shù),主要涉及的有包括智能撰文技術(shù)、內(nèi)容抽取技術(shù)、要聞萃取技術(shù)這三項。目前騰訊已經(jīng)獲得相關(guān)專利。

以內(nèi)容抽取的技術(shù)為例,DreamWriter可以把一篇千字文章概括為數(shù)百字,其中涉及到統(tǒng)計學(xué)、深度學(xué)習(xí)等技術(shù)。在財經(jīng)領(lǐng)域,寫稿機(jī)器人更依賴統(tǒng)計學(xué),但在其他內(nèi)容領(lǐng)域,騰訊可能需要單獨(dú)研發(fā)一款算法產(chǎn)品模型。

此外,針對寫稿機(jī)器人所寫的稿件,騰訊成立了一個專門的安全管理平臺進(jìn)行內(nèi)容風(fēng)險管控:第一輪,機(jī)器寫作時會單獨(dú)做一個算法和規(guī)則判斷機(jī)器寫得有沒有問題;第二輪是經(jīng)過安全審核;第三輪才能正式推出來。這中間銜接時間越少,意味著出來的作品既準(zhǔn)確又迅速。

做一款和頭條相反的產(chǎn)品

劉康對記者透露,目前DreamWriter在財經(jīng)、科技、體育等領(lǐng)域的常規(guī)撰文、批量撰文已經(jīng)開發(fā)完成,這款寫稿機(jī)器人未來一年甚至更長的時間的工作重點(diǎn),主要在于持續(xù)進(jìn)行優(yōu)化文本,并且將內(nèi)容生產(chǎn)領(lǐng)域從目前的科技、財經(jīng)和體育擴(kuò)充到全品類。

例如,在財經(jīng)領(lǐng)域新聞的寫作上,目前寫稿機(jī)器人本身具備強(qiáng)算法規(guī)則和模型,但難度也不小,特別是對數(shù)據(jù)的解讀和認(rèn)知,甚至將來的預(yù)測。劉康坦言,如果希望DreamWriter寫得更有深度,甚至將來要寫行業(yè)研報、寫一些垂直類深入的研究,目前仍需要再花時間深耕。

在劉康看來,寫稿機(jī)器人不會搶走記者的飯碗,而是希望DreamWriter能夠解放記者,讓記者從事更具挑戰(zhàn)和智慧的工作。“遠(yuǎn)遠(yuǎn)談不上取代(記者),我希望它始終是個助手,幫我整理資料,然后我來賦予它生命。”

接下來,DreamWriter團(tuán)隊希望推出一款集合新聞資訊類AI和超級資訊服務(wù)秘書類的App。

從第一財經(jīng)記者的體驗來看,這款代號為“DreamRead”的App聽讀兼?zhèn)洌闪苏Z音交互和文字閱讀的功能,所有內(nèi)容來自DreamWriter撰寫實時要聞簡報和要聞精華。

和今日頭條、天天快報等正在“殺死”用戶越來越多時間的新聞類App不同,劉康稱希望給這款A(yù)pp“做減法”,充當(dāng)“助手”的角色,給用戶提供重要且簡潔的新聞,讓用戶“用完即走”。

他提到一款關(guān)于實時快消息的國外App,“我?guī)缀鯖]有打開過它,只是它會推送到通知中心,我掃一眼就大概知道了,從DAU來講它沒有多少,因為我沒有打開過它,時長更沒有了,但是它對我是有用的,對我有幫助。我們也一樣,希望不用這些標(biāo)準(zhǔn),只要它能幫助到你,我們認(rèn)為它就是一個好產(chǎn)品?!?/p>

除了提供個性化的資訊,騰訊還希望DreamRead延伸成為一個集合了天氣、汽車、娛樂、科技、重大政策、資產(chǎn)管理等眾多場景在內(nèi)的服務(wù)平臺。“比如說可以推送一下最近我買的股票怎么樣、投資基金虧了多少錢;再如最新的房地產(chǎn)政策,比如我買了一套學(xué)區(qū)房,它會提醒你,最近房地產(chǎn)政策頻出,你要關(guān)注一下你的資產(chǎn)安全。”

不過眼下,這款圍繞個性化資訊生產(chǎn)和服務(wù)的App還需時間打磨,劉康稱,目前還沒有確定上線時間表,也不排除會對產(chǎn)品架構(gòu)進(jìn)行大幅修改。

更多資訊請關(guān)注機(jī)器視覺頻道

中傳動網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨(dú)家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請在作品發(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動控制公眾號獲取更多資訊

關(guān)注直驅(qū)與傳動公眾號獲取更多資訊

關(guān)注中國傳動網(wǎng)公眾號獲取更多資訊

最新新聞
查看更多資訊

熱搜詞
  • 運(yùn)動控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0