您現(xiàn)在的位置：中國傳動網(wǎng) > 技術頻道 > 應用方案 > 人工智能在合成生物學的應用

人工智能在合成生物學的應用

時間：2022-09-19 20:58:50來源：李敏林子杰廖文斌陳廷柏李堅強陳杰肖敏鳳

導語：?生命系統(tǒng)極其復雜，難以精確描述和預測，這給高效設計合成生物系統(tǒng)提出了挑戰(zhàn)，故在合成生物系統(tǒng)構建中往往須進行海量工程試錯和優(yōu)化。近年來，人工智能技術快速發(fā)展，其基于海量數(shù)據(jù)的持續(xù)學習能力和在未知空間的智能探索能力有效契合了當前合成生物學工程化試錯平臺的需求，在復雜生物特征的挖掘與生命系統(tǒng)的設計方面具備巨大潛力。該文回顧并總結人工智能在合成元件工程、線路工程、代謝工程及基因組工程領域的研究進展，并分析和討論人工智能與合成生物學交叉研究在數(shù)據(jù)標準化、平臺智能化、實驗自動化、預測精準化方面存在的一系列挑戰(zhàn)。人工智能和合成生物學的融合有望給“設計—構建—測試—學習” 閉環(huán)的全流程帶來變革，而孕育“類合成生物學家”也將反過來引起人工智能技術的飛躍。

　　1 引言

　　合成生物學以人為設計和構建生命系統(tǒng)為目標，近年來在生物醫(yī)療技術和藥物的研發(fā)、蛋白質(zhì)和其他化合物的生產(chǎn)以及環(huán)境保護等領域展現(xiàn)出巨大的發(fā)展?jié)摿?。有別于傳統(tǒng)生命科學，合成生物學具備多學科交叉、多技術融合的特征，遵循工程學本質(zhì)，在人工設計的指導下，基于特定底盤細胞，自下而上地對生物元件、線路模塊、代謝網(wǎng)絡和基因組等進行標準化表征、通用化設計構建、可控化運行，并持續(xù)學習和優(yōu)化。

　　隨著合成生物學涉及的功能和潛在應用的不斷拓展，運用合成生物學的復雜性和跨學科知識需求也在迅速增長。然而，生命系統(tǒng)極其精密，包含大量不同的基因和調(diào)控元件，而元件之間又以海量不同的組合形成模塊、網(wǎng)絡，難以精確描述和預測，因此即使設計小型的基因線路也需要反復調(diào)試。工程學思維和方法是克服這一難題的利器，即大規(guī)模測試不同元件、線路模塊、網(wǎng)絡和底盤的組合，積累海量實驗數(shù)據(jù)，從而指導合成生物系統(tǒng)的理性設計和優(yōu)化。合成生物自動化設施(Biofoundry) 是工程學平臺搭建的一大核心，依照“設計— 構建—測試—學習”(Design-Build-Test-Learn，DBTL) 的閉環(huán)策略組織工藝流程，通過自動化、高通量生物學實驗試錯獲

　　得符合預期的合成生物系統(tǒng)。但當前工程化試錯存在海量的試錯空間，實驗成本極其高昂，并且缺乏標準化、定量的表征手段和智能化試錯、優(yōu)化、學習理論與技術的系統(tǒng)性支撐，阻礙了工程化研究平臺指導合成生物系統(tǒng)的設計與改造的發(fā)展。因此，需要運用一種方法將新知識和新技術流程很好地集成到合成生物學工程中，以提高試錯效率、降低試錯成本。

　　隨著人工智能 (Artificial Intelligence，AI) 技術的快速發(fā)展，在軟件、電子和機械系統(tǒng)等不同領域的工程設計中，使用人工智能技術來捕獲人類專家知識并將其嵌入輔助工具中是很常用的思路。人工智能技術基于海量數(shù)據(jù)的持續(xù)學習能力和在未知空間的智能探索能力，有效地契合了當前合成生物學工程化試錯平臺的需求。盡管生命體很復雜并且未被完全理解，但是人工智能技術可以找到很多突破口顯著改變合成生物學工程的效能。人工智能技術的核心是機器學習模型與算法，其本質(zhì)是基于一組數(shù)學規(guī)則或統(tǒng)計假設，對機器進行編程從而學習數(shù)據(jù)集中的模式與規(guī)律。通常說來，機器學習的目標是從給定數(shù)據(jù)集中發(fā)現(xiàn)特征之間的聯(lián)系從而建立起預測模型，輸出值可以是二元響應、多分類標簽或連續(xù)值。其中，訓練好的預測模型需要具有較好的泛化能力，即能較準確地預測訓練集外的樣本。

　　比較經(jīng)典的預測模型有邏輯回歸模型、決策樹模型、貝葉斯概率模型、支持向量機、卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Network) 和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network) 等。在生物學和生物醫(yī)學研究的大數(shù)據(jù)時代，機器學習模型與算法的一個關鍵優(yōu)勢是可自動挖掘數(shù)據(jù)中可能被忽略的模式，在發(fā)現(xiàn)復雜生命系統(tǒng)的內(nèi)在規(guī)律方面起關鍵作用。人工智能技術在生物學領域已經(jīng)具有廣泛的應用，包括基因注釋、蛋白質(zhì)功能的預測、基因線路的預測、代謝網(wǎng)絡的預測和復雜微生物群落的表征等。然而，合成生物學實驗通常時間跨度大、成本高以及 DBTL 迭代次數(shù)有限，導致預測模型的訓練數(shù)據(jù)極度不足，這也給人工智能技術帶來了新的挑戰(zhàn)。本文綜述了近年來人工智能技術在合成元件工程、線路工程、代謝工程及基因組工程領域的研究進展，并在此基礎上提煉歸納人工智能與合成生物學兩大領域交叉融合所面臨的挑戰(zhàn)，提出開發(fā)基于人工智能完成 DBTL 閉環(huán)的“類合成生物學家”見解。

　　2 人工智能應用于合成生物學的國內(nèi)外研究現(xiàn)狀

　　21 世紀以來，人工智能與合成生物學交叉研究驅(qū)使元件工程、線路工程、代謝工程、基因組工程等領域取得了一些代表性的進展，并使許多具備鮮明領域交叉特色的創(chuàng)新研究手段和理論得以成功運用。其中，2005—2017 年為緩慢發(fā)展階段，研究主要集中在線路工程;2018—2021 年為相對高速發(fā)展階段，人工智能在元件工程、線路工程、代謝工程、基因組工程等領域均嶄露頭角。這意味著，人工智能開始有效地解決合成生物學各子領域的技術難題，開辟合成生物學發(fā)展的新道路 ( 圖 1)。

　　2.1 元件工程

　　生物元件是合成生物系統(tǒng)中最簡單、最基本的單元，通常指一小段具有特定功能的核酸和氨基酸序列。在大規(guī)模的生物智能設計中，生物元件像“搭積木”一樣被用于組裝具有特定生物學功能的裝置和系統(tǒng)。在傳統(tǒng)的生物信息學和基因組學研究中，聯(lián)合多組學與序列特征分析可以得到特定的生物功能元件，如啟動子、核糖體結合位點、蛋白編碼基因、終止子和操縱子等。然而，從核酸和氨基酸序列到生物元件的挖掘與功能解讀之間還存在巨大鴻溝。已有研究表明，人工智能技術可改善生物元件的鑒定和功能注釋效率。DeepRibo 利用卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡可有效注釋基因編碼區(qū)。ProLanGO 則是一種基于循環(huán)神經(jīng)網(wǎng)絡的神經(jīng)機器翻譯方法，其將蛋白質(zhì)功能預測問題轉(zhuǎn)化為語言翻譯問題。DeepEC 利用 3 個相互獨立的卷積神經(jīng)網(wǎng)絡聯(lián)合同源分析工具 DIAMOND 預測蛋白質(zhì)EC(Enzyme Commission) 編碼以輔助理解酶的功能和總體細胞代謝。Kotopka 等構建的卷積神經(jīng)網(wǎng)絡模型可實現(xiàn)對酵母啟動子序列活性的高精度預測與設計。

　　目前，已發(fā)掘的天然生物元件結構及功能較為單一、保守，理性設計和定向進化技術是優(yōu)化現(xiàn)有元件結構、增強其功能特性的主要策略。但這兩種方法都耗時長且成本高，而機器學習通過學習序列中變異信息的特征來篩選出可能進化方向的序列，從而加速理性設計和定向進化。Romero 等使用高斯過程(Gaussian Process) 設計的細胞色素 P450 酶(Cytochrome P450) 比先前通過嵌合染色體、理性設計或定向進化產(chǎn)生的酶具備更耐高溫的特性。Li 等利用高通量分子動力學仿真等計算機方法輔助重設計天冬氨酸酶，將其轉(zhuǎn)化為不對稱加氫反應的酶，由此擴大了這種酶的生產(chǎn)，并獲得了可用于制藥和其他生物活性化合物的高純度元件。Yang 等利用偏最小二乘法回歸、貝葉斯優(yōu)化等算法指導蛋白質(zhì)定向進化，從而提高氰化反應中蛋白質(zhì)的催化效率。在蛋白質(zhì)的翻譯中，核糖體結合位點效率是決定蛋白質(zhì)表達量的重要因素之一。Bonde 等構建了一種基于隨機森林的 EMOPEC(Empirical Model and Oligos for Protein Expression Changes) 工具，用于全面評估核糖體結合位點上的 SD 序列 (Shine-Dalgarno Sequence) 對蛋白質(zhì)表達的影響，并通過修改 SD 序列上的若干堿基，對大腸桿菌基因表達水平進行精準調(diào)節(jié)。

　　元件工程中更具挑戰(zhàn)意義的是設計合成自然界不存在的元件，而人工智能在其中扮演著十分重要的角色。在 DNA 元件設計上，Wang 等將生成對抗網(wǎng)絡 (Generative Adversarial Network) 模型與支持向量機活性預測模型相結合來設計啟動子，其中約 70.8% 的啟動子兼具結構新穎及功能穩(wěn)定的特性。該項工作為新型啟動子元件的從頭設計提供了端到端的方法，表明深度學習方法具有從頭設計基因元件的潛力。在蛋白質(zhì)元件設計上，Repecka 等研究表明人工智能可輔助生成多樣化的功能蛋白，其提出的 ProteinGAN 從復雜的氨基酸序列空間中學習蛋白質(zhì)演化關系，并創(chuàng)建與天然蛋白的生物特性接近的新功能蛋白。Li 等利用隱馬爾可夫模型 (Hidden Markov Model) 對轉(zhuǎn)氨酶序列和結構進行組合分析，建立高效快速的

2005—2021 年人工智能應用于合成生物學的代表性進展.png

　　圖 1 2005—2021 年人工智能應用于合成生物學的代表性進展

　　計算方法來篩選不同家族的轉(zhuǎn)氨元件，最終建立了底物特異性互補的轉(zhuǎn)氨元件工具箱，實現(xiàn)對天然 L- 氨基酸的全覆蓋，打通了 L- 氨基酸到酮酸及相關高價值衍生物的綠色合成途徑。

　　2.2 線路工程

　　人工基因線路是利用元件工程中的各類元件針對多樣的需求依照電子工程中電路搭建的思維進行設計及功能優(yōu)化，從而達到對生命的重編程。基于雙穩(wěn)態(tài)開關 (Toggle Switch)、振蕩器 (Oscillator) 和細胞通訊模塊等最簡單的小型功能模塊，研究人員根據(jù)目標重新組合或優(yōu)化調(diào)整，設計出能夠執(zhí)行復雜邏輯功能的新穎基因線路，從而對細胞行為進行精準的時空控制，以應對復雜的生物環(huán)境。

　　但是，合成基因線路的設計和構建遠非易事。早期設計的基因線路通常需要進行多次、長時間的調(diào)試才能正常運行，且無法確定其對底盤細胞的其他影響。Hasnain 等利用Koopman 算子理論構建數(shù)據(jù)驅(qū)動的模型用于計算合成生物線路對大腸桿菌底盤的影響。Myers 等開發(fā)了一種工具—— iBioSim 利用多種仿真方法對基因線路模型進行高效分析和設計，可用于維護基因線路模型以及實驗和仿真數(shù)據(jù)記錄。盡管取得了以上進展，但在大型復雜的合成網(wǎng)絡中，生物元件可能相互交互造成串擾，可用的生物回路元件的數(shù)量和正交性帶來的限制阻礙了在活細胞中構建穩(wěn)定運行的復雜回路。Green 等利用線性交互機制從頭設計在大腸桿菌中調(diào)控基因表達的核糖開關——Toehold Switch。Toehold Switch 不僅可以感應同源 RNA 從而激活基因表達，而且實現(xiàn)了較高的正交性、較低的系統(tǒng)串擾、可編程性以及較廣的動態(tài)范圍，但仍面臨一定的設計瓶頸，譬如篩選有用的 Toehold Switch 通常需要開展大量實驗，消耗很高的時間和經(jīng)濟成本。于是，Valeri 等將 STORM(Sequencebased Toehold Optimization and Redesign Model) 和 NuSpeak(Nucleic-Acid Speech) 循環(huán)神經(jīng)網(wǎng)絡 - 卷積神經(jīng)網(wǎng)絡混合模型用于表征和優(yōu)化 ToeholdSwitch。在深度學習架構中使用卷積過濾器、注意力機制和遷移學習對模型進行優(yōu)化，進一步改進了面對稀疏的訓練數(shù)據(jù)的性能，為調(diào)節(jié)開關的選擇和設計提供了從序列到功能的深度學習框架，并增強了構建有效的生物電路和精確診斷的能力。

　　一個基因線路的設計被提出后，計算機仿真策略可確定該線路可以執(zhí)行哪些任務，并通過修改參數(shù)以實現(xiàn)所需的功能。逆向工程策略利用計算模型從基因表達數(shù)據(jù)中提取基因線路的調(diào)控結構和動力學，探索可能的基因調(diào)控線路的配置庫 ( 如基因激活或抑制強度)，以找到可以執(zhí)行該功能的配置條件。但是，由于基因線路配置的數(shù)量隨基因數(shù)量的增加而迅速增加，因此這種方法的計算量巨大，需要用更高效的算法來克服這一挑戰(zhàn)。蒙特卡洛方法提供了一種可行的替代解決方案，即反復選擇最佳基因線路后對其配置進行隨機更改的進化算法可成功開發(fā)出高性能的基因線路。Noman 等提出一種基于蒙特卡洛的進化算法，即利用計算機對自然進化過程進行仿真，從而快速查找對噪音信息具有魯棒性的網(wǎng)絡拓撲 (Network Topology)，這對于設計高魯棒性的生命系統(tǒng)具有較高的價值。而 Hiscock 等提出將機器學習中的梯度下降優(yōu)化算法應用到基因線路的快速篩選和一系列不同功能的線路設計中。2021 年，Seak 等嘗試利用模擬人工神經(jīng)網(wǎng)絡的方法設計基因線路，進一步提升生物計算算法的潛力。

　　2.3 代謝工程

　　代謝工程最早由美國學者 Bailey 于 1991 年提出，是指用重組 DNA 技術有目的地改造中間代謝途徑及網(wǎng)絡，從而提高菌體生物量或代謝物產(chǎn)量。鑒于細胞代謝網(wǎng)絡的復雜性，傳統(tǒng)的設計通常整合了文獻檢索、代謝建模和啟發(fā)式分析(Heuristic Analysis) 等方法，但因為吞吐量有限，從數(shù)千個代謝反應及其調(diào)控網(wǎng)絡等海量信息中找到合適的改造靶點非常困難。人工智能的集成建模方法有助于在代謝網(wǎng)絡建模時兼顧動力學、調(diào)節(jié)作用、替代模型結構和參數(shù)集合等因素。例如，魯棒性分析集成建模 (Ensemble Modeling For Robustness Analysis，EMRA) 將動態(tài)動力學模型與集成建模法結合以設計非天然代謝路徑，可在選擇代謝流改造靶點時既考慮模型性能又兼顧魯棒性。在大規(guī)模的代謝數(shù)據(jù)篩選中，機器學習平臺作為高通量分析工具在促進數(shù)據(jù)驅(qū)動的目標生物合成途徑優(yōu)化和微生物產(chǎn)能提高方面得到了更廣泛的應用。EcoSynther 平臺使用反應數(shù)據(jù)庫 Rhea 中約 10 000 條質(zhì)量和電荷平衡的反應為外源反應數(shù)據(jù)源，并整合野生型大腸桿菌代謝網(wǎng)絡模型中內(nèi)源反應，利用途徑搜索的概率分析算法模擬生產(chǎn)目標化合物的大腸桿菌菌株在不同生長條件下的整體代謝、目標化合物合成途徑以及量化合成情況。將支持向量回歸和前饋神經(jīng)網(wǎng)絡用于優(yōu)化預測生產(chǎn)中核糖體結合位點和表型的關聯(lián)，可將大腸桿菌中檸檬烯產(chǎn)量提高 60% 以上。而將集成學習算法應用于DBTL 循環(huán)數(shù)據(jù)可輔助提高大腸桿菌生產(chǎn)十二烷醇的效能 ( 效價提高 21% )。

　　合成生物學 DBTL 循環(huán)通常需要大規(guī)模采集和分析數(shù)據(jù)，且循環(huán)中往往受到實驗成本高昂、可變性高、采樣偏差以及傳統(tǒng)數(shù)據(jù)分析方法局限性的限制。而自動化 DBTL 流程在微生物底盤生化途徑的快速原型設計和優(yōu)化應用中，集成了一系列獨特的新技術組合，能大大降低實驗成本和噪聲，并且不依賴于研究人員對生物學機制的理解。Pablo 等開發(fā)的 DBTL 平臺使用計算機仿真選擇候選酶，通過自動化元件設計，融合機器學習算法集優(yōu)化技術指導和機器人輔助組裝生化途徑，隨后進行快速測試和理性重設計，僅用兩個 DBTL 循環(huán)就能大規(guī)模壓縮可能的參數(shù)和變數(shù)組態(tài) (Configuration) 數(shù)目，將大腸桿菌的類黃酮產(chǎn)量較以往報道的水平提高了 500 倍。Hamedirad 等開發(fā)了一個耦合貝葉斯優(yōu)化等機器學習算法的集成機器人平臺——BioAutoMata，并用于 DBTL 循環(huán)優(yōu)化番茄紅素的生物合成途徑。實驗證明，僅測試不到 1% 的可能變異體就能發(fā)掘高產(chǎn)菌株，其產(chǎn)量超出隨機篩選法選出的最優(yōu)菌株產(chǎn)量的77%。

　　由于不同微生物之間的差異，目標化合物的產(chǎn)量和合成途徑也可能因底盤的不同而異。除了上述以大腸桿菌作為底盤， Zhou 等基于人工神經(jīng)網(wǎng)絡和 YeastFab 組裝技術組合在釀酒酵母中優(yōu)化外源代謝途徑來提高目標代謝物的產(chǎn)量。此外，一種基于貝葉斯優(yōu)化的自動推薦工具—— ART(Automated Recommendation Tool) 使得酵母中色氨酸的效價和生產(chǎn)率提升比例分別高達 74% 和 43%。該工具利用機器學習和概率建模技術以系統(tǒng)的方式指導合成生物學，而無需對生命系統(tǒng)有完整的理解 [59]。Ding 等開發(fā)的生物學推理系統(tǒng) CF- Targeter 基于已有代謝反應庫，利用途徑搜索算法(Pathway- Searching Algorithm) 對每個目標化合物執(zhí)行 1400 000 次搜索，可為指定的目標化合物選擇合適的底盤。

　　2.4 基因組工程

人工智能應用于合成生物學的挑戰(zhàn).png

　　圖 2 人工智能應用于合成生物學的挑戰(zhàn)

　　隨著基因測序、DNA 合成和基因編輯等技術的發(fā)展，合成生物學能對生物體的整個基因組甚至細胞進行工程改造，從而為直接探測基因型和表型之間的關系提供新工具，并為了解生物體基因組復雜功能體系提供一種全新的方式。在基因組工程領域，合成生物學與計算機技術的最早交互是通過一系列 Perl 腳本設計需改造的染色體序列及實現(xiàn)分層組裝策略。2018 年，Wang 等提出使用計算機仿真自上而下地合成最小化基因組，利用混合整數(shù)線性規(guī)劃 (Mixed-Integer Linear Programming) 標記已知的必需基因或?qū)е嘛@著適應性損失的基因，避免合成致死缺失，并在大腸桿菌中成功驗證。

　　除了基因組合成外，基因組編輯、微生物組或群落的設計也涉及合成生物學與人工智能技術的交互。2018 年， DeepCRISPR 通過深度學習實現(xiàn)對 sgRNA 的靶點和靶點外預測，超越了其他軟件工具的準確性，這將有助于實現(xiàn)高靈敏度和高特異性的 sgRNA 優(yōu)化設計并應用于精準編輯基因組。人工智能輔助合成生物學技術在調(diào)節(jié)腸道益生菌的治療和營養(yǎng)方面也展現(xiàn)出一定價值。例如，將來自健康人群和腸道疾病患者的腸道微生物組的元基因組數(shù)據(jù)與機器學習算法( 如邏輯回歸、隨機森林和支持向量機等 ) 協(xié)同建模，可以更好地促進健康、免疫、消化、大腦功能等方面的研究。2021 年，Karkaria 等以合成生物學中的計算環(huán)路設計為基礎，借助近似貝葉斯計算(Approximate Bayesian Computation) 和蒙特卡洛采樣法的模型選擇和參數(shù)優(yōu)化算法，提出了自動化合成微生物共生系統(tǒng)設計器，并構建穩(wěn)定的雙菌和三菌共生系統(tǒng)。該方法不但能給出構建穩(wěn)定共生系統(tǒng)的基本設計原則，而且能揭示控制共生系統(tǒng)組成的關鍵參數(shù)。

　　3 人工智能與合成生物學交叉研究的關鍵瓶頸及未來方向

　　人工智能作為一門快速發(fā)展的新興學科，其數(shù)學模型的訓練主要基于數(shù)據(jù)驅(qū)動。然而，當前合成生物學研究存在數(shù)據(jù)來源廣、數(shù)據(jù)形式異構、高質(zhì)量訓練數(shù)據(jù)不足等問題，這導致小數(shù)據(jù)稀疏監(jiān)督下人工智能模型難以得到有效訓練。鑒于生命系統(tǒng)極其復雜，很難用傳統(tǒng)數(shù)學模型精確描述，當前技術仍無法有效預測復雜的基因線路。構建工程化平臺是合成生物系統(tǒng)的重要研究手段，但當前工程化試錯存在標準化的數(shù)據(jù)缺乏、海量的試錯空間、定量的表征手段較少等問題，且智能化試錯、優(yōu)化、學習的理論支撐不足，工程化平臺仍無法有效指導合成生物系統(tǒng)的設計與改造 ( 圖 2)。本小節(jié)將介紹人工智能技術與合成生物學的交叉研究在數(shù)據(jù)標準化、試錯智能化、實驗自動化、預測精準化方面存在的挑戰(zhàn)。

　　3.1 數(shù)據(jù)標準化

　　合成生物工程自動化水平低，很大程度上受限于復雜的生命系統(tǒng)下用于人工智能模型訓練的標準化數(shù)據(jù)。例如，在生物信息系統(tǒng)中，轉(zhuǎn)錄調(diào)控和免疫信號轉(zhuǎn)導網(wǎng)絡數(shù)據(jù)通常存在類型不統(tǒng)一、有效數(shù)據(jù)缺乏和數(shù)據(jù)層次多等問題，且現(xiàn)有的KEGG、GO 等公共數(shù)據(jù)庫、公開文獻數(shù)據(jù)及實驗結果反饋的數(shù)據(jù)標準不統(tǒng)一，這需要研發(fā)構建多源融合的標準合成生物元件信息庫的方法和技術，提供智能化查詢、檢索和推薦等功能。高效利用公開數(shù)據(jù)庫也是為機器學習算法提供訓練數(shù)據(jù)的有效手段。在標準化數(shù)據(jù)的支持下，機器學習算法具有挖掘更多生物元件的潛力——采用生物信息學以及基因數(shù)據(jù)挖掘技術，從已有的元件庫和未知微生物中挖掘更多的生物元件：結合生物學實驗，將已有的生物元件作為輸入，設計并訓練機器學習模型，挖掘已有元件的模式，用于指導相應元件進行修飾、重組和改造，從而生成新的生物元件信息資源。然而，現(xiàn)實中存在著海量的還未發(fā)現(xiàn)的自然元件數(shù)據(jù)，這需要我們研發(fā)用于未知元件數(shù)據(jù)的自動化注釋與標注的機器學習方法。

　　3.2 試錯智能化

　　智能試錯利用 DBTL 閉環(huán)中產(chǎn)生的數(shù)據(jù)，選擇下一個迭代的實驗設計，可以提高實驗數(shù)據(jù)質(zhì)量，減少估計誤差。上述過程適合利用強化學習等優(yōu)化決策理論框架進行建模，目標是輸出累積獎勵最高的實驗設計序列。然而，由于合成生物實驗通常時間跨度大、成本高，DBTL 迭代次數(shù)有限，可用于訓練強化學習決策模型的數(shù)據(jù)極度不足。因此，解決小數(shù)據(jù)與增量數(shù)據(jù)條件下的方案優(yōu)化問題是合成生物系統(tǒng)設計、試錯智能化的瓶頸問題。機器學習領域中一些小數(shù)據(jù)集下模型訓練的理論框架具有應對上述挑戰(zhàn)的潛力：分級強化的理念可減輕由于合成生物系統(tǒng)狀態(tài)和可用改造手段的數(shù)量巨大，導致實驗軌跡數(shù)據(jù)相對稀疏問題;生成對抗學習框架產(chǎn)生高質(zhì)量的實驗軌跡可解決稀疏實驗軌跡數(shù)據(jù)帶來訓練不足的問題;遷移學習框架也可復用已有相近源域的實驗數(shù)據(jù) / 模型，解決目標域由于稀疏實驗軌跡數(shù)據(jù)無法有效訓練設計策略模型的問題。將上述通用理論框架與合成生物領域場景相結合，可發(fā)展出一系列服務于試錯智能化的新型機器學習算法。

　　3.3 實驗自動化

　　實驗自動化旨在設計專用的人工智能技術以提高 DBTL 閉環(huán)中構建和測試兩個環(huán)節(jié)的構建效率和測試質(zhì)量。構建環(huán)節(jié)主要依賴于高靈活度的協(xié)議，優(yōu)化構建規(guī)劃與資源調(diào)度和提高自動化執(zhí)行的能力。研究機器人、不確定性環(huán)境下的優(yōu)化規(guī)劃等人工智能技術可減少人工干預、提高構建的效率。測試環(huán)節(jié)主要檢驗基因改造后細胞的行為是否符合預期。其中，最大的挑戰(zhàn)是如何準確建立起基因型與表型之間的聯(lián)系。例如，定量地建立代表性真核細胞、原生生物、病毒基因型和表型 ( 基因轉(zhuǎn)錄水平、蛋白表達量、小分子生成量、個體生存和功能水平 ) 之間的關系。面向多場景的合成生物自動化設施的升級、改造和集成等給實驗自動化帶來了巨大的技術挑戰(zhàn)。實現(xiàn)實驗自動化可確保高通量的實驗數(shù)據(jù)源源不斷地進入 DBTL 閉環(huán)中，驅(qū)動循環(huán)，從而促使各個環(huán)節(jié)中機器學習方法提高性能。

　　3.4 預測精準化

　　由于合成生物系統(tǒng)復雜度高 ( 可獲取的數(shù)據(jù)極其復雜，通常具有數(shù)以萬計的變量 )，數(shù)據(jù)總量卻嚴重不足，所以難以訓練出一個高精度的機器學習模型。遷移學習是在少量數(shù)據(jù)條件下通過遷移相關的兩個或多個領域之間的知識結構進行模型有效訓練的一種思路。例如，描述不同合成生物系統(tǒng)生物元件的基因水平上的調(diào)控信息、蛋白質(zhì)水平上的相互作用和翻譯后修飾信息等，可在稀疏數(shù)據(jù)條件下提高預測準確性。此外，許多預測能力強的機器學習模型 ( 圖卷積神經(jīng)網(wǎng)絡等 ) 存在“黑盒問題”，難以從生物學角度對模型輸出進行解釋，這阻礙了機器學習模型發(fā)現(xiàn)生物學內(nèi)在機制的能力。合成生物應用存在大量的領域知識，通過融合機器學習模型與領域內(nèi)知識可以更好地理解內(nèi)部機制，提高預測的精準度。而通過對生物內(nèi)部機制的理解也可為建立全新的人工智能算法帶來啟發(fā)，如對進化生物學、腦科學和行為科學的研究啟發(fā)了進化計算、人工神經(jīng)網(wǎng)絡以及強化學習等機器學習理論。合成生物系統(tǒng)中通過基因間的精密相互交互，動態(tài)形成調(diào)控網(wǎng)絡，從而產(chǎn)出目標因子的工作方式，揭示了粗放型的傳統(tǒng)機器學習模型——依賴大量數(shù)據(jù)、學習內(nèi)在模式的方式已無法滿足需求，亟需研究可精確融合領域知識的新型通用機器學習算法框架。

基于人工智能的“類合成生物學家”概念.png

圖 3 基于人工智能的“類合成生物學家”概念

　　3.5 四大挑戰(zhàn)間的聯(lián)系

　　解決數(shù)據(jù)標準化、試錯智能化、實驗自動化、預測精準化四大挑戰(zhàn)是相輔相成的。解決數(shù)據(jù)標準化挑戰(zhàn)，建立起動態(tài)融合的知識庫，可以作為其他三個方面開展的基礎。其中，高通量實驗數(shù)據(jù)的采集及智能試錯技術進行優(yōu)化，可為預測模型提供數(shù)據(jù)標準。而解決試錯智能化的挑戰(zhàn)則可在小數(shù)據(jù)稀疏監(jiān)督下利用人工智能有效指導實驗設計，提高元件庫中新元件的挖掘效率以及標準化建庫的質(zhì)量;海量設計方案空間的優(yōu)化探索，也可提高構建合成生物系統(tǒng)預測模型的效率。解決實驗自動化挑戰(zhàn)，實現(xiàn)高通量實驗來增加訓練數(shù)據(jù)總量，從源頭上為智能試錯算法和預測模型緩解小數(shù)據(jù)與稀疏監(jiān)督的問題。解決預測精準化挑戰(zhàn)，可根據(jù)基因型對合成生物系統(tǒng)表現(xiàn)型進行精準預測，以此顯著提升強化學習模型策略效率，從而減少對真實實驗數(shù)據(jù)的依賴。解決上述挑戰(zhàn)可助力構建基于人工智能完成 DBTL 閉環(huán)的“類合成生物學家”智能體 ( 圖 3)，不斷在循環(huán)過程中進行學習與試錯優(yōu)化，從而在數(shù)據(jù)標準化、實驗自動化、預測精準化方面大大降低真實生物學實驗的試錯空間和成本。

　　4 總結與展望

　　人工智能與合成生物學交叉融合的研究工作仍處于發(fā)軔之始階段：(1) 常用于實現(xiàn)智能化元件工程、線路工程、代謝工程和基因組工程的底盤生物仍局限于大腸桿菌和釀酒酵母;(2)全基因組、微生物組或群落水平的智能化設計和合成仍寥寥無幾;(3) 人工智能與合成生物學的融合多發(fā)生于 DBTL 循環(huán)的個別步驟，而 DBTL 全循環(huán)實現(xiàn)智能化的研究仍屈指可數(shù)?？上驳氖牵?020 年國家重點研發(fā)計劃“合成生物學”專項立項名單中涌現(xiàn)了一批合成生物學與智能算法融合的項目，包括“基于合成生物學的新型活疫苗設計與開發(fā)”、“面向合成生物系統(tǒng)海量工程試錯優(yōu)化的人工智能算法研究與應用”、“數(shù)字細胞建模與人工模擬”、“新蛋白質(zhì)元件人工設計合成及應用”、“正交化蛋白質(zhì)復合物元件的人工設計構建與應用”等。值得關注的是，“面向合成生物系統(tǒng)海量工程試錯優(yōu)化的人工智能算法研究與應用”項目通過開發(fā)具有持續(xù)學習能力的自動化海量試錯優(yōu)化平臺實現(xiàn) DBTL 全循環(huán)智能化，利用人工智能的優(yōu)勢給工業(yè)合成生物學和醫(yī)學合成生物學領域研究帶來新的思路，并結合合成生物學的特色在微藻油脂細胞工廠、固有免疫細胞、人造噬菌體三大生物學應用場景下開展人工智能的算法研究。受限于生命系統(tǒng)內(nèi)部機理復雜以及合成生物實驗周期長、成本高，以及適合訓練人工智能方法的數(shù)據(jù)量極度不足，現(xiàn)有的機器學習方法均不足以支持高精度預測和實驗設計優(yōu)化。因此，研究小數(shù)據(jù) / 零數(shù)據(jù)下的服務于海量工程試錯的強化學習模型、具有生物可解釋性的機器學習預測模型，可同時促進人工智能和合成生物學兩大領域的發(fā)展。通過數(shù)據(jù)驅(qū)動及持續(xù)學習，“類合成生物學家”依照 DBTL 循環(huán)策略，部署多種基于人工智能的工具進行工程化的海量試錯，可在快速合成具備目標功能的生命系統(tǒng)的同時孵化智能技術的革新。

　　李敏 1,2# 林子杰 3# 廖文斌 3 陳廷柏 3 李堅強 3* 陳杰 3* 肖敏鳳 1,4*

　　1 深圳華大生命科學研究院

　　2 中國科學院大學生命科學學院

　　3 深圳大學計算機與軟件學院

　　4 深圳市未知病原體應急檢測重點實驗室轉(zhuǎn)載自《集成技術》

標簽：人工智能

分享到：

上一篇：ZDevelop：機器視覺 + 運動控...

下一篇：無刷直流電機在工業(yè)機器人的應用

中國傳動網(wǎng)版權與免責聲明：凡本網(wǎng)注明[來源：中國傳動網(wǎng)]的所有文字、圖片、音視和視頻文件，版權均為中國傳動網(wǎng)(www.treenowplaneincome.com)獨家所有。如需轉(zhuǎn)載請與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個人轉(zhuǎn)載使用時須注明來源“中國傳動網(wǎng)”，違反者本網(wǎng)將追究其法律責任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件，均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士，版權屬于原版權人。轉(zhuǎn)載請保留稿件來源及作者，禁止擅自篡改，違者自負版權法律責任。

相關資訊

技術熱點