成為遠見訂戶 成為遠見訂戶 首月90元體驗,免費參加沙龍|一起探討:為什麼你總是說不好?

透過「機器學習」也能預測藥物毒性?AI人工智慧正改變全世界

AI深度學習在藥物探索領域的廣泛應用。

遠見好讀
user

遠見好讀

2024-11-12

瀏覽數

《人工智慧的現在與未來》/僅為情境圖,取自unsplash
《人工智慧的現在與未來》/僅為情境圖,取自unsplash

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

藥物的毒性預測,有助於降低實際應用的風險。你知道用各種機器學習模型就可以預測藥物的毒性問題嗎?國際著名的AI人工智慧、影像處理和模式識別專家施永強教授解析:在眾多機器學習方法中,我們選用五個具代表性的模型:隨機森林、多層感知器、邏輯迴歸、圖卷積神經網路和圖同構網路,並在6個資料集上進行了毒性預測實驗。(本文節錄自《人工智慧的現在與未來》一書,作者:施永強,旗標科技出版,以下為摘文。)

用機器學習方法預測藥物毒性不僅高效率而且可靠

以往藥物毒性預測主要是在實驗室中進行測試,這一過程非常耗時且成本高昂。如今,隨著基於分子的機器學習方法的改進,毒性預測變得愈來愈高效且可靠。

在機器學習技術中,隨機森林適合從病患記錄中辨識感染,並能改善激酶配體、荷爾蒙等分子的預測。多層感知器是一種強大的機器學習方法,可以用來預測不同藥物的作用。此外,MLP 還被用於藥物設計,根據預先定義的特性自動產生不同的化合物。

深度學習在藥物探索領域的廣泛應用

作為機器學習的子集,深度學習在藥物探索領域得到了廣泛應用。例如,循環神經網路 (Recurrent Neural Network, RNN) 透過分子指紋技術發現了抗癌藥物。自動編碼器 (Autoencoder) 也被引入,透過直接對小型動物進行實驗來提供分子。

深度學習在藥物探索方面的廣泛應用,引起研究人員對開發更強大深度學習模型的濃厚興趣。然而,輸入數據 (如分子) 可以是任意大小和形狀的。目前,大多數機器學習和深度學習方法只能處理固定大小的輸入,即固定的向量、矩陣或張量。這一限制制約了機器學習方法在藥物發現方面的應用,特別是在毒性預測方面。

為了解決這個問題,一種名為圖神經網路 (Graph Neural Network, GNN) 的深度學習模型被提出。GNN 能夠以圖為輸入進行特徵提取,進行節點分類、連結預測、圖分類和圖生成等任務。例如,ChemRL 是一種有效的分子表徵學習方法,它成功地促進了分子性質的預測。(延伸閱讀│與輝達合作超級電腦後,華碩、國衛院如何靠AI改善醫療?)

實驗設計平台

為了對不同的毒性預測模型進行效能比較,我們採用了六個資料集:Tox 21、ClinTox、ToxCast、SIDER、HIV 和 BACE。

Tox 21 資料集是為測量化學化合物毒性而建立的公開資料集。它包含 7,950 種化合物以及 12 個毒性分類標籤。其中,我們隨機選取 6,242 個作為訓練集,683 個作為驗證集,784 個作為測試集。

ClinTox 是一個毒性預測資料集,由 1,451 種用於毒理學研究的化合物和 2 個毒性任務的標籤組成。在這些化合物中,我們隨機選擇了 1,182 個作為訓練集,148 個作為驗證集,148 個作為測試集。下圖顯示ClinTox 中的一些分子範例。

從 ClinTox 資料集中選取的部分分子(圖片來源:《人工智慧的現在與未來:它將如何改變全世界》/旗標科技出版)

從 ClinTox 資料集中選取的部分分子(圖片來源:《人工智慧的現在與未來:它將如何改變全世界》/旗標科技出版)

ToxCast 資料集是另一個公開的毒性預測資料集,提供了 8,575 個分子和 617 個分類任務。其中,我們隨機選取了 6,860 個樣本作為訓練集,857 個樣本作為驗證集,857 個樣本作為測試集。

SIDER 資料集是一個開源資料集,致力於匯總已上市藥物對人體的副作用。該資料集包含 1,427 種已獲批准的藥物和 27 項分類任務。我們將其中的 1141 種用於訓練,143 種用於驗證,其餘用於測試。

HIV 資料集是為實驗測量抑制 HIV 複製能力而建立的資料集。此資料集包括 41,127 個分子和 1 個分類任務。其中 32,901 個被用作訓練數據,4,113 個用於測試,另外 4,113 個用於測試集。

【遠見線上讀全新上市!】4/1~4/30訂閱首月享$90元體驗價,讓知識不受限紙本,更要充實在生活中>>

BACE 資料集包含一組人類 ß-分泌酶抑制劑的二元結合結果。此資料集包含 1,513 個分子和 1 個分類任務。訓練集的大小為 1,210 個,驗證為 151 個,測試為 152 個。

由於電腦處理所有結構和化學特徵的需求日益增長,多年來開發了大量化學分子表示法。化學結構通常用分子圖來表示:二維或三維表示法以及輸入字串:SMILES (簡化分子線性輸入系統)、Canonical SMILES、IUPAC 等。

根據不同的表示方法,這些分子會以不同的格式儲存。一旦分子以正確的格式表示,將三維表示法轉換為二維表示法或 SMILES 輸入字串就成為一個簡單的格式轉換問題。我們將 SMILES 字串作為分子編碼的輸入,並透過 Python 將其轉換為圖形表示。

下圖顯示從 Tox 21 中選取的分子 SMILES 字串及其對應的圖表示 (即鄰接矩陣)。最後也展示了所選分子的可視化效果。透過將分子表示為圖形,我們可以包含分子的拓撲資訊、節點及其鄰接關係,甚至連通性屬性。

將 SMILES 字串轉換為鄰接矩陣及其對應圖形視覺化的範例(圖片來源:《人工智慧的現在與未來:它將如何改變全世界》/旗標科技出版)

將 SMILES 字串轉換為鄰接矩陣及其對應圖形視覺化的範例(圖片來源:《人工智慧的現在與未來:它將如何改變全世界》/旗標科技出版)

透過這種方法,我們可以盡可能保留分子的資訊,這無疑有利於分子的性質預測。

在實驗中,我們為隨機森林創建了 500 棵決策樹,並採用 Gini 不純度來分割節點以形成決策樹。對於 MLP,我們建立了一個三層感知器,並在輸出層末端使用 Softmax 分類器執行了 300 個訓練週期(Epoch)。

我們的所有實驗都是透過 Pytorch 使用四個NVIDIA Titan XP GPU 實現的。此外,圖卷積和 GIN 由 TorchDrug 實現,它在 Pytorch 中提供了藥物探索模型。

結論

本文將機器學習方法應用於藥物特性預測任務,特別是毒性預測。我們展示了深度學習方法,尤其是圖神經網路 (GNN),在學習化學分子的圖表示方面擁有卓越能力。

GNN 能夠將分子視為任意大小和形狀的圖,並透過定位節點和邊來聚合圖嵌入,從而比其他機器學習方法取得更好的效果。

從不同表現指標的實驗結果來看,我們觀察到,分類準確率在其他應用領域中常用,但可能並不適合藥物性質預測。因為我們預測藥物性質的主要目標是明確區分陽性樣本和陰性樣本。因此,使用 ROC AUC 分數是衡量藥物特性預測模型效能的一個更好的方法。

ROC AUC 分數被用來衡量毒性預測的效能,計算的是 ROC 曲線下的面積,該曲線顯示每個閾值下的真陽性率 (TPR) 和假陽性率 (FPR)之間的權衡。

總結來說,我們的研究表示,深度學習方法在藥物毒性預測中的應用具有顯著優勢。GNN 尤其在處理圖結構數據方面表現出色,能夠在多個資料集上取得優異的預測性能。

透過進一步調整超參數和改進模型結構,我們相信 GNN 在藥物性質預測中的應用潛力將得到進一步發揮。這一成果為未來藥物開發和毒性評估提供了新的方向和方法。

(延伸閱讀│台灣將有另一座「護國神山」?AI聯手醫療雙強升級)

《人工智慧的現在與未來:它將如何改變全世界》,作者:施永強,旗標科技出版

《人工智慧的現在與未來:它將如何改變全世界》,作者:施永強,旗標科技出版

AI治理有方 新北市打造智慧城市資安新典範
數位專題

AI治理有方 新北市打造智慧城市資安新典範

洞察趨勢的新北市政府,以超前部署、積極布局的策略,致力打造宜居、創新的智慧城市,聚焦「基礎建設」、「關鍵技術」、「智慧應用」三大面向,新北市已同步展現具體成果,體現地方政府的前瞻思維與執行力。

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務