透過「機器學習」也能預測藥物毒性？AI人工智慧正改變全世界

藥物的毒性預測，有助於降低實際應用的風險。你知道用各種機器學習模型就可以預測藥物的毒性問題嗎？國際著名的AI人工智慧、影像處理和模式識別專家施永強教授解析：在眾多機器學習方法中，我們選用五個具代表性的模型：隨機森林、多層感知器、邏輯迴歸、圖卷積神經網路和圖同構網路，並在6個資料集上進行了毒性預測實驗。（本文節錄自《人工智慧的現在與未來》一書，作者：施永強，旗標科技出版，以下為摘文。）

用機器學習方法預測藥物毒性不僅高效率而且可靠

以往藥物毒性預測主要是在實驗室中進行測試，這一過程非常耗時且成本高昂。如今，隨著基於分子的機器學習方法的改進，毒性預測變得愈來愈高效且可靠。

在機器學習技術中，隨機森林適合從病患記錄中辨識感染，並能改善激酶配體、荷爾蒙等分子的預測。多層感知器是一種強大的機器學習方法，可以用來預測不同藥物的作用。此外，MLP 還被用於藥物設計，根據預先定義的特性自動產生不同的化合物。

深度學習在藥物探索領域的廣泛應用

作為機器學習的子集，深度學習在藥物探索領域得到了廣泛應用。例如，循環神經網路 (Recurrent Neural Network, RNN) 透過分子指紋技術發現了抗癌藥物。自動編碼器 (Autoencoder) 也被引入，透過直接對小型動物進行實驗來提供分子。

深度學習在藥物探索方面的廣泛應用，引起研究人員對開發更強大深度學習模型的濃厚興趣。然而，輸入數據 (如分子) 可以是任意大小和形狀的。目前，大多數機器學習和深度學習方法只能處理固定大小的輸入，即固定的向量、矩陣或張量。這一限制制約了機器學習方法在藥物發現方面的應用，特別是在毒性預測方面。

為了解決這個問題，一種名為圖神經網路 (Graph Neural Network, GNN) 的深度學習模型被提出。GNN 能夠以圖為輸入進行特徵提取，進行節點分類、連結預測、圖分類和圖生成等任務。例如，ChemRL 是一種有效的分子表徵學習方法，它成功地促進了分子性質的預測。(延伸閱讀│與輝達合作超級電腦後，華碩、國衛院如何靠AI改善醫療？)

實驗設計平台

為了對不同的毒性預測模型進行效能比較，我們採用了六個資料集：Tox 21、ClinTox、ToxCast、SIDER、HIV 和 BACE。

Tox 21 資料集是為測量化學化合物毒性而建立的公開資料集。它包含 7,950 種化合物以及 12 個毒性分類標籤。其中，我們隨機選取 6,242 個作為訓練集，683 個作為驗證集，784 個作為測試集。

ClinTox 是一個毒性預測資料集，由 1,451 種用於毒理學研究的化合物和 2 個毒性任務的標籤組成。在這些化合物中，我們隨機選擇了 1,182 個作為訓練集，148 個作為驗證集，148 個作為測試集。下圖顯示ClinTox 中的一些分子範例。

從 ClinTox 資料集中選取的部分分子（圖片來源：《人工智慧的現在與未來：它將如何改變全世界》／旗標科技出版）

ToxCast 資料集是另一個公開的毒性預測資料集，提供了 8,575 個分子和 617 個分類任務。其中，我們隨機選取了 6,860 個樣本作為訓練集，857 個樣本作為驗證集，857 個樣本作為測試集。

SIDER 資料集是一個開源資料集，致力於匯總已上市藥物對人體的副作用。該資料集包含 1,427 種已獲批准的藥物和 27 項分類任務。我們將其中的 1141 種用於訓練，143 種用於驗證，其餘用於測試。

HIV 資料集是為實驗測量抑制 HIV 複製能力而建立的資料集。此資料集包括 41,127 個分子和 1 個分類任務。其中 32,901 個被用作訓練數據，4,113 個用於測試，另外 4,113 個用於測試集。

BACE 資料集包含一組人類 ß-分泌酶抑制劑的二元結合結果。此資料集包含 1,513 個分子和 1 個分類任務。訓練集的大小為 1,210 個，驗證為 151 個，測試為 152 個。

由於電腦處理所有結構和化學特徵的需求日益增長，多年來開發了大量化學分子表示法。化學結構通常用分子圖來表示：二維或三維表示法以及輸入字串：SMILES (簡化分子線性輸入系統)、Canonical SMILES、IUPAC 等。

根據不同的表示方法，這些分子會以不同的格式儲存。一旦分子以正確的格式表示，將三維表示法轉換為二維表示法或 SMILES 輸入字串就成為一個簡單的格式轉換問題。我們將 SMILES 字串作為分子編碼的輸入，並透過 Python 將其轉換為圖形表示。

下圖顯示從 Tox 21 中選取的分子 SMILES 字串及其對應的圖表示 (即鄰接矩陣)。最後也展示了所選分子的可視化效果。透過將分子表示為圖形，我們可以包含分子的拓撲資訊、節點及其鄰接關係，甚至連通性屬性。

將 SMILES 字串轉換為鄰接矩陣及其對應圖形視覺化的範例（圖片來源：《人工智慧的現在與未來：它將如何改變全世界》／旗標科技出版）

透過這種方法，我們可以盡可能保留分子的資訊，這無疑有利於分子的性質預測。

你談的是地緣政治，他看的是拼音注音？一招打破餐桌上的世代句點>>

在實驗中，我們為隨機森林創建了 500 棵決策樹，並採用 Gini 不純度來分割節點以形成決策樹。對於 MLP，我們建立了一個三層感知器，並在輸出層末端使用 Softmax 分類器執行了 300 個訓練週期（Epoch）。

我們的所有實驗都是透過 Pytorch 使用四個NVIDIA Titan XP GPU 實現的。此外，圖卷積和 GIN 由 TorchDrug 實現，它在 Pytorch 中提供了藥物探索模型。

結論

本文將機器學習方法應用於藥物特性預測任務，特別是毒性預測。我們展示了深度學習方法，尤其是圖神經網路 (GNN)，在學習化學分子的圖表示方面擁有卓越能力。

GNN 能夠將分子視為任意大小和形狀的圖，並透過定位節點和邊來聚合圖嵌入，從而比其他機器學習方法取得更好的效果。

從不同表現指標的實驗結果來看，我們觀察到，分類準確率在其他應用領域中常用，但可能並不適合藥物性質預測。因為我們預測藥物性質的主要目標是明確區分陽性樣本和陰性樣本。因此，使用 ROC AUC 分數是衡量藥物特性預測模型效能的一個更好的方法。

ROC AUC 分數被用來衡量毒性預測的效能，計算的是 ROC 曲線下的面積，該曲線顯示每個閾值下的真陽性率 (TPR) 和假陽性率 (FPR)之間的權衡。

總結來說，我們的研究表示，深度學習方法在藥物毒性預測中的應用具有顯著優勢。GNN 尤其在處理圖結構數據方面表現出色，能夠在多個資料集上取得優異的預測性能。

透過進一步調整超參數和改進模型結構，我們相信 GNN 在藥物性質預測中的應用潛力將得到進一步發揮。這一成果為未來藥物開發和毒性評估提供了新的方向和方法。

(延伸閱讀│台灣將有另一座「護國神山」？AI聯手醫療雙強升級)

《人工智慧的現在與未來：它將如何改變全世界》，作者：施永強，旗標科技出版