自從ChatGPT在去年11月問世以來,這種大型語言模型的人工智慧系統如雨後春筍,各大科技大廠都不落人後紛紛推出自己的系統。但這種系統需要大量資料的預先訓練,訓練資料能從哪裡來呢?
ChatGPT使用大量文本數據來訓練神經網路,來生成自然語言文本,這個訓練過程是無人監督的,該演算法透過接觸大量文本數據,並使用數據中的統計模式,預測接下來應該出現什麼單詞來學習生成文本。
訓練ChatGPT模型的過程涉及兩個階段,第一階段是語言建模,此階段涉及訓練模型在給定序列中所有先前的單詞的情況下預測單詞序列中的下一個單詞。這有助於模型學習語言的統計模式,例如常見的單詞組合和語法規則。
第二階段是微調,在這個階段,模型針對特定任務進行微調,例如語言翻譯或情感分析。這涉及在特定於當前任務的較小數據集上訓練模型,透過針對特定任務微調模型,它可以學習生成適合該任務特定要求的文本。
根據ChatGPT自己的回答,它的訓練資料包括許可數據、人類培訓師創建的數據和公開數據的混合,這些來源可能包含來自各種出版商或出版物的公開訊息。然而,用於訓練的具體數據集,尚未被ChatGPT背後的組織OpenAI公開披露,可知的是,ChatGPT接受過各種數據的訓練,包括書籍、網站和其他文本,以培養對人類語言的廣泛理解。
訓練資料的包羅萬象,讓這些訓練大型語言模型的公司陷入一個陷阱,就是公司無法保證所有的資料是合法使用,且沒有侵犯版權和隱私的問題,也造成公司陷入被告的風險中。
匿名訴訟指控OpenAI竊取大量個人訊息
果不其然,一群匿名人士在集體訴訟中聲稱,ChatGPT的建立者OpenAI,正在竊取「大量的」個人訊息來訓練其模型,以不顧一切地追求利潤。
根據這份長達157頁的訴訟,OpenAI祕密地從互聯網上竊取了3000億個單詞,竊取「書籍、文章、網站和帖子,包括未經同意獲得的個人訊息」,從而違反了隱私法,並指責該公司冒著「文明崩潰」的風險。
無獨有偶,Google最近也是被告,被指控在未經數百萬用戶同意的情況下竊取數據,以訓練和開發其人工智慧產品。訴狀稱Google「一直在祕密竊取數億美國人在互聯網上建立和分享的所有內容」,並利用這些數據來訓練其人工智慧產品,例如聊天機器人Bard。起訴書還聲稱,Google已經「幾乎利用了我們的全部數位足跡」,包括「創意和文案作品」。
本來透過搜索引擎,Google可以「提供指向你作品的鏈接,這實際上可促使人們購買它或參考它。」然而,用於訓練人工智慧工具的數據抓取「該作品的內容,從根本上改變了任何人需要購買該作品的動機。」
雖然一些互聯網用戶可能已經習慣他們的數據被收集,並用於搜索結果或有針對性的廣告,但人工智慧的訓練可能並非如此單純,人們無法想像他們的資料會被這樣使用。
所以,未來科技公司需要為人們創造一個「選擇性退出」(opt out)的選項,讓使用者可以不想將其數據用於訓練人工智慧,同時仍保持使用互聯網的權力。
👉 掌握議題動向,一起加入《遠見》 Line官方帳號!
本文章反映作者意見,不代表《遠見》立場
(作者為台北商大前校長、叡揚資訊數位轉型大使)