AI需要訓練資料，網站只能任憑擺布？

張瑞雄

張瑞雄

2023-10-04

瀏覽數

生成式AI之所以厲害，是因為用了大量的網路資料去訓練，但用網路資料是否需要事先取得同意，一直是灰色地帶。圖片來源：Photo by Levart_Photographer on Unsplash

00:00

生成式AI，如ChatGPT，之所以那麼厲害，是因為用了大量的網路資料去訓練，但用網路資料是否先需要事先取得同意，一直是在灰色地帶，AI公司希望這屬於所謂的合理使用（Fair Use）範圍，網站內容公司當然不這樣認為。

最近，網路媒體平台Medium宣布，將阻止OpenAI的GPTBot，該程式會抓取網頁，以獲取用於訓練該公司AI模型的內容，接著一群平台可能很快就會形成統一戰線，反對AI公司對其內容的利用。

Medium與CNN等媒體，拒絕網路爬蟲和索引器

Medium與CNN、《紐約時報》和許多其他媒體機構，一起拒絕網路爬蟲和索引器，雖然這樣，也會讓網站不會被谷歌建立起索引，因此也不會被搜尋到，會減少曝光率。

AI廠商所做的不僅僅是索引，他們抓取網站資料，作為模型訓練的來源材料，很少有人對此感到高興，Medium執行長寫道：「我不是仇恨者，但我也想坦白地說，生成式AI的當前狀態，並沒有為網路帶來淨收益。他們在未經您同意的情況下，透過您的寫作賺錢，也不會向您提供報酬和感謝。AI公司從作家那裡榨取價值，以便向網路讀者發送重組的資訊。」

因此，當OpenAI的爬蟲來襲時，Medium的標準作法就是告訴OpenAI滾蛋，可惜OpenAI只是少數尊重內容網站要求的公司之一。

然而，這種本質上自願的作法，不太可能對垃圾郵件發送者和其他不理會請求者的行為產生影響。儘管內容網站也有可能採取某些積極措施（例如，引導愚蠢的網路爬蟲，去拿虛假內容來毒害他們的資料），但這種方式會導致衝突升級和額外費用，以及可能的訴訟。

不過，還有希望，媒體並不孤單。很多平台正在形成聯盟，互享討論合作，以幫助弄清楚AI時代合理使用的未來。很多大型網站都已加入，但他們還沒有準備好曝光。

所有網站都面臨同樣的問題，就像科技領域的許多事情一樣，更多人在一個標準或平台上保持一致的意見，會產生網路效應，並改善每個人的結果，大型組織的聯盟，將成為對不擇手段的AI平台形成強大制衡。