獲輝達(NVIDIA)投資的AI搜尋引擎Perplexity AI,近日被《富比士》(Forbes)和《連線》(Wired)等外媒指控其擅自抓取新聞生成回答,甚至包括設有付費牆的內容。這不僅有抄襲疑慮,AI的「幻覺」問題也可能混淆事實。到底狀況如何?《遠見》實測4家外媒付費牆揭露抄襲真相。
黃仁勳創辦的輝達,看好投資的生成AI新秀,竟然是內容小偷?
只要輸入想問的問題,AI搜尋引擎Perplexity就能快速綜合網路資料生成答案,讓使用者不必像以往使用Google Search得再逐篇查閱搜尋到的文章。這方便功能吸引每個月超過1000萬人使用。五月底時,Perplexity推出「Pages」功能,讓AI的回答不再只是簡短的段落,而是一篇完整的文章。也因為這一連串好評,讓它被外界譽為有可能顛覆Google霸權的新巨星。
外媒測試指控AI抄襲報導
然而,近日外媒《富比士》(Forbes)和《連線》(Wired)接連撰文指控Perplexity。《富比士》指出,Perplexity生成的一篇關於隱形無人機的文章,與其獨家報導高度相似。即使《富比士》的網站有設置付費牆,僅有會員能閱讀,Perplexity仍然能繞過付費牆,爬取其內容。《富比士》表示,Perplexity未經許可就拿走他們的作品,甚至將其內容重製成Podcast放在Youtube上。
《富比士》執行主編帕茨科夫斯基(John Paczkowski)在X上揭露此事,Perplexity執行長斯里尼瓦斯(Aravind Srinivas)則留言回應,表示這個新的產品功能還有些粗糙(rough edges),需要更多的回饋來改進。
Our reporting on Eric Schmidt’s stealth drone project was posted this AM by @perplexity_ai . It rips off most of our reporting. It cites us, and a few that reblogged us, as sources in the most easily ignored way possible. Note the views. #zeroclick https://t.co/qZamti9E83 pic.twitter.com/8z2AsyHjgM
— John Paczkowski (@JohnPaczkowski) June 7, 2024
斯里尼瓦斯也在接受《美聯社》(AP News)採訪時解釋,Perplexity從未盜用他人內容,也沒有以任何人的內容進行訓練,之所以出現此狀況,可能是因為其匯總了其他AI系統生成的內容。他說明,Perplexity是扮演資訊整合者的角色,希望能為人們提供正確的內容,未來也會更明確地標示資訊出處。
《遠見》實測:四家主流媒體付費牆,AI搜尋全都露
《遠見》實測Perplexity是否確實能繞過媒體的付費牆,提供新聞內容摘要。結果發現,遭殃的不只是《富比士》,還有像是《財富》(Fortune)、《紐約時報》(The New York Times)和《華爾街日報》(The Wall Street Journal)等,只要提供網址給Perplexity,其便能生成文章摘要。但如果是一般人點入同樣的報導網址,很快就會出現付費訂閱的提醒來阻擋未付費的用戶閱讀。
➠ 與Perplexity的完整對話,可見此連結。
如果直接點進該篇文章,會受到付費牆阻擋,需加入會員才能閱讀。
Perplexity AI 無視robots.txt文件,擅自爬取內容
至此,風波尚未結束。一名工程師奈特(Robb Knight)在其個人網站上表示,Perplexity不僅是涉嫌抄襲,更是無視robots.txt文件,擅自爬取未經同意的內容。robots.txt文件為各網站寫給機器人看的指引,例如哪些內容禁止爬蟲機器人抓取等,但僅類似於需自行遵守的行為守則,並無強制約束力。
《連線》也證實了奈特的發現。文中指出,《連線》的母公司Condé Nast的網站被Perplexity的秘密IP造訪了至少822次。為了驗證此IP與Perplexity有關,《連線》建立了一個新網站,要求Perplexity總結其網站內容,並觀察造訪此網站的IP位址,結果幾乎能肯定前述秘密IP來自Perplexity。
Perplexity表示:AI摘要網頁內容不等於爬蟲
外媒《TechCrunch》採訪了Perplexity的業務主管謝韋連科(Dmitry Shevelenko),其表示,摘要網頁內容並不等於爬蟲。他說明,爬蟲是指四處吸取資訊,並將其添加至索引中。而使用者將網站連結輸入Perplexity,並不符合爬蟲的定義,「我們只是回應使用者直接且具體的請求,去造訪該網址。」但對於這些媒體而言,兩者之間並沒有太大差異,《TechCrunch》指出:「如果每天這樣做數千次,看起來就非常像是爬蟲。」
此外,《連線》和《美聯社》也發現Perplexity的「幻覺」問題,例如編造真實人物沒說過的話等。即使要求Perplexity先閱讀特定文章後再回答,答案仍可能參雜不實內容。《連線》在其報導中諷刺道:「讓Perplexity價值十位數的魔法可以說是,它既做了自己說沒做的事,又沒做自己說要做的事。」
AI將媒體內容據為己有,將讓媒體更難生存
《TechCrunch》總結了這項爭議的隱憂。當AI繼續將媒體生產的內容據為己有,媒體將更難透過讀者的點閱賺取廣告資金。最終,能生存下來的媒體愈來愈少,AI能爬蟲的真實內容也變得更有限,可能會導致偏見和不實內容的負面迴圈。因此,AI公司應該與媒體達成協議,確認在不影響媒體運作的前提下,哪些內容能用於訓練AI。