比Google強靠偷？實測Perplexity AI竟翻付費牆

獲輝達（NVIDIA）投資的AI搜尋引擎Perplexity AI，近日被《富比士》（Forbes）和《連線》（Wired）等外媒指控其擅自抓取新聞生成回答，甚至包括設有付費牆的內容。這不僅有抄襲疑慮，AI的「幻覺」問題也可能混淆事實。到底狀況如何？《遠見》實測4家外媒付費牆揭露抄襲真相。

黃仁勳創辦的輝達，看好投資的生成AI新秀，竟然是內容小偷？

只要輸入想問的問題，AI搜尋引擎Perplexity就能快速綜合網路資料生成答案，讓使用者不必像以往使用Google Search得再逐篇查閱搜尋到的文章。這方便功能吸引每個月超過1000萬人使用。五月底時，Perplexity推出「Pages」功能，讓AI的回答不再只是簡短的段落，而是一篇完整的文章。也因為這一連串好評，讓它被外界譽為有可能顛覆Google霸權的新巨星。

外媒測試指控AI抄襲報導

然而，近日外媒《富比士》（Forbes）和《連線》（Wired）接連撰文指控Perplexity。《富比士》指出，Perplexity生成的一篇關於隱形無人機的文章，與其獨家報導高度相似。即使《富比士》的網站有設置付費牆，僅有會員能閱讀，Perplexity仍然能繞過付費牆，爬取其內容。《富比士》表示，Perplexity未經許可就拿走他們的作品，甚至將其內容重製成Podcast放在Youtube上。

《富比士》執行主編帕茨科夫斯基（John Paczkowski）在X上揭露此事，Perplexity執行長斯里尼瓦斯（Aravind Srinivas）則留言回應，表示這個新的產品功能還有些粗糙（rough edges），需要更多的回饋來改進。

Our reporting on Eric Schmidt’s stealth drone project was posted this AM by @perplexity_ai . It rips off most of our reporting. It cites us, and a few that reblogged us, as sources in the most easily ignored way possible. Note the views. #zeroclick https://t.co/qZamti9E83 pic.twitter.com/8z2AsyHjgM
— John Paczkowski (@JohnPaczkowski) June 7, 2024

斯里尼瓦斯也在接受《美聯社》（AP News）採訪時解釋，Perplexity從未盜用他人內容，也沒有以任何人的內容進行訓練，之所以出現此狀況，可能是因為其匯總了其他AI系統生成的內容。他說明，Perplexity是扮演資訊整合者的角色，希望能為人們提供正確的內容，未來也會更明確地標示資訊出處。

《遠見》實測：四家主流媒體付費牆，AI搜尋全都露

《遠見》實測Perplexity是否確實能繞過媒體的付費牆，提供新聞內容摘要。結果發現，遭殃的不只是《富比士》，還有像是《財富》（Fortune）、《紐約時報》（The New York Times）和《華爾街日報》（The Wall Street Journal）等，只要提供網址給Perplexity，其便能生成文章摘要。但如果是一般人點入同樣的報導網址，很快就會出現付費訂閱的提醒來阻擋未付費的用戶閱讀。

➠ 與Perplexity的完整對話，可見此連結。

用《富比士》的文章實測Perplexity，發現其確實能繞過付費牆，提供文章摘要。擷取自Perplexity使用畫面

如果直接點進該篇文章，會受到付費牆阻擋，需加入會員才能閱讀。

【高爾夫玩家必讀雙刊】遠見 × ALBA 雙刊一年 $2,999，趨勢視野加高爾夫實戰，一次訂閱世界與球場都到位>>

《富比士》網站設有付費牆，需加入會員才能閱讀文章。擷取自《富比士》

Perplexity AI 無視robots.txt文件，擅自爬取內容

至此，風波尚未結束。一名工程師奈特（Robb Knight）在其個人網站上表示，Perplexity不僅是涉嫌抄襲，更是無視robots.txt文件，擅自爬取未經同意的內容。robots.txt文件為各網站寫給機器人看的指引，例如哪些內容禁止爬蟲機器人抓取等，但僅類似於需自行遵守的行為守則，並無強制約束力。

《連線》也證實了奈特的發現。文中指出，《連線》的母公司Condé Nast的網站被Perplexity的秘密IP造訪了至少822次。為了驗證此IP與Perplexity有關，《連線》建立了一個新網站，要求Perplexity總結其網站內容，並觀察造訪此網站的IP位址，結果幾乎能肯定前述秘密IP來自Perplexity。

Perplexity表示：AI摘要網頁內容不等於爬蟲

外媒《TechCrunch》採訪了Perplexity的業務主管謝韋連科（Dmitry Shevelenko），其表示，摘要網頁內容並不等於爬蟲。他說明，爬蟲是指四處吸取資訊，並將其添加至索引中。而使用者將網站連結輸入Perplexity，並不符合爬蟲的定義，「我們只是回應使用者直接且具體的請求，去造訪該網址。」但對於這些媒體而言，兩者之間並沒有太大差異，《TechCrunch》指出：「如果每天這樣做數千次，看起來就非常像是爬蟲。」

此外，《連線》和《美聯社》也發現Perplexity的「幻覺」問題，例如編造真實人物沒說過的話等。即使要求Perplexity先閱讀特定文章後再回答，答案仍可能參雜不實內容。《連線》在其報導中諷刺道：「讓Perplexity價值十位數的魔法可以說是，它既做了自己說沒做的事，又沒做自己說要做的事。」

Perplexity被發現有「幻覺」問題。取自X@perplexity_ai

AI將媒體內容據為己有，將讓媒體更難生存

《TechCrunch》總結了這項爭議的隱憂。當AI繼續將媒體生產的內容據為己有，媒體將更難透過讀者的點閱賺取廣告資金。最終，能生存下來的媒體愈來愈少，AI能爬蟲的真實內容也變得更有限，可能會導致偏見和不實內容的負面迴圈。因此，AI公司應該與媒體達成協議，確認在不影響媒體運作的前提下，哪些內容能用於訓練AI。