AI工程師「Devin」爆造假！專家揭5漏洞，它只會裝忙？

3月，號稱世界第一位AI可擔任工程師的Devin引熱議。許多碼農紛紛擔憂起繼ChatGPT後，又多了被AI取代的理由。然而，上週一群軟體領域專家出面指，Devin的宣傳影片疑似有5處「造假」，Devin其實尚無法取代人類，甚至表現得像職場裡裝忙裝厲害的神混級員工！到底他們質疑的問題在哪？是嫉妒AI能耐高還是真有實據？

【目錄】

● Devin是什麼？
● 質疑1：指定給Devin的任務經過刻意挑選
● 質疑2：省略了Devin與客戶的溝通，且未能達成需求
● 質疑3：Devin自己製造錯誤並修復
● 質疑4：Devin使用過時的程式碼寫法
● 質疑5：Devin的功能和效率被誇大

Devin是什麼？

號稱「世界第一位AI可擔任工程師」的Devin，在3月推出時引起許多討論。其開發公司Cognition Labs成員也來頭不小，雖然是個人數不超過10位的小團隊，卻囊括了10面國際資訊奧林匹亞競賽（International Olympiad in Informatics，IOI）金牌。

當時Cognition Labs表示，Devin可以根據人類的要求完成專案，包括制定專案規劃、撰寫程式碼，還能自行除錯。然而，近日卻傳出懷疑Devin真實能力的聲浪，包括經營科技YouTube頻道「Internet of Bugs」的軟體工程師卡爾（Carl）和機器學習工程師德萬什（Devansh）等人，皆針對Devin的宣傳影片提出質疑。他們提出了哪些質疑？有明確證據嗎？以下彙整5點說明。

▍延伸閱讀：AI「Devin」搶工程師飯碗誰打造？

質疑1：指定給Devin的任務經過刻意挑選

在Cognition Labs上傳的影片中，展示了Devin如何在接案平台Upwork上，針對使用者的要求完成任務。乍看之下，Devin很快就交出成果，但仔細觀察影片中的Upwork網站介面，發現搜尋框裡已輸入「道路損壞」（road damage），表示Devin要完成的任務是經過刻意指定的，這也就無法確認Devin是否能應對使用者隨機指派的任務。

Devin要完成的Upwork任務已經被指定好了。擷取自Cognition Labs的YouTube影片

質疑2：省略了Devin與客戶的溝通，且未能達成需求

卡爾指出，作為軟體工程師，最困難、耗時，也最重要的工作是與客戶溝通、明確了解客戶的需求；但影片中卻省略了Devin與客戶的互動，而直接產出結果。卡爾和德萬什也檢視了Devin的成果，發現Cognition Labs並沒有將Upwork客戶的要求完整轉達給Devin。客戶在任務說明中表示，需要提供「如何在亞馬遜彈性雲端運算（AWS EC2）中執行此操作的詳細說明」，但Cognition Labs並未將這句話告訴Devin，因此Devin實際上僅完成了Upwork客戶要求的一部份。

質疑3：Devin自己製造錯誤並修復，淪為裝忙「員工」

Cognition Labs曾宣稱Devin可以自行除錯並從中學習，也於影片中展示了這點。然而，卡爾和德萬什卻發現，錯誤實際上是Devin自行製造再改正的。德萬什諷刺地表示：「Devin破解了只有少數聰明人才能獲得的秘訣：如果你是造成錯誤的人，你就可以修復成千上萬的錯誤。」

一個人如何影響一個產業、甚至一個時代？《遠見》ｘ張忠謀自傳全集，不只讀張忠謀的人生，更用一年雜誌，從全球視角，讀懂那些選擇的意義>>

在影片中可發現，Devin修改了一個名為「update_image_ids.py」的檔案中的程式碼，但回到客戶提供的GitHub儲存庫搜尋後發現，裡面根本沒有這個檔案。也就是說，Devin自行建立了這個檔案，然後再從中除錯，而不是修改客戶提供的檔案中的錯誤。此外，卡爾也從客戶提供的儲存庫中找到了錯誤，但Devin卻沒有修正它。

影片中可見Devin正在自行除錯。擷取自Cognition Labs的YouTube影片

客戶提供的GitHub儲存庫中，並沒有Devin進行除錯的檔案。擷取自GitHub

質疑4：Devin使用過時的程式碼寫法

卡爾表示，在客戶提供的GitHub儲存庫中，有一個名為「README」的檔案，裡面說明了如何使用儲存庫中的程式碼，甚至可以一鍵複製命令，但Devin卻沒有如此執行，而是花了更多時間寫了混亂的程式碼。甚至，卡爾指出其寫法是十年前使用C語言或是其他低階語言的做法，如今使用Python就能更好地達成目標，「它製造的問題比解決的問題還多。」卡爾總結。

質疑5：Devin的功能和效率被誇大

從影片中可發現，Devin耗費了6小時18分鐘才完成這項任務，卡爾則只花了半小時左右，顯然Devin這位AI工程師的工作效率還有很大的進步空間。此外，Devin在自行訂定的工作清單中寫了多項任務，似乎表示它完成了很多事情；但卡爾指出，當中有很多步驟都是非必要的，影片的呈現容易讓不了解技術的人高估了Devin的功能和效率。

Devin開始執行任務的時間是下午3點23分。擷取自Cognition Labs的YouTube影片

Devin完成任務的時間是晚上9點41分。擷取自Cognition Labs的YouTube影片

Devin行不行？網路聲浪分兩派

最後，卡爾呼籲人們不要盲目相信網路上的資訊，在經過充分查證之前，要對一切抱持懷疑態度，尤其是牽涉到AI的內容。

目前消息在軟體業傳開，引起不少在業內工作的網友討論。有人認為這一波AI創新潮宣傳過頭；也有人認為Devin能力確實還行，只是還沒到高階人類工程師水準，就像ChatGPT問世後，使用過的人都發現它問題仍多，但可以期待潛力。此外，更有人戲謔地指出，Devin至少學會了許多人類員工裝忙的能力。至於Cognition Labs團隊，至今尚未對這些爭議做出回應。