3月,號稱世界第一位AI可擔任工程師的Devin引熱議。許多碼農紛紛擔憂起繼ChatGPT後,又多了被AI取代的理由。然而,上週一群軟體領域專家出面指,Devin的宣傳影片疑似有5處「造假」,Devin其實尚無法取代人類,甚至表現得像職場裡裝忙裝厲害的神混級員工!到底他們質疑的問題在哪?是嫉妒AI能耐高還是真有實據?
Devin是什麼?
號稱「世界第一位AI可擔任工程師」的Devin,在3月推出時引起許多討論。其開發公司Cognition Labs成員也來頭不小,雖然是個人數不超過10位的小團隊,卻囊括了10面國際資訊奧林匹亞競賽(International Olympiad in Informatics,IOI)金牌。
當時Cognition Labs表示,Devin可以根據人類的要求完成專案,包括制定專案規劃、撰寫程式碼,還能自行除錯。然而,近日卻傳出懷疑Devin真實能力的聲浪,包括經營科技YouTube頻道「Internet of Bugs」的軟體工程師卡爾(Carl)和機器學習工程師德萬什(Devansh)等人,皆針對Devin的宣傳影片提出質疑。他們提出了哪些質疑?有明確證據嗎?以下彙整5點說明。
▍延伸閱讀:AI「Devin」搶工程師飯碗誰打造?
質疑1:指定給Devin的任務經過刻意挑選
在Cognition Labs上傳的影片中,展示了Devin如何在接案平台Upwork上,針對使用者的要求完成任務。乍看之下,Devin很快就交出成果,但仔細觀察影片中的Upwork網站介面,發現搜尋框裡已輸入「道路損壞」(road damage),表示Devin要完成的任務是經過刻意指定的,這也就無法確認Devin是否能應對使用者隨機指派的任務。
質疑2:省略了Devin與客戶的溝通,且未能達成需求
卡爾指出,作為軟體工程師,最困難、耗時,也最重要的工作是與客戶溝通、明確了解客戶的需求;但影片中卻省略了Devin與客戶的互動,而直接產出結果。卡爾和德萬什也檢視了Devin的成果,發現Cognition Labs並沒有將Upwork客戶的要求完整轉達給Devin。客戶在任務說明中表示,需要提供「如何在亞馬遜彈性雲端運算(AWS EC2)中執行此操作的詳細說明」,但Cognition Labs並未將這句話告訴Devin,因此Devin實際上僅完成了Upwork客戶要求的一部份。
質疑3:Devin自己製造錯誤並修復,淪為裝忙「員工」
Cognition Labs曾宣稱Devin可以自行除錯並從中學習,也於影片中展示了這點。然而,卡爾和德萬什卻發現,錯誤實際上是Devin自行製造再改正的。德萬什諷刺地表示:「Devin破解了只有少數聰明人才能獲得的秘訣:如果你是造成錯誤的人,你就可以修復成千上萬的錯誤。」
在影片中可發現,Devin修改了一個名為「update_image_ids.py」的檔案中的程式碼,但回到客戶提供的GitHub儲存庫搜尋後發現,裡面根本沒有這個檔案。也就是說,Devin自行建立了這個檔案,然後再從中除錯,而不是修改客戶提供的檔案中的錯誤。此外,卡爾也從客戶提供的儲存庫中找到了錯誤,但Devin卻沒有修正它。
質疑4:Devin使用過時的程式碼寫法
卡爾表示,在客戶提供的GitHub儲存庫中,有一個名為「README」的檔案,裡面說明了如何使用儲存庫中的程式碼,甚至可以一鍵複製命令,但Devin卻沒有如此執行,而是花了更多時間寫了混亂的程式碼。甚至,卡爾指出其寫法是十年前使用C語言或是其他低階語言的做法,如今使用Python就能更好地達成目標,「它製造的問題比解決的問題還多。」卡爾總結。
質疑5:Devin的功能和效率被誇大
從影片中可發現,Devin耗費了6小時18分鐘才完成這項任務,卡爾則只花了半小時左右,顯然Devin這位AI工程師的工作效率還有很大的進步空間。此外,Devin在自行訂定的工作清單中寫了多項任務,似乎表示它完成了很多事情;但卡爾指出,當中有很多步驟都是非必要的,影片的呈現容易讓不了解技術的人高估了Devin的功能和效率。
Devin行不行?網路聲浪分兩派
最後,卡爾呼籲人們不要盲目相信網路上的資訊,在經過充分查證之前,要對一切抱持懷疑態度,尤其是牽涉到AI的內容。
目前消息在軟體業傳開,引起不少在業內工作的網友討論。有人認為這一波AI創新潮宣傳過頭;也有人認為Devin能力確實還行,只是還沒到高階人類工程師水準,就像ChatGPT問世後,使用過的人都發現它問題仍多,但可以期待潛力。此外,更有人戲謔地指出,Devin至少學會了許多人類員工裝忙的能力。至於Cognition Labs團隊,至今尚未對這些爭議做出回應。