訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

免費報名 免費報名 8/17(日)賴佩霞@基隆塔新書分享會

AI工程師「Devin」爆造假!專家揭5漏洞,它只會裝忙?

郭宇璇
user

郭宇璇

2024-04-17

瀏覽數 18,100+

上週一群軟體領域專家出面指,Devin的宣傳影片疑似有5處「造假」。(僅為情境圖)Photo by Markus Spiske on Unsplash
上週一群軟體領域專家出面指,Devin的宣傳影片疑似有5處「造假」。(僅為情境圖)Photo by Markus Spiske on Unsplash
00:00
00:00

3月,號稱世界第一位AI可擔任工程師Devin引熱議。許多碼農紛紛擔憂起繼ChatGPT後,又多了被AI取代的理由。然而,上週一群軟體領域專家出面指,Devin的宣傳影片疑似有5處「造假」,Devin其實尚無法取代人類,甚至表現得像職場裡裝忙裝厲害的神混級員工!到底他們質疑的問題在哪?是嫉妒AI能耐高還是真有實據?

Devin是什麼?

號稱「世界第一位AI可擔任工程師」的Devin,在3月推出時引起許多討論。其開發公司Cognition Labs成員也來頭不小,雖然是個人數不超過10位的小團隊,卻囊括了10面國際資訊奧林匹亞競賽(International Olympiad in Informatics,IOI)金牌。

當時Cognition Labs表示,Devin可以根據人類的要求完成專案,包括制定專案規劃、撰寫程式碼,還能自行除錯。然而,近日卻傳出懷疑Devin真實能力的聲浪,包括經營科技YouTube頻道「Internet of Bugs」的軟體工程師卡爾(Carl)和機器學習工程師德萬什(Devansh)等人,皆針對Devin的宣傳影片提出質疑。他們提出了哪些質疑?有明確證據嗎?以下彙整5點說明。

▍延伸閱讀:AI「Devin」搶工程師飯碗誰打造?

質疑1:指定給Devin的任務經過刻意挑選

在Cognition Labs上傳的影片中,展示了Devin如何在接案平台Upwork上,針對使用者的要求完成任務。乍看之下,Devin很快就交出成果,但仔細觀察影片中的Upwork網站介面,發現搜尋框裡已輸入「道路損壞」(road damage),表示Devin要完成的任務是經過刻意指定的,這也就無法確認Devin是否能應對使用者隨機指派的任務。

Devin要完成的Upwork任務已經被指定好了。擷取自Cognition Labs的YouTube影片

Devin要完成的Upwork任務已經被指定好了。擷取自Cognition Labs的YouTube影片

質疑2:省略了Devin與客戶的溝通,且未能達成需求

卡爾指出,作為軟體工程師,最困難、耗時,也最重要的工作是與客戶溝通、明確了解客戶的需求;但影片中卻省略了Devin與客戶的互動,而直接產出結果。卡爾和德萬什也檢視了Devin的成果,發現Cognition Labs並沒有將Upwork客戶的要求完整轉達給Devin。客戶在任務說明中表示,需要提供「如何在亞馬遜彈性雲端運算(AWS EC2)中執行此操作的詳細說明」,但Cognition Labs並未將這句話告訴Devin,因此Devin實際上僅完成了Upwork客戶要求的一部份。

質疑3:Devin自己製造錯誤並修復,淪為裝忙「員工」

Cognition Labs曾宣稱Devin可以自行除錯並從中學習,也於影片中展示了這點。然而,卡爾和德萬什卻發現,錯誤實際上是Devin自行製造再改正的。德萬什諷刺地表示:「Devin破解了只有少數聰明人才能獲得的秘訣:如果你是造成錯誤的人,你就可以修復成千上萬的錯誤。」

8/17賴佩霞新書分享會 | 在基隆塔來一場心靈對話,立即報名!

在影片中可發現,Devin修改了一個名為「update_image_ids.py」的檔案中的程式碼,但回到客戶提供的GitHub儲存庫搜尋後發現,裡面根本沒有這個檔案。也就是說,Devin自行建立了這個檔案,然後再從中除錯,而不是修改客戶提供的檔案中的錯誤。此外,卡爾也從客戶提供的儲存庫中找到了錯誤,但Devin卻沒有修正它。

影片中可見Devin正在自行除錯。擷取自Cognition Labs的YouTube影片

影片中可見Devin正在自行除錯。擷取自Cognition Labs的YouTube影片

客戶提供的GitHub儲存庫中,並沒有Devin進行除錯的檔案。擷取自GitHub

客戶提供的GitHub儲存庫中,並沒有Devin進行除錯的檔案。擷取自GitHub

質疑4:Devin使用過時的程式碼寫法

卡爾表示,在客戶提供的GitHub儲存庫中,有一個名為「README」的檔案,裡面說明了如何使用儲存庫中的程式碼,甚至可以一鍵複製命令,但Devin卻沒有如此執行,而是花了更多時間寫了混亂的程式碼。甚至,卡爾指出其寫法是十年前使用C語言或是其他低階語言的做法,如今使用Python就能更好地達成目標,「它製造的問題比解決的問題還多。」卡爾總結。

質疑5:Devin的功能和效率被誇大

從影片中可發現,Devin耗費了6小時18分鐘才完成這項任務,卡爾則只花了半小時左右,顯然Devin這位AI工程師的工作效率還有很大的進步空間。此外,Devin在自行訂定的工作清單中寫了多項任務,似乎表示它完成了很多事情;但卡爾指出,當中有很多步驟都是非必要的,影片的呈現容易讓不了解技術的人高估了Devin的功能和效率。

Devin開始執行任務的時間是下午3點23分。擷取自Cognition Labs的YouTube影片

Devin開始執行任務的時間是下午3點23分。擷取自Cognition Labs的YouTube影片

Devin完成任務的時間是晚上9點41分。擷取自Cognition Labs的YouTube影片

Devin完成任務的時間是晚上9點41分。擷取自Cognition Labs的YouTube影片

Devin行不行?網路聲浪分兩派

最後,卡爾呼籲人們不要盲目相信網路上的資訊,在經過充分查證之前,要對一切抱持懷疑態度,尤其是牽涉到AI的內容。

目前消息在軟體業傳開,引起不少在業內工作的網友討論。有人認為這一波AI創新潮宣傳過頭;也有人認為Devin能力確實還行,只是還沒到高階人類工程師水準,就像ChatGPT問世後,使用過的人都發現它問題仍多,但可以期待潛力。此外,更有人戲謔地指出,Devin至少學會了許多人類員工裝忙的能力。至於Cognition Labs團隊,至今尚未對這些爭議做出回應。

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務