ChatGPT團隊OpenAI,23日發布首個AI代理工具Operator預覽版,立刻引起全球網友討論指出,這次真正不用雙手就能上網的工具來了。原來,它只要輸入簡單的文字指令,就能讓AI自動上網查資料、訂位、購物等,甚至還能完成線上測驗、尋找客戶等多步驟的複雜任務。究竟AI代理有多厲害?實際上是如何運作的?目前開放給誰使用?免費付費?
Operator免費或付費?在哪些國家開放?
上週,OpenAI發布能自動執行指令的ChatGPT Tasks,往「AI代理(AI Agent)」的願景邁進一步。23日,OpenAI又推出最新工具Operator,是其首個AI代理工具,能控制網頁瀏覽器,從感知、推理到操作,自動完成使用者的要求。
目前僅有美國的ChatGPT Pro會員能搶先體驗Operator預覽版。ChatGPT Pro訂閱費用要價每個月200美元,能無限使用o1、o1-mini等模型,以及擁有o1 pro模式和Operator預覽版的存取權限。OpenAI表示,未來會將此功能逐步推廣至其他國家,以及不同方案的使用者。
Operator的運作原理是什麼?
根據OpenAI官網介紹,Operator背後的核心技術模型是電腦使用代理(Computer-Using Agent, CUA),其使用GPT-4o的視覺辨識能力,以及透過強化學習(reinforcement learning)增進推理能力。
Operator已經過訓練,可以與圖形使用者介面(graphical user interfaces, GUI)互動,也就是可以像人類一樣切換螢幕畫面、操作網頁上的按鈕,或輸入文字等,不需要透過特定的作業系統或API,也不必為不同的網站重新設計程式。
Operator執行任務的步驟,可分成感知、推理、操作三階段。在感知階段時,AI會將螢幕截圖加入模型的上下文中,以了解電腦的目前狀態;進入推理階段時,AI會透過連鎖思考(chain-of-thought)推理出下一步的行動,也就是將問題拆解成多個步驟,逐步執行並動態調整。
最後的行動階段則是AI實際執行各種操作,例如點擊按鈕、捲動畫面或輸入文字等。在大部分情況下,AI會自動處理每個步驟,但若涉及敏感行為,例如需要登入帳號或輸入驗證碼時,其會停下來等待使用者確認。
Operator如何實際執行任務?
在OpenAI的發表影片中,實際展示了多項Operator能達成的任務,包括訂位、購物、買票等,除了直接輸入文字指令外,也可以預先選擇希望Operator使用的網站。
以訂位的任務為例,使用者輸入「請幫我在Beretta餐廳預訂兩人位置,時間是晚上7點」,並選擇訂位網站OpenTable後,可看到Operator進入網站,設定好人數、時間和輸入餐廳名字後進行查詢。由於7點已無空位,它暫停動作並傳訊息問使用者是否要更改時間。最後在要真的訂位之前,它又再次詢問使用者是否確定要訂位。
影/執行長奧特曼與OpenAI團隊一起在影片上分享了Operator的使用方式。來源:YouTube@OpenAI
在OpenAI官網的Operator介紹文章中,展示了一些更複雜的任務。例如要求Operator「找到取消最多訂單的客戶資訊」,這項任務的步驟可拆解為查詢訂單報告、建立篩選器找出取消訂單、計算客戶取消次數、找到客戶個人資訊等。雖然步驟相當複雜,但仍可看到Operator在幾次試錯後,最終還是順利達成任務。
Operator有哪些安全措施?
要把電腦交給AI接管,資安與隱私保護相當重要。OpenAI表示,Operator會拒絕執行有害任務,以及訪問賭博、色情等非法網站,以避免AI被濫用。此外,Operator目前仍在測試階段,可能會輸入錯誤內容、不慎刪除文件等,因此其在實際完成任務前,會要求使用者回覆確認訊息。並且,目前也不開放執行銀行交易等高風險任務。
ChatGPT還有哪些AI代理工具?
事實上,開發出ChatGPT的OpenAI團隊,在不久前剛推出了ChatGPT的計劃任務Tasks功能,就是一款具有AI代理功能的工具,只要是訂閱20美元月費的ChatGPT PLUS的用戶就能使用。實際使用功能教學請見此。