Gemini 2的AI助理，將讓雙手無用？大師與網友真實評價

Google發布最新模型Gemini 2.0、以及AI助理Project系列更新，已經引一波ChatGPT用戶轉檯使用。除了AI視訊遊戲陪玩超驚艷，也說明了「AI代理」（AI Agent）讓「雙手無用」的厲害。AI界大師、Google DeepMind執行長哈薩比斯（Demis Hassabis）怎麼看？是否因為模型太強，已擔心人類將過度倚賴AI？本文整理了訪談亮點，以及網友對Gemini 2.0實測結果。

擁有超過75萬訂閱者的知名AI電子報《The Rundown AI》創辦人張（Rowan Cheung），上週在其YouTube頻道中，採訪了Google DeepMind執行長哈薩比斯（Demis Hassabis），討論Google的最新模型Gemini 2.0、研究專案Project Astra可以做到什麼？未來會如何影響人們的生活？

大師：AI代理已是大趨勢

「我們認為，代理系統將成為明年發展的重要部分。」哈薩比斯說明，無論是Gemini 2.0，或是以此為基礎的Project Astra和Project Mariner，都將以打造AI代理為目標，也就是讓AI在現實世界中，能夠從推理、規劃到行動，真正為人類完成任務。為了實現這個願景，Google將任務拆分成不同專案，未來會逐步提供給使用者。

哈薩比斯表示，Gemini 2.0 Flash作為2.0的小型模型，在許多方面的表現都已比Gemini 1.5 Pro更好。目前Gemini 2.0 Flash的實驗版本已經上線，不只是開發者可以在企業生成式平台Vertex AI、測試環境Google AI Studio中測試新模型，一般使用者也可以直接在Gemini網站中，切換至Gemini 2.0 Flash模型使用。此外，Gemini 2.0也將應用在Google搜尋引擎中的AI概覽（AI Overviews）中。

Rowan Cheung採訪Google DeepMind執行長Demis Hassabis。

Project Astra才是真「雲端情人」

Project Astra也更新了乘載Gemini 2.0模型的新版本，哈薩比斯形容其是一個「巨大的飛躍」，它讓AI能真正看到、聽到和理解人們生活的世界，並且能隨時隨地陪伴人們，與電影《雲端情人》（Her）中的AI伴侶莎曼珊（Samantha）愈來愈接近。

另一個研究專案Project Mariner也展示了如何在瀏覽器Chrome中安裝插件，讓AI幫忙自動點選畫面，完成尋找航班、飯店，或購買家居用品等任務。哈薩比斯認為，這展示了AI控制電腦的未來想像，讓AI能理解使用者瀏覽器中的內容，並透過這種全新的使用者介面，重新定義人們使用網路的方式。簡單來說，鍵盤與雙手將愈來愈少介入。

Google Glass靠AI升級了

其實，今年Google努力創新的地方不只大模型，還有曾被冷落一陣的Google Glass智慧眼鏡。這款硬體裝置已因AI升級。

「我們的長期目標是打造一個真正理解你、了解你的偏好以及你試圖完成的事情的系統。」哈薩比斯分享，理想中的AI代理系統將成為能跨裝置使用的個人助理，「例如，你可以在電腦上使用它，然後走出門，戴上眼鏡或使用手機，它能記住你的會話內容與操作意圖，從一個會話延續到下一個會話。」

目前人們大多習慣在手機和電腦上使用AI，但哈薩比斯認為，「眼鏡」可能會在日常情境中扮演更強大的角色。例如，想在煮飯時詢問AI關於食材或烹飪的建議，但又不方便用手拿手機，此時能讓AI看到實際畫面的智慧眼鏡就派上用場，能讓使用者繼續進行手邊的工作，同時獲得AI的協助。

另外，要運行AI代理需要更多的上下文窗口（Context windows），也就是AI能處理的文本範圍或長度。目前Gemini 2.0的上下文窗口約為100萬個tokens，但哈薩比斯表示，其在進行內部測試時，上下文窗口甚至達到1000萬個tokens，「在不久的將來，我們有信心能實現『無限的上下文窗口』」。

Google Glass智慧眼鏡。wikimedia commons by Loïc Le Meur

Gemini變強，人類恐過度倚賴AI？

功能強大、隨時在線的AI代理聽起來十分吸引人，但這是否會讓人類變得過度倚賴AI呢？哈薩比斯表示，從正面角度來看，可以想見未來AI會變得非常有趣，讓人願意與其互動。例如這次Google發表展示的「遊戲陪玩」場景，人們與AI的互動就像真實的朋友一樣自然。

不過，目前這個領域的發展還在早期階段，可能也有一些潛在的負面影響。哈薩比斯說明，AI發展應該要讓社會學家、倫理學家等各領域的專家共同參與討論，而不僅僅是由技術人員來決定。

網友實測Gemini 2.0：讓AI當程式家教、監督自己工作

Gemini 2.0開放試用後，許多網友實測了各種功能，例如在寫程式時分享畫面給Gemini，讓它成為個人的線上程式家教，遇到問題時口頭發問，就能立即得到AI的回答。

Google Gemini 2.0 realtime AI is insane.

Watch me turn it into a live code tutor just by sharing my screen and talking to it.

We’re living in future.

I’m speechless. pic.twitter.com/MTaJYVwzl5
— Mckay Wrigley (@mckaywrigley) December 11, 2024

還有網友要求Gemini監督自己工作，並且在發現他不專注時對他生氣。實測結果發現，當網友將畫面切換到Netflix時，AI便開始催促其回去工作，甚至威脅他「你想失敗嗎？」雖然可能礙於政策限制，AI不能真的表現得太生氣或口出惡言，但它能持續不懈地催促，直到人類繼續工作為止。

Gemini 2.0がブラウザー画面を理解できるため、仕事をしていない無駄な時間を過ごすと怒ってくれるようにお願いするユースケースは面白い。

無駄な時間が長くなるとより怒るが、Geminiの設計上そこまで怒ることが出来ない。 pic.twitter.com/20JXrKnD8b
— Tetsuro Miyatake (@tmiyatake1) December 14, 2024