DeepSeek對於中美科技圈的影響仍在,OpenAI同時進攻推理模型o3-mini和更大的GPT-4.5,科技巨頭Google在旗下不同服務中加入旗艦模型Gemini 2.0,使用者和開發者可以在Google AI Studio、Vertex AI和Gemini中使用新模型。這三款Google服務有何差異?Google釋出哪些Gemini 2.0模型?Google又推出Canvas功能和ChatGPT、Claude打對台?Gemini也支援生成Podcast功能?怎麼下載使用與安裝Gemini?《遠見》整理帶你看。
Google的Gemini模型推出什麼新版本?
去年(2024)年底,Google宣布推出第二代Gemini模型,Google執行長皮蔡(Sundar Pichai)高喊進入AI代理時代(Agentic Era),當時先在Google AI Studio釋出輕量級的測試版本模型Gemini 2.0 Flash Experimental。
台灣時間2月6日Google再度更新,發布Gemini系列模型中量級最大的Gemini 2.0 Pro實驗版,以及量級小、較關注成本效益的Gemini 2.0 Flash-Lite,並且釋出Google宣稱「目前世界上最好的模型」2.0 Flash Thinking,開放Gemini對話服務使用者免費選擇。
Google也另外預告,Gemini 2.0 Flash即將加入圖像生成以及文本轉語音等多模態的能力。
哪裡可以用Gemini 2.0?
目前,Gemini 2.0 已可在各種 Google AI 服務中使用。
在 Gemini 對話式服務中,免費用戶可選擇 Gemini 2.0 Flash、Gemini 2.0 Flash Thinking 以及 Gemini 2.0 Flash Thinking with Apps,而付費訂閱 Gemini Advanced 的使用者,則能額外使用 Gemini 2.0 Pro 實驗版。
至於 Google AI Studio 和 Vertex AI,兩者皆支援 Flash、Flash Thinking、Pro 測試版及 Flash-Lite 測試版。不過,Google AI Studio 讓使用者直接透過圖形介面的下拉式選單選擇模型版本,而 Vertex AI 則是透過 API 方式存取這些模型。
Gemini、Google AI Studio和Vertex AI差在哪?
Gemini、Google AI Studio 和 Vertex AI 各自的適用對象與產品定位有所不同。其中,Gemini 與 ChatGPT 類似,主要面向一般大眾,使用者可以透過自然對話的方式與其互動,讓 Gemini 產生所需內容。
相比之下,Google AI Studio 和 Vertex AI 則是針對開發者設計的工具。Google AI Studio 介面直覺且簡單,即使是開發經驗不多的初學者也能輕鬆上手,較適用於中小型專案。而 Vertex AI 則提供企業級的完整解決方案,更適合規模較大的專案,能滿足企業級應用的需求。
服務 | Gemini | Google AI Studio | Vertex AI |
---|---|---|---|
使用對象 | 一般消費者 | 開發者 | 開發者 |
產品定位 | 透過自然語言對話,提升個人工作效率的AI服務。 | 讓工程師測試模型的開發工具,可以快速建立原型並部署應用程式,獨立開發者和企業都適合使用。 | 提供給開發者準備資料、建立並部署模型,再到管理整套開發流程的AI平台,適合企業級的AI應用開發。 |
網站 | 點此前往 | 點此前往 | 點此前往 |
整理:曾子軒;2025/02更新。 |
Google Gemini裡面的Canvas用途為何?
2025年3月中,Google宣布為Gemini新增Canvas功能。當使用者撰寫文章或程式碼時,Gemini會跳出獨立區塊以便進行編輯。隨著使用者新增指令,例如調整文章語調或為應用程式加入新功能,Gemini會直接更新Canvas內的內容,避免對話像以往那樣冗長。
若對於生成內容不夠滿意,使用者可以直接在Canvas內編輯文字與程式碼,Canvas區塊也像編輯器(editor)那樣,可以復原到上一個版本、取消復原的修正後的版本,並引入版本控制的概念,設有「顯示差異」功能,讓人聯想到程式碼託管與協作平台GitHub上的程式碼差異(code diff)。
不管是程式碼還是文字,使用者都可以在對話以後,利用分享功能將成果貼給其他人參考,還可以把程式碼匯出到能夠在雲端上運行程式的Google Colab,降低AI寫程式、跑程式的門檻。
可以說,Google Gemini推出Canvas總算是趕上前人腳步,因為早在去年(2024),Claude便推出Claude Artifacts,ChatGPT也釋出ChatGPT Canvas功能,Gemini Canvas和兩者功能相同,都是在既有的對話頁面中,獨立出一塊容易編輯並更新內容的區塊,而且Claude的Artifacts還率先開放即時預覽成果。
Gemini Audio Overview能生成Podcast?
Google先前的產品NotebookLM引起廣大關注,其中能夠將對話與研究內容轉化成聲音檔案,甚至變成兩人對話的podcast形式曾經掀起熱潮。
原先NotebookLM只是Google旗下實驗室的產品,取得成功之後,Google也將其移植到旗艦型產品之中,現在Gemini開放使用音訊概覽(Audio Overview)功能,正是一例。
Google在其部落格文章中指出,不管是文件、簡報,還是利用Deep Research功能生成的報告,都可以利用音訊概覽轉換為由AI主持人互相對話的Podcast,深入探討原先以文字呈現的內容,就像NotebookLM一樣,對擅長吸收聲音者將會更有幫助。
Gemini連接Gmail、雲端硬碟,怎麼當好文書智慧助手?
和其他對話式服務相比,Google的最大優勢就在於掌握使用者眾多個人資料,因為資料不只能夠用來訓練模型,也可以是改善白領工作者效率的重要助力。
因為Gemini開放串接Gmail、Google Drive,因此能夠讀到個人信件中的內文、Google文件和Google Spreadsheet,更可以做好個人秘書的角色,雖然ChatGPT也開放整合Google Workspace和Microsoft OneDrive,或者讓使用者導入資料,但相較之下仍是一座資料孤島。
要啟動此功能,用戶必須同意「連結至Workspace」的設定,然後才能存取檔案。Google強調,為了保護隱私,他們不會使用Workspace的資料提升Gemini的性能。
透過與Google Workspace整合,Gemini變得更加實用,不再僅僅像ChatGPT那樣只能依賴網路搜尋資訊並回答問題,而是能夠同時處理外部與內部資料,功能更貼近智慧助理。在實際測試中,Gemini能迅速整理出一週內收到的電子郵件重點,並且表現令人滿意。
Google Gemini 串連地圖、YouTube,優點與缺點分析?
除了擔任文件管理助手,幫助使用者查找信件和檔案細節,Gemini還增添了一個關鍵功能,成為外部資訊的整理員,新增擴充功能,因此串起地圖、也能查到音樂。跟過往的差別相比,或許體現在增進的推理能力。
選擇串接Google地圖、YouTube等應用程式,且具備思考能力的Gemini 2.0 Flash Thinking測試版後,實際提問需要連接網路、有明確答案的問題,「台灣歌手李聖傑在跨年唱了哪些歌曲」,Gemini跟上ChatGPT和DeepSeek腳步,完整列出思考過程。
Gemini按照其思考步驟所說,一步步找到答案,因為此模型版本也串接了Google Search,Gemini在思考時沒有找上YouTube,而是利用搜尋查找李聖傑的跨年演唱資訊,最後提供新聞連結讓使用者參考,且答案是正確的。
進一步要求Gemini提供演唱會的YouTube影片,它也能從善如流,按照關鍵字搜尋後提供對應影片。
先前Google Gemini開發團隊的傑出科學家紀懷新(Ed H. Chi)曾經指出,Google的優勢在於可以把基礎模型結合旗下產品,也就是把先進的AI功能注入到服務之中。
透過調取YouTube、搜尋的API,讓Gemini說的話有所本,省去使用者自行查找的時間,未來若當真進入皮蔡所說的AI Agent時代,使用者就不用再打開Google Search搜尋,請Gemini代勞即可。
不過,現況也還有待改進之處,例如先前測試過的,查找YouTube上周杰倫點閱最高的作品時,Gemini會按照關鍵字,搜尋名稱提到「周杰倫播放量最高」的影片,最後的回應是介紹周杰倫歌曲的影片而非原曲。
Google Gemini App 繁體中文版開放下載,要怎麼使用?
至Google Play下載Gemini應用程式後,接著打開。它會提醒使用者,要先「登入Google應用程式」後才能使用。
何謂Google應用程式?其實就是同名同姓、內建在手機內的Google App。一般情況下都已經登入過,若還沒完成登入步驟,要記得用Gmail登入,接下來就能開始使用Gemini。
因為Gemini和Google助理相同,都能用語音對話,功能也有部分重疊,因此現在若要使用Gemini,需要先確認切換改用Gemini。
切換後就能開始使用。Gemini因為是多模態模型,可以接受文字、語音和圖像輸入,因此可以請它辨識照片與圖片,也能像是和Google助理對話一樣,直接用嘴巴下指令。
以辨識上傳圖片的結果來看,雖然仍有錯誤部分,但已經能夠大致理解照片中的元素。
不過,若只是一般性的創意思考、寫作建議等,Gemini App都能產出不錯成果。
Gemini的AI Agent願景要實現?
隨著眾人都開始談AI Agent,Google也正在往AI Agent的路邁進。
如同Claude的Computer Use、ChatGPT的Operator,Google的Gemini也在往更強大的個人助理甚至Agent的願景邁進。若全面串聯不同應用程式,再加上更強大的推理能力後,Gemini是否有機會滿足人類對於資訊的全方位需求,不再是每次來回問答後解決單一問題、連接單一應用程式,而是聽到使用者目標後,就制定計劃、拆解步驟,接著開始行動,完成後還能夠反思、調整日後行動。
與OpenAI、Anthropic等後進者相比,Google強項在於發揮成熟生態系優勢,讓Gemini連接各個「通路」,不只能夠加值應用程式本身,還有辦法取得形態各異的資訊,例如自地圖取得交通路程、從YouTube取得娛樂內容,並接起航班與飯店,降低使用者獲取資訊耗費的認知資源,可以將重點放在規劃與決策上。
如今Google已經串好通路,若接下來推理能力加強,有辦法接下更多工作且使用者不用再擔心執行任務品質,那就離AI Agent的願景實現不遠了。