微軟Build 2024大會上,最亮眼的仍是過去一年微軟的關鍵字,同時也是大語言模型商用的最佳應用Copilot。在微軟Build大會中,展示了如何將AI技術徹底融入工作中。此外,AI驅動的個人電腦體驗提升,雲端平台Azure跟著升級,支援更多先進模型等都是亮點,揭示著,開發者在AI助攻下,更有施展空間。
在微軟Build 2024開發者大會上,微軟執行長納德拉(Satya Nadella)高喊讓AI民主化,希望把先進技術,從科技巨頭下放到所有人,農民、商人和學生都能使用;他也談到AI應用深化,每個產業都能看見各自場景;他還強調AI安全和倫理,多次提到技術上設有護欄(guardrail),避免AI作惡。
Copilot 不只是副駕,更要做 AI 代理人
微軟的Copilot正在進化,雖然是以「副駕駛」定位而生,但在納德拉勾勒出的願景之中,Copilot正在轉往智慧代理人(AI agent)方向發展。對照OpenAI春季發表會的GPT-4o、Googlo I/O 2024的Project Astra,科技巨頭與新創都走在相似道路上。
微軟先前已經推出Microsoft Copilot Studio,企業可以利用此工具,以低/無程式碼的方式,建立整合GPT API的聊天機器人,讓使用者可以用自然語言方式,輕鬆查找資料。對內可以快速引入公司規範如請假規定,對外則能整合客服知識,回答客人問題。
然而,交談只是第一步,利用大語言模型「理解」使用者所需後,採取行動才是從副駕駛變身為智慧代理的關鍵,這也是微軟開發者大會中的重點。在Copilot Studio的基底之下,推出客製化Copilot(即AI代理)、團隊Copilot和Copilot擴充套件與連結器三大功能。
其中,在微軟的規劃中,客製化Copilot要從「與你一起工作的人,變成為你工作的人」。概念雖然和機器人流程自動化(robotic process automation)相似,使用者可以自行設定Copilot對話後要採取的行動,藉此編排出長期運行、可能較為複雜的業務流程,並在過程中減少人為介入。
差別之處在於,RPA需要使用者手把手錄製、詳細將過程介紹給機器聽,讓機器模仿人類行為,但客製化Copilot有益發強大的基礎模型打底,大語言模型不再只善於生成內容,更逐步展現出規劃(plan)和推理(reason)能力,因此可以自行拆解複雜任務。
舉例來說,公司內部一般員工在報帳時,可以用對話方式與客製化Copilot互動,不用花時間填寫表單、想方設法配合規定格式,在幾輪對話後便自然地報完帳,甚至系統還初步審核完畢;中間過程可能牽涉到確認員工所在部門、是否有以公司身份出席活動的事實,並檢核名目是否合規,這些複雜且不確定性高的任務,就由進化的LLM接手處理。
微軟強調,記憶(memory)和脈絡(context)是關鍵,不用像打電話給客服時,每換一人,便要重複講述個人需求,因為大語言模型能夠記住一切,不只懂使用者個別的情境,還能逐漸個人化。另外,Copilot也會持續學習,從過往對話內容中累積經驗,成為更好的數位員工。
想要讓客製化Copilot進入更多場景,變得更加泛用,微軟用「團隊Copilot」,讓助理不再只是個人專用,更走進群組協作,例如會議、專案和群組,在會議紀錄、專案規劃和群組聊天都發揮Copilot的功能。
此外,想讓客製化Copilot推給更多使用者,並擴大其知識涵蓋面,微軟推出「Copilot擴充套件與連結器」。前者是將建置好的Copilot發布成擴充套件,概念上和OpenAI的GPTs與GPTs Store相似;後者則串起一切資料,從公開網站、雲端硬碟到自有資料,再到Microsoft Graph,惟有掌握更多資料,才是真正個人化的奧義。
自動化沒有消失,但AI入場幫你規劃
微軟的自動化平台Power Automate,也迎來了AI加持。
微軟公布「AI錄音機」(AI recorder)功能,除了錄製鍵盤和滑鼠動作以外,使用者可以自己擔任旁白,在錄製同時補上說明,這點微軟表示就跟新人上工時,旁人指導完成任務的狀況相似。
微軟還介紹「AI流程」(AI flow),以前要撰寫複雜的腳本(script),現在則用自然語言溝通,只要講自己想處理的任務、說明需要的參數(parameter)、輸入和輸出,AI就能自動生成工作流程,也就是從直接把自然語言,轉化成流程設計與規劃。
Power Automate主要面向開發者,開發者可以將設計好的自動化流程,整合到Copilot中,讓其他同事使用;也能直接部署服務,例如雲端上的對話機器人回答使用者問題。
以前,想要網路爬蟲(web scraping)要自己慢慢寫程式,把各自分散的流程,整合成一包能夠運行的完整程式碼,不會寫程式的使用者只能複製貼上。RPA出現後,使用者可以把複製貼上變成穩定運行的流程,降低進入門檻。現在,從自然語言直接變身為流程,LLM再度讓AI新技術變得普惠,不懂程式的人,可以用low-code方式,編寫出專屬自己的自動化流程。
語言不再是障礙,Edge 將提供影片即時翻譯
被毀壞的巴別塔寓言,揭示了語言出現分歧的漫長歷史。語言能夠乘載文化,因此有人關注在地大語言模型的發展,擔心生成內容不符民情;語言也同時構成理解和認知的壁壘,引發不同社會之間的碰撞與衝突。
微軟這次宣布的瀏覽器Edge更新中,除了增加Edge使用上的安全性以外,最大亮點是即將提供影片即時翻譯功能。其實,先前不乏針對靜態網頁的Google翻譯、DeepL翻譯,然而,若切換場景到影片,使用者延遲(latency)是很大挑戰。
Edge的更新利用AI,可以即時地把包含字幕和配音在內的影片內容,翻譯成不同語言,就此打破語言構成的障壁。這有好也有壞,正如專家所說,像是Edge這類即時翻譯功能,還有Google利用生成式AI,將課程文字轉譯為影片,同樣降低學習門檻,可說AI讓人迎來自我升級的盛世。
然而,正因為精進自我的資源滿山遍野,要競爭的對象再也不是教室身旁的朋友,而是全世界。AI將會讓人力市場M型化,富者更富、貧者更貧。
小模型競爭持續,擁有視覺功能的 Phi-3-Vision 出爐
將大語言模型縮小、打造小語言模型(small language model),是2024年科技業的重要發展趨勢之一。不讓Google I/O 2024宣布的Gemma 2專美於前,微軟在Build 2024上推出Phi-3家族中,第一個有多模態能力的Phi-3-Vision。
Phi-3-Vision以Phi-3-mini的語言功能為基礎,同時兼備文字和視覺處理能力,它以Phi-3-mini的語言功能為基礎,能夠針對圖像常識推理,也能夠理解圖像和圖表。
微軟也不忘和對手喊話,指出Phi-3是現有模型裡,性能最為優異,同時又最具成本效益的小語言模型。新出爐的Phi-3-Vision,也贏過Anthropic的Claude-3 Haiku,和Google的Gemini 1.0 Pro V。
不過,Google Gemma系列模型能夠「放進」Android生態系的手機,經歷Windows Phone發展受挫的微軟,還有哪些場景?其實,不只有手機,只要是網速慢、環境不允許無法聯網、更重視回應即時性的場域,都有微軟出手空間。
複製貼上也要加入 AI,直接導入翻譯彙整功能
替學生和上班族持續服務多年,複製貼上的快速鍵「Ctrl+C」、「Ctrl+V」讓人琅琅上口。沒想到,複製貼上除了「僅貼上值」、「維持格式」和表格中的轉置以外,還能玩出新方向。
微軟的生產力小工具PowerToys提供「進階貼上」(advanced paste)功能,使用者可以在設定上調整,以後貼上時,可以貼上純文字、Markdownk格式和JSON格式,若是選用連接OpenAI API功能,甚至還能摘要、翻譯、生成程式碼和「重寫」如調整語氣等。
比起在垂直產業導入AI,複製貼上導入AI能力,更接近「飛入尋常百姓家」的願景。
同場加映GPT-4o、GPT-5、AMD
・AMD:去年年底微軟便曾發布消息,將採用AMD Instinct MI300X加速器,這次大會則正式推出搭載Instinct MI300X的Azure ND MI300X v5 虛擬機。
・GPT-4o:開發者現在能夠在Azure上調用GPT-4o模型。
・GPT-5:OpenAI執行長奧特曼(Sam Altman)在開場時,有幾句話提到GPT-5,包含變得更聰明、更有智能之外,也提到微軟打造一台比現有更強大的超級電腦,用來訓練GPT-5。
相對Google I/O 2024,微軟這場發布會更接近其面向開發者的活動名稱本質,技術細節更多,看不到皮蔡(Sundar Pichai)那樣,射出三支AI的箭,較明顯的主軸會是深度嵌合進入工作流程中的Copilot,從協作到自動化再到自主,副駕駛就快坐上正駕駛位置,只是,這次有人類在背後展現其意志。