曾任Google執行長與董事長的施密特,上週史丹佛演講影片意外引發討論,雖之後引發輿論風波被迫下架。其實他在其中說了不少業界沒人敢說的真話,不只是WFH沒競爭力而已。近年大量投資AI新創的施密特,對於大語言模型的近期發展,直指:別再以為生成式AI就這樣,真正厲害的現在才要出現,竟可能取代工程師,讓Python不用成為人人必須認真學的程式語言?共有3大方向,一文詳解。
曾在Google擔任執行長和董事長、現為專業投資人的施密特(Eric Schmidt),近期因為在史丹佛大學演講的言論站上風口浪尖。
客座參與這堂探討人工智慧對經濟和社會影響的課堂時,施密特評論Google競爭力不如對手,是因為公司重視工作和生活平衡,例如員工遠距工作天數過長;馬斯克(Elon Musk)和台積電之所以能成功,就是因為能夠宵衣旰食、日以繼夜工作,即便是高材生如物理學博士,也要進到工廠地下室工作。
除了觀察人工智慧發展和幾間科技巨頭的競爭態勢以外,投資大量AI新創的施密特,也針對現在大語言模型(Large Language Model,LLM)在技術發展和應用上,提出3個他觀察到的重要方向,分別是模型上下文窗口(context window)提升讓模型更有用、文字轉行動(text to action)賦能一般人,以及AI代理人變得更為普遍。
上下文窗口變長解決資料新近問題、提升短期記憶
不管是OpenAI、Anthropic還是Google,每次發表新模型時,除了彰顯模型表現,例如回答更準確、幻覺更少,總會強調模型的上下文窗口再度提升,能夠處理的文字長度變得更多。
施密特分析,上下文窗口拉長,能夠解決模型資料不夠新的問題,並且透過短期記憶,完成更多任務。
每次打造新模型時,開發者們都會盡力納入當下所能準備的最新資料,並在訓練完畢並推出模型後,公告模型的知識截止日期(knowledge cutoff date)。若想把最近發生的事件、科學家新提出的研究再放進模型,讓其習得新知,則要在下一次訓練模型時納入這些資料。
不過,訓練模型代價高昂,不只要消耗算力,還要準備人力處理資料,訓練後還要微調,施密特表示要花上18個月才能打造出新一代模型,「因此模型總是過時。」當然,開發者們也有其他方法提升模型表現,例如調整指令(prompt)的寫法,或者活用增強檢索生成(Retrieval Augmented Generation,RAG)調取資料。
隨著模型處理的上下文窗口不斷變長,施密特認為,資料新近度(recency)的問題便消失了,因為使用者可以直接在對話中放進成千上萬個字,即便放進十篇論文或者媒體報導,模型都能快速消化,因此有能力掌握如以巴衝突的最新發展,「它就跟Google一樣(反映)當下」。
除了突破資料截止日期的限制,上下文窗口也能當成模型的短期記憶來看待。若模型的上下文窗口很小,代表對話沒多久就會忘掉,這樣的AI工具無法完成太多任務。相反地,當模型能夠記住一整本書的內容,人類等於擁有一位能夠極速處理資訊的助手,直接與其討論未知領域的知識。
文字轉行動讓一般人也能寫程式,AI代理人將普及
施密特將他觀察到的另一個重要趨勢,以文字轉行動(text to action)描述。舉例來說,把使用者寫下的文字轉換為程式碼,讓資工、電機學院以外沒上過程式課程的人,也能開發出網頁或者應用程式,
生成式AI在近兩年能夠震撼世人,正是因為自然語言處理(Natural Language Proecessing,NLP)技術發展提升到新的境界,模型能夠理解日常對話,並給予生動的文字回覆。
如果從文字的輸入輸出,一舉提升至更高層次,將輸出變得結構化,串接到其他模型或者應用,使得AI能夠採取行動,這就是施密特所說文字轉行動的真諦。以後人們愈來愈不用認真學Python,把英文學好就夠了。
觀察到如此願景的不只有施密特,只是每個人用詞不同。今年6月,黃仁勳在公開演講時,同樣勾勒出他眼中的時代變革,「我們從指令驅動的計算(instruction-driven computing),也就是寫程式,轉變為意圖驅動的計算(intention-driven computing)。」
黃仁勳強調,只有少數人能夠精準寫出有著清楚規範的程式,但現在只要能夠以文字傳達意圖,人工智慧便能替使用者完成後續工作,此後我們不只能夠大規模地生產軟體,更能夠大規模地生產數位智慧(digital intelligence)。
從文字轉行動延伸,再往下的願景便是AI代理。在同一場演講中,黃仁勳表示人工智慧能夠自行規劃、完成多個步驟的推理,且AI代理之間還會彼此互動。
施密特的想法與黃仁勳相同,他表示AI代理將能夠和人類協作,共同處理複雜問題。舉例來說,有開發者打造出提供給化學家使用的LLM系統「ChemCrow」,它能夠自主生成關於蛋白質結構的假設,測試後再將學習到的回饋放回系統,藉此改善其表現,未來將能讓ChemCrow自動化執行化學任務。
可以想像,不只化學,每個領域都能以LLM打造出人類的第二大腦,將決策外包給人工智慧執行。從加長版的上下文窗口,再到NLP技術的提升,讓文字轉行動得以實現,LLM的種種進步,都讓人期待AI代理革命成功的那一天。