擁有推理能力的模型,已是AI主戰場。先前在DeepSeek大戰中異常沉默的Anthropic發表號稱業界第一個「混合推理模型」Claude 3.7 Sonnet,奪回主動權。在開、閉源模型能力差距縮小時,提供更簡易、互動良好的使用者體驗,足以建構護城河嗎?
在DeepSeek震盪後,AI模型競賽持續高速前進。在Grok 3自稱「地表最強模型」後僅僅一週,在推理賽道上沉寂已久的Anthropic發表Claude 3.7 Sonnet,將Claude正式推入推理時代。
跳過3.6命名的Claude 3.7 Sonnet,一大賣點是用戶可自行切換模型推理深度。模型提供「標準模式」與「延伸思考模式」(Extended Thinking mode),後者將使用更多時間與算力,處理較複雜的問題。
開發者更可透過設定模型的「思考預算」,更精準地控制Claude思考的符元(token)數量,在成本、速度與輸出品質之間取得所需平衡。
這也是Claude第一次披露思考過程。無論這是否真的是模型內發生的思考步驟,這類思考資訊被認為有助於增加信任感,也可引導使用者微調指令。不過,目前推理功能僅限進階訂戶可用。
號稱業界首見「混合推理模型」
據《The Information》先前報導,Anthropic落後參與推理戰場的原因,是採用與其他開發團隊較不同的做法,也就是這次發布的「混合推理模型」(hybrid reasoning model)。關鍵在於讓同一個模型使用不同的思考時間,應對不同難度的任務,而非切換到另一個專職「推理」的模型。
官方部落格解釋,「就像人類使用一個大腦同時進行快速反應和深入思考,我們相信推理應該是前沿模型中的整合性能力,而不是完全獨立的模型。這種統一的進路也為使用者創造了更順暢的體驗。」
例如,人腦在回應「今天是星期幾」這類簡單問題時,使用的腦力顯然比解一題微積分來得少。我們能根據面對的任務難度,分配同一個大腦所撥用的認知能量與思考強度。
Anthropic產品與研究主管佩恩(Dianne Penn)對《The Verge》進一步解釋,「我們相信推理是人工智慧的一項特徵,而不是一件完全獨立的事。」
推理能力加持,未來模型能自決推理時間
推理能力是當前AI模型的關鍵戰場。這個轉向的部分原因,源於僅靠拉大訓練資料規模的回報率下滑。在高度競爭的AI市場中,開發團隊必須尋求其他進路提升模型表現,以維持創新力。
傳統大語言模型的強項是透過預測下一個字,快速地產生融貫、流暢的文本。但在面對需要一些推理步驟的問題時表現不佳,這也是為什麼初期模型常受困於簡單的數學算術。這可靠一些指令技巧補強,例如要求模型「一步一步地思考」,但這類指令工程的可靠性並不穩定。
因而OpenAI、Google與Anthropic等團隊開始使用特殊訓練資料進行強化學習,提升模型的推理能力。OpenAI在2024年9月推出第一個「推理模型」o1,以及進階的o3。Gemini 2.0 Flash Thinking、DeepSeek-R1與Grok 3 (think) 也都屬推理模型。
一個簡單的比喻是《快思慢想》作者、諾貝爾經濟獎得主康納曼(Daniel Kahneman)所提出的「系統一」與「系統二」思考方式。傳統模型較接近快速、直覺的「系統一」,推理模型則可視為使用了較多規劃、認知能力,也較為費時的「系統二」。
過往,要獲益於推理能力,使用者需要從模型下拉選單中選取適合的推理模型。在Gemini介面,出現的是2.0 Flash、2.0 Flash Thinking Experimental、2.0 Flash Thinking Experimental with apps等選項;OpenAI則提供GPT-4o、o1、o3-mini等選擇。
雖然每個型號伴隨簡單的介紹(如「適合日常任務」或「適合多步驟思考」),但對一般使用者來說,很難確知自己手上的任務究竟應該選用哪個模型。
目前,使用者得以自己指定Claude思考時間的長度。但長遠來說,Anthropic希望Claude可以自行釐清它應該對一個問題「思考」多長的時間,而不需要使用者預先告知。
模型能力趨同,使用者體驗是關鍵戰場
OpenAI也已注意到這部分的使用者需求。執行長奧特曼(Sam Altman)在2月中於X上宣布,「我們和你一樣討厭挑選模型,希望回歸到神奇的統一智慧。」
根據奧特曼分享的路線圖,o3不會以獨立模型的形式發布,而會是統整多項模型能力的GPT-5內的一部分。不過,OpenAI下一個發布的將是最後一個非推理模型GPT-4.5。這也表示在混合模型上,目前Anthropic以Claude 3.7 Sonnet領先一步。
在大語言模型的基礎上,推出聊天機器人ChatGPT,可說是OpenAI在產品設計上的首次成功出擊。兩年過後,市場上的聊天機器人不勝枚舉,DeepSeek等便宜的開源選擇也日漸進逼。光靠研發更強大的通用模型,已不足以主導市場。
基礎模型的護城河日漸削薄,產品體驗的獨特性可能是OpenAI必須展現優勢之處。尤其是面對Google、微軟這樣擁有完整平台作為基礎的競爭者時,目前每周擁有4億名活躍用戶的OpenAI,需要提供更好的服務來鞏固忠誠度。
從融入網路即時搜索功能、代理先驅「Operator」,以及深入研究助理「Deep Research」,皆可見得OpenAI在提升AI模型實用性與易得性的長期努力。
混合模型也是前行方向之一。Grok 3也已經可以讓使用者自由選擇思考深度,顯示提供更加統合的使用者體驗,是各團隊共同努力的目標。長遠來說,結合生成式AI與傳統機器學習的混合進路,可望降低生成式模型的幻覺問題,提供更適合特定場景需求的輸出。
混合推理及程式專業雙向進擊,新一輪募資上看35億美元
與此同時,程式能力突出的Claude也趁勝追擊,推出代理性的命令列工具Claude Code。程式設計師可在終端機使用自然語言與Claude Code協作,例如搜索、閱讀程式碼,編輯檔案以及執行測試等。
比起克服學術性質的艱澀挑戰,Claude Code著重於應對開發者們日常可能遭遇的問題與任務,這反映Claude聚焦於「解決現實世界問題」的進路。
雖然仍沒有即時搜尋網路的能力,Claude 3.7 Sonnet的知識斷點延後至2024年10月,也更能精準辨識無害指令。據Anthropic表示,新模型的非必要拒絕回應率下降了45%。
據賓州大學華頓商學院教授莫利克(Ethan Mollick)轉述Anthropic說法,新模型的訓練成本約為數千萬美元。比起2023年訓練前沿模型動輒上億美元的規模,已降低不少。不過,推理轉向也代表模型將在推論階段使用更多算力。
《華爾街日報》報導,Anthropic新一輪募資規模超乎預期,料達35億美元,推動公司總估值衝上615億美元。顯示在中國模型挑戰下,投資者對AI競賽的興趣似乎有增無減。