訂閱
快速註冊 已是會員,立即登入

為您推薦

會員權益

免費報名 免費報名 8/17(日)賴佩霞@基隆塔新書分享會

ChatGPT不是橫空出世,語言模型你必懂的5件事

曾子軒
user

曾子軒

2024-07-31

瀏覽數 20,200+

最初的統計預言模型只能解決特定任務,隨著技術演進,大型語言模型已進化成可以處理各式任務,具有泛化(generalization)能力的通用模型。取自Pixelplex
最初的統計預言模型只能解決特定任務,隨著技術演進,大型語言模型已進化成可以處理各式任務,具有泛化(generalization)能力的通用模型。取自Pixelplex

喜歡這篇文章嗎 ?

登入 後立即收藏 !
00:00
00:00

ChatGPT底層的大語言模型是什麼?語言模型發展從機率和統計開始,進步到神經網絡驅動,預訓練技術出現又開啟新時代;參數量大到一定程度後,湧現強大能力,讓大語言模型擄獲人心。在大語言模型現身之前,語言模型經歷過哪些發展,才走到今天?《遠見》完整解析,有5大要點你必須知道,才能看懂ChatGPT背後的AI浪潮發展方向。

語言模型是什麼? 

ChatGPTGemini再到Claude,以大型語言模型(Large Language Model,LLM)為基底賦能的生成式AI應用,讓世人將目光重新聚焦在人工智慧上,其實,早在大語言模型遍地開花之前,語言模型(Language Model)便經歷長期發展。

在自然語言處理(Natural Language Proecessing,NLP)領域中,語言模型是最為基礎且重要的課題之一,這個研究領域主要關心語言單位(linguistic units)例如詞彙,在文字序列中出現的機率分布,當模型能夠掌握人類語言和文章的規則和模式後,就能應用在翻譯、語音辨識和生成內容等多樣任務。

一篇由Google著名電腦科學家米可洛夫(Tomáš Mikolov)和Snap(Snapchat母公司)電腦科學家米奈(Shervin Minaee)等人所著的論文中,將語言模型的發展分成4階段:統計語言模型、神經語言模型、預訓練語言模型以及大型語言模型。

語言模型發展4階段一覽

年代
語言模型發展
模型與方法舉例
背後技術
用途
1990s
統計語言模型
n元模型
統計學、機率
協助解決特定的NLP任務
2013
神經語言模型
word2vec
詞向量、神經網絡
解決更廣泛的NLP任務
2018
預訓練語言模型
BERT、GPT-1
上下文、預訓練、微調
能夠解決更多樣的NLP任務
2020
大型語言模型
GPT-3、Claude
透過規模達到湧現
通用地解決真實生活任務
整理:曾子軒。資料來源:Zhao, W. X., Zhou, K., Li, J., Tang, T., Wang, X., Hou, Y., ... & Wen, J. R. (2023). A survey of large language models. arXiv preprint arXiv:2303.18223.

統計語言模型是什麼?

統計語言模型(Statistical Language Model)可說是語言模型的基礎,它試圖透過訓練資料,以「n元」(n-gram)模型,也就是計算詞彙與其後續詞彙出現的機率,用來預測詞彙何時出現。

舉例來說,「玉」後面時常接著「山」共同出現(co-occur),當語言模型被用來執行翻譯、語音識別等任務時,就會較容易預測出「玉山」,而不會貿然猜測「玉水」。「n元」模型不只能計算後一個詞彙,也有二元(bi-gram)、三元(tri-gram)等,一次看兩個字、三個字等方法。

不過,統計語言模型也有其限制,當訓練資料筆數增加,就有難以處理的稀疏性(sparsity)問題,也就是為了儲存資料,矩陣大小急速上升,帶動模型運算量以指數成長,另外還有無法考慮順序、沒有辦法涵蓋訓練資料以外情況的限制,遇上所謂「維度的詛咒」(curse of dimensionality)。

神經語言模型是什麼?

隨著深度學習進展,不管是傳統的回歸或者分類任務,還是處理圖像與文字,神經網絡(Neural Network)架構席捲一切。

從前饋神經網路(Feedforward Neural Network)開始,再到遞迴神經網絡(Recurrent Neural Network,RNN)、長短期記憶神經網絡(Long Short-Term Memory,LSTM),語言模型不再只能按照單一順序預測下個詞彙,而能夠更進一步捕捉到微妙字義。這也是神經語言模型(Neural Language Model)取代統計語言模型的時期。

2003年時,日後奪下圖靈獎的班吉歐(Yoshua Bengio)團隊提出神經機率語言模型(Neural Probabilistic Language Models),顛覆過往把詞彙一一對應到數值(one-hot representation)的表示方式,改把詞彙轉以分布式的表示方式(distributed representation)-詞向量(word vector)呈現,藉此成功捕捉到詞彙之間的相似性。

因為在向量空間中,每個詞彙都得到安放,神經語言模型成功克服維度詛咒,不用擔心稀疏性問題。也因為能夠輕易衡量相似性,因此翻譯不同文字、應對使用者的搜尋等任務,都能讓詞向量披掛上陣。

word2vec能夠捕捉到詞彙意義,例如不同國家與首都之間的距離相近。取自米可洛夫論文

word2vec能夠捕捉到詞彙意義,例如不同國家與首都之間的距離相近。取自米可洛夫論文

將時間快轉至2013年,米可洛夫和同事在班吉歐的基礎上,採用兩個新的框架,提出word2vec。word2vec同樣用向量衡量詞彙,並取一定的「窗口」(window size),用來預測在給定某個詞彙之後,其他詞彙出現的機率。因為不只有看離自己最近的詞,因此能夠克服「n元」(n-gram)方法的限制。

word2vec同時能夠掌握詞彙間句法(syntactic)和語義(semantic)上的相似程度,最直白能理解的例子是,「國王」的詞向量數值減去「男人」再加上「女人」後,得到的詞向量數值接近「皇后」。

日後也有學術研究者反其道而行,利用word2vec掌握詞彙之間距離的方式,量化文本之間潛在的歧視與偏見,例如現任Google DeepMind的研究科學家托加(Tolga Bolukbasi)的著作「男人之於電腦工程師就像女人之於家庭主婦」,就是以去除word2vec偏見為核心命題。

word2vec也被用來研究文本裡暗藏的偏見與歧視。取自托加論文

word2vec也被用來研究文本裡暗藏的偏見與歧視。取自托加論文

年度激省!$3,680 帶回24期遠見+高質感行李箱

預訓練語言模型是什麼?

2017年,Google發表一篇至今仍廣受致敬的論文,介紹轉換器(Transformer)架構,開啟新的預訓練語言模型(Pre-Trained Language Model)時代。轉換器架構裡有著編碼器(encoder)和解碼器(decoder),不管輸入的是文字還是圖片或者影像,只要是序列(sequence)資料,都能夠經過編碼器轉成向量,也就是前面提過的詞向量、詞嵌入。

接著,透過自注意力(self-attention)機制,模型有辦法掌握輸入向量中不同詞彙的重要性,接續產出注意力權重(weight)的表示,在不同神經網絡層之間層層傳遞,最後再由解碼器輸出。

跟過往不同之處在於,使用者無需事先標記,只要拿現成資料,轉換器就能自行衡量輸入序列當中各個元素的價值,且因為有著注意力機制,即便詞彙之間相隔甚遠,模型也能掌控彼此之間的依賴關係,因此可以有效處理更長的序列。

值得一提的是,對比先前的遞迴神經網絡,轉換器架構的注意力機制運作方式,不用按照順序處理資料,這讓它適合平行運算(parallelization),不僅加快運算速度,還能夠處理長度更長的序列,這也讓黃仁勳的GPU帝國得以聳立

就在發表轉換器架構隔年的2018年,OpenAI結合轉換器和非監督式學習發表首代GPT模型(Generative Pre-Training Transformer),其參數大小約為1.2億。

OpenAI當年以非監督式學習為題,介紹第一代GPT模型。取自OpenAI

OpenAI當年以非監督式學習為題,介紹第一代GPT模型。取自OpenAI

OpenAI解釋,它先是拿大量資料,以非監督方式訓練出轉換器模型,接著在第二階段以監督式,也就是標記好的資料微調模型,以便學習處理特定領域任務。之所以先以非監督式學習訓練模型,關鍵就在於成本,不用再把大量人力投注在清理資料、標記資料上。

其實,word2vec和其他詞嵌入技術也只需要前處理,同樣屬於非監督式學習,但轉換器架構在模型架構上作出改進,表現也因此得以提升。不過,OpenAI也補充,打造預訓練模型也有昂貴之處,尤其是在算力上的投資所費不貲。

Google科學家同樣以轉換器架構為基礎,同樣拿出有預訓練模型加持的「BERT」,推升語言模型處理問答、辨識實體等任務的能力,當時BERT基本款模型的參數大小為1.1億,BERT更大款模型的參數大小為3.4億。

大語言模型是什麼? 

從預訓練模型,進展到大語言模型(Large Language Model,簡稱為LLM),其實是連續性的過程,而非如斷代史那樣有明確界限。學者便曾指出(2023),現有文獻中並沒有對於大型語言模型最小參數量的正式共識

從規模上來看,韋恩、米可洛夫等人以百億(tens of billions)的參數大小(parameter size)為門檻,界定預訓練模型和大型語言模型的分野。當然,大型語言模型本質上就是預訓練模型,只是從能力來看,隨著模型規模提昇,諸多能力跟著湧現(emerge)。

舉例來說,提供簡單例子便能舉一反三的上下文學習(in-context learning)、提供指令就能按表操課甚至不用舉例的遵從指令(instruction following)以及把任務拆解的多步驟推理(multi-step reasoning),都是大語言模型相對於規模較小的預訓練模型,所湧現出的能力。

回望2018年發表的BERT和GPT-1,再對照今年7月META推出的LLaMA3.1、去年OpenAI公布的GPT-4,模型進展速度飛快,模型參數大小已從億等級,暴衝至千億甚至萬億等級,訓練資料量也從十億衝到兆級。

4種預訓練模型的大語言模型參數和訓練資料量(節選)

模型名稱最大版本模型參數公布年份是否開源訓練資料符元
BERT3.4億2018V137B
GPT-11.2億2018V1.3B
GPT-417600億(未證實)2023
13T
LLaMA3.14050億2024V15T
整理:曾子軒,挑選2018年和近兩年模型比較。資料來源:META、Minaee, S., Mikolov, T., Nikzad, N., Chenaghlu, M., Socher, R., Amatriain, X., & Gao, J. (2024). Large language models: A survey. arXiv preprint arXiv:2402.06196.

在縮放定律(scaling law)的加持之下,在可見的短期未來,將會持續看到模型持續擴大,讀進更多訓練資料、增加模型參數量,以便突破能力前緣的努力。與此同時,回過頭來把模型縮小,但又不影響表現的小語言模型GPT-4o miniGemmaPhi-3,也是發展方向。

最初的統計預言模型只能解決特定任務,隨著技術演進,大型語言模型已進化成可以處理各式任務,具有泛化(generalization)能力的通用模型。由LLM驅動的AI代理也準備上場,成為你我身旁的數位員工

展望未來,科學家和科技巨頭們能否一路高歌猛進,通往通用人工智慧(AGI)的未來?大家都在看。

AI教父黃仁勳的創業領導成功之道
數位專題

AI教父黃仁勳的創業領導成功之道

AI晶片巨頭輝達(NVIDIA)執行長黃仁勳勢不可擋!1993年創立輝達以來,公司市值近來創下歷史新高,黃仁勳身價更是破千億美元榮登全球前15大富豪。隨著Computex 2024登場,他帶來的A

請往下繼續閱讀

登入網站會員

享受更多個人化的會員服務