臉書母集團Meta近期舉行Meta Connect開發者大會,會中發布多項AI助理Meta AI的新功能,最令人驚豔的是,以後在臉書與Instagram打造影片與照片,它就是你的神助理,可以協助加強做圖像與影片等多種功能,甚至幫你打造多語言配音替身。這背後靠的是Meta大模型Llama 3.2。到底Meta AI可在台灣使用了嗎?怎麼下載?大模型原理?一文解析。
Meta AI是什麼?官網與下載在哪?
在9月25日舉行的Meta Connect 2024年度開發者大會中,執行長祖克柏(Mark Zuckerberg)發布了多項更新,其中AI助理Meta AI的新功能受到許多關注。其實,這個AI聊天機器人臉書早就發表,但是直到這次開發者大會,才令人驚豔。
Meta AI是Meta於2023年發布的聊天機器人,至今全球每個月已有超過4億人使用,並有1.85億人每週透過Meta的相關產品使用它。不過,除了美國之外,開放使用Meta AI的國家還不多,台灣也尚未開放。
也因此,Meta AI並沒有獨立官網,也不需要下載。台灣地區的臉書或Instagram用戶還無法使用,純粹是因為尚未開放。
Meta AI怎麼用?
至於,未來Meta AI若在台灣開放,該怎麼使用?其實可以在Meta旗下軟體包括Facebook、Instagram、WhatsApp和Messenger上直接使用即可。
當台灣地區開放以後,未來國內臉書用戶使用Meta AI的方式,包括如下兩種:
1. 在與朋友的臉書聊天室中Messenger叫出Meta AI,叫出的指令是訊息中打出「@Meta AI」,請它提供建議。舉例來說,你可問Meta AI適合看日落的景點,它就會直接將答案傳至該聊天室。
2. 也可以建立自己與Meta AI的聊天室,就像使用ChatGPT一樣,在其中與AI一對一對話。
Meta AI的最新功能
但9月底發布的Meta AI新功能十分多元,在語音、影像和圖像等領域都有更新。也因此引起高度關注。以下分為語音、影片與圖像3方面介紹:
語音:用大明星語音聊天
之前OpenAI的ChatGPT 啟用了神似漫威電影「黑寡婦」女角影星聲音的語音,雖然被本尊抗議未授權,卻也引起全球熱議,說明了使用名人聲音來對話的聊天機器人,確實很有吸引力。
也因此,臉書母公司Meta這次發表也不輸人,最受關注的新功能是Meta AI的語音模式。未來只要使用Facebook、Messenger、WhatsApp和Instagram私訊與Meta AI對話,就能收到語音回應外,其聲音訓練還來自不少名人,包括曾演出電影《尚氣》女主角的韓裔演員奥卡菲娜(Awkwafina)、英國實力派影后朱蒂.丹契(Judi Dench)、美國摔角巨星約翰.希南(John Cena)等名人,讓使用者與AI助理的互動更加有趣。
影片:AI幫你配音還打造替身嘴
Meta AI也正在測試影片翻譯功能,此功能不只是翻譯Reels的聲音內容,還會用AI模擬講者的聲音進行配音,並將影片中講者的嘴形同步為翻譯後的語言。也就是說,你以後製作影片,若想要另做英文多語言版本,不必自己重新錄製影片再說一次英文,只要用Meta AI就可以幫你配上英文,不只有語音,還幫你打造一個說英文的「嘴替身」,融入到你原來影片中的臉上,相當神奇。
目前Meta正在Instagram和Facebook進行小範圍測試,將來自拉丁美洲和美國的創作者影片,翻譯成英文和西班牙文,之後將陸續擴展更多語言。
圖像:編輯照片與圖片解說
此外,在圖像的部分,結合能辨識圖像的Llama 3.2模型,使用者可以與Meta AI分享一張照片,並詢問相關問題。例如可以給它一張餐點的照片,請它說明如何製作這道料理;或是詢問照片中花的品種等。
如果有編輯照片的需求,無論是想新增、刪除或更改圖中的元素,都可以在Meta AI中進行。Meta展示的範例是一張山羊的照片,使用者可以要求AI變更照片的背景,讓山羊在海上衝浪,或是為山羊戴上帽子等。
Meta AI背後大模型:Llama 3.2是什麼?
這些Meta AI的新功能為何如此強大?原來背後使用了Meta的新模型Llama 3.2。它是什麼?
Llama 3.2為Meta首個多模態(multimodal)模型,不只能輸入文字,也能處理影像。Llama 3.2中包括視覺大型語言模型11B和90B,以及輕量級、純文字,適用於行動裝置的模型1B和3B。
Meta在其官網中說明,11B和90B能進行圖像推理的任務,例如分析圖表內容、解讀地圖資訊等,也可以生成圖像的文字描述;輕量模型1B和3B則有強大的多語言文本生成和工具調用能力,可以將其與行動裝置上的app結合使用,並將數據保留在裝置中,確保隱私不會外洩。具體而言,可以要求AI總結最近收到的10則訊息、自動發送會議邀請給聯絡人等。
影像分析能力,與GPT4o-mini、Claude 3 Haiku不分軒輊
能處理不同資料類型的多模態模型在現今並不少見,Meta也比較了Llama 3.2與目前市場中的領先者GPT和Claude等模型的性能。結果發現,11B和90B的圖像辨識和分析能力,與Claude 3 Haiku和GPT4o-mini不相上下,甚至在某些任務中,90B的表現勝過另外兩個模型。
在輕量模型方面,3B在執行指令、摘要生成、提示重寫和工具使用等任務上,超越了Google的Gemma 2 2.6B模型、以及微軟(Microsoft)的Phi 3.5-mini 模型;而1B的表現也與Gemma接近。