上週有一場由前Apple團隊組成的新創Humane,所舉辦的AI Pin硬體發表會,話題度竟然不輸OpenAI的GPT-4。原來,AI Pin是一款以大語言模型為基底的AI裝置,重量不到100克,沒有螢幕,可直接別胸上,以投影顯示結果,還可用語音與手勢與它互動。許多人驚呼宛如科幻片裡的個人助理,將顛覆iPhone時代。這是否暗示,從此我們再也不需要手機?
新創公司Humane上週(11/9)正式發表人工智慧硬體「AI Pin」(下稱Pin),它宛若ChatGPT化身為裝置,直接走向世界。
AI Pin比手機更小更輕薄,還能「出一張嘴」就處理任務
Humane的創辦人查得利(Imran Chaudhri)與班吉歐茉(Bethany Bongiorno)皆是前Apple員工,試圖將Pin與過往市場上的裝置區分開來。
Pin具備手機應該有的功能,上網、語音通話,同時也配備麥克風與相機,因此可以在動態中攝影,或者是邊走邊對話,但它強調比手機更好,不用螢幕、可以用投影呈現內容,人們則能夠透過聲音、手勢、手部接觸等方式與Pin互動。
對比手機內建智慧助理,與Pin的對話顯得更為自然,不用特別喚醒(wake)裝置,也不用非得以下命令的方式才能互動;對比其他企圖替人類創造新體驗的VR/MR頭盔,Pin的尺寸輕薄,可以配戴在衣服上,不會干擾工作與生活。
上述的種種亮點,讓Humane驕傲地宣稱Pin將是個人人工智慧新裝置的開始。
Humane表示,Pin透過「AI Mic」處理問題、完成任務,當人們與Pin互動談話,例如搜尋信件、調整內容語氣,甚至是聽音樂,背後就是AI Mic開始活躍。Humane提到,他們與展開OpenAI合作,讓Pin得以串接AI模型,雖然尚不知道AI Mic的技術細節,但它扮演的角色類似於GPT模型,有對話能力,也能夠生成內容;準備好先備知識,它就能夠最近OpenAI推出的客製化GPTs一樣,處理特定任務。
我們或許可以說,Pin就是ChatGPT在物理世界中的現身。
原先人們在網頁中,請ChatGPT翻譯外語、規劃食譜,或者是透過網路瀏覽功能尋找景點;在Humane釋出的概念前導影片中,Pin伴隨使用者,在現實中連接數位世界,逛市場時向Pin詢問水果的營養成分、在朋友聚會現場請Pin扮演即時口譯,甚至是一邊走路,一邊拜託Pin找出附近可以從事的活動。
Pin的官方售價為699美元,以及包含通話與網路流量在內的24美元月費,使用者購買時會拿到一組電話號碼;預計將在2024年出貨。它配備高通驍龍處理器,裝置本身加上電池大約54克左右,相機解析度為1300萬畫素。
根據Crunchbase資料,Humane目前募得2300萬美元資金,其中投資人包括OpenAI的執行長奧特曼(Sam Altman)個人、微軟、Salesforce旗下的基金、Volvo旗下的基金等。Humane的共同創辦人查得利(Imran Chaudhri)與班吉歐茉(Bethany Bongiorno)和都曾在蘋果工作,前者在蘋果服務8年曾任軟體工程總監(Director of Software Engineering),接觸過iPhone、iPad和iOS等,後者則在蘋果工作超過21年,參與過VR、手錶、電視、手機與電腦等專案,專業領域以用戶體驗為主,最高當過設計總監(Director of Design)。
Humane推AI助理仍挑戰,機器彼此溝通仍有問題
觀察AI助理發展,可切分成機器與人類互動的介面層、機器與機器溝通的分工層、機器完成工作的任務層。LLM的成熟已初步掃清介面層障礙,當機器人夠理解人類使用的自然語言,即便不會寫程式,一般人也能夠輕鬆與機器互動。
Humane勾勒出的理想應用風景是,從此人們再也不用一個個打開應用程式,只要靠一個Pin,就能完成所有任務。它作為人類與機器溝通的介面層,完美扮演人類智慧助手的最佳角色。
但機器與機器之間溝通上,仍有挑戰。舉例來說,在影片中Humane展示確認行程、撰寫電子郵件等情境,不過,瀏覽網頁只是「讀取資訊」,寫電子郵件也只是「生成內容」,若是要再往後一步、兩步,例如檢查工作用的微軟Outlook信箱、確認信用卡訂票資訊,同時再比對線上旅遊網站的行程,將其中內容整理成請假信後寄出,就不再是網路瀏覽器,或者ChatGPT那樣的單一頁面,其中更涉及資料怎麼儲存、取得多少權限、機敏資料如何保障等問題。
以微軟Copilot來說,GPT是介面層、Microsoft 365旗下各種生產力軟體為任務層,搜尋圖譜技術某種程度上可看成溝通層,就執行任務來說,仍限縮在微軟內部,要突破品牌體系以外仍不容易。或許我們可以期待,開發AI人工智慧助理者,能夠發展兩道路徑,一道路徑是像Zapier那樣,直接依照不同廠商規定的規格,設計出串連彼此的介面,另一種則是仿照人類使用方式,只要提供充分資訊做為參數,就能夠輸入帳號密碼後進入不同服務。
從互動介面的完善,到機器之間溝通分工的逐步發展,再展望未來面向物理世界的基礎模型,人工智慧從助理(assitant)依照指示完成任務,再到真正代理人(agent)出現的那一天,android從手機OS,到還原其人型機器人的原意,不再是遙不可及的幻夢。