OpenAI因為ChatGPT大放異彩、Anthropic憑藉Claude走進世人眼前,美國空軍、陸軍和中央情報局也跟上趨勢,利用人工智慧提升處理資料與作出決策的能力。這些組織的共通點除了AI以外,還有它們合作的新創-Scale AI。 由19歲那年輟學投入創業的亞裔少年亞歷山大(Alexandr Wang)創建,Scale AI如何在競爭激烈的AI領域中找到利基點,達到獨角獸位置?
無論是哪個產業,每間成功的人工智慧企業背後,都有一群人替它們完成無趣但又不可或缺的任務-資料標記(data label)。
美國新創獨角獸Scale AI,就是其中翹楚。它被《CNBC》選進2023年年度市場破壞者50強、估值達到73億美元之譜,即使有多間企業搶進競爭,同時因為血汗勞工醜聞而廣受討論,但它目前仍屹立不搖。
資料標記:無趣卻重要的任務
為什麼公司需要資料標記?又為什麼要外包給標記公司?Scale AI又如何取勝?
企業建置模型打包成API,直接提供給客戶使用,或者以模型為基底開發新功能,接著整合進現有產品中,無論何者,在開發模型時,人們必然需要「標籤」(label),如醫療影像的標籤可能是陰性或者陽性、公司每天每個時段的業績,才能讓模型獲知何謂真實(ground truth),即陰性與陽性,還有業績數值本身。
那麼,又要到哪裡才能得到這些反映現實的標籤?
除了直接利用現有資料集,例如醫生診斷過後的病例、和客戶索取業績資料以外,還能夠請員工拿全新的資料集來標記,標記之後,就能成為模型的訓練原料。
不過,資料標記過程很無趣,試想你對著螢幕,紀錄出現的圖片屬於何種動物,或是從不同文句中,找到帶有惡意性質的內容。除了枯燥乏味以外,它需要的技能未必和重視工程師文化的公司相符,企業若想標記資料,需要額外招人專責此事。
因此,投入人工智慧領域的新創中,有些會從內部找人或者外部招聘,協助標記資料;更多公司選擇外包,將此類非屬核心業務的任務交辦給專業人士處理。有些任務會發在如Amazon Mechanical Turk在內的群眾外包平台上,等待缺錢者接下案子;有些則會和第三方企業合作。
Scale AI就是深耕資料標記賽道的領跑者之一。
1997年出生的亞歷山大,大學在麻省理工學院(MIT)讀數學與資工。就像矽谷眾多前輩一樣,他沒有念完學位,選擇輟學。19歲那年暑假,他和同樣輟學的21歲露西(Lucy Guo)一起創建Scale AI。
Scale AI和有資料標記需求的公司接洽,接到案後再外包給尚有成本優勢的勞動市場,例如非洲與東南亞。Scale AI不只單純擔任仲介角色、媒合供需兩端,賺取差價,它還投入研發改善資料標記流程,並且在資料標記產業鏈向下整合,因此吸引眾多知名客戶。
深挖與向下:將任務做得更完善、向下整合
以改善資料標記流程來說,Scale AI設計的流程,可以先拿標記過的資料訓練模型,再用模型針對新資料產出一批新標記,再請真人檢查。若模型標記的準確率達到一定水準,真人標記員就不用重新開始,耗費太大心力。
另外,也能夠從等待標記的資料著手,預先清理(pre-processing)資料一遍,例如在文字資料中將內文統一格式、剔除無意義資料,這也能替標記員省下心力。
對有資料標記需求的企業來說,收到正確的標籤很重要,如何檢查這些標籤的品質也很重要。Scale AI也將資源挹注於資料標記結果的呈現與修改上,用戶可以在平台上快速查看並修改資料標籤,也能評估不同模型預測出的標籤結果。
不僅如此,Scale AI更向下整合。考慮到資料無法憑空出現,有些產業又有著先天資料不足的問題,因此它將觸角從標記任務延伸到合成資料(synthesize data),利用統計從既有資料中創造出新資料,輔助訓練模型;Scale AI也串接大語言模型,使用者上傳自有資料,便能產出讓使用者可以取用的客製化API,省下自行訓練的算力與建置環境等成本問題。
從自動駕駛領域起家,Scale AI首先招來包含Toyota、Honda、Lyft在內的客戶,因為知名度高,後續更得到其他產業的青睞,除了美國政府如中情局與軍方以外,電商和其他AI服務提供者,也都找上它們。
展望未來,Scale AI仍有挑戰。
就在科技企業如臉書、OpenAI被貼上「利用血汗勞工」進行標註時,它們的當務之急,就是宣布終止和有勞動環境惡劣疑慮的外包商停止合作,這把火也可能燒到Scale AI身上。
另外,2023年因為宏觀經濟局勢,對科技業帶來打擊,Scale AI也無法逃過,已裁員高達20%。
最後,則是競爭加劇。Scale AI現在要和其他也切入資料標記的新創公司競爭,同時還有企業因為資料敏感,改由內部資料標記團隊執行標註;另外,科技巨頭如谷歌、亞馬遜都在自家雲端平台上,建置資料標記環境,雖然還是需要人力標記,但已經足夠減少企業外包資料標記服務的成本。