11月30日,ChatGPT正式問世滿一歲,在平台上也為自己戴上可愛的壽星帽。它開創了不少話題,不過爭議也未斷。例如「男性專業能力很強、女性擅長溝通」,這種古板的評價,居然在ChatGPT的回答中出現?為什麼ChatGPT還有Google Bard,甚至是其他人工智慧模型都會出現這樣的偏見?其實,這就是反映出訓練資料,以及訓練資料背後的價值觀,以之為原料的模型自然也無法倖免於難。
ChatGPT在11月30日,正式問世滿一週年,短短一年內,已經成為上班族和學生的最佳助手,數位生活中的每個環節,它都能派上用場。不過,你有想過,請ChatGPT幫忙寫履歷與推薦信時,它會對不同性別表現出差別待遇嗎?醫療應用場景也出現相似情況,當醫生向ChatGPT和Google Bard提出臨床問題時,它們會根據患者的種族、性別和社會經濟地位,給予不同建議。
ChatGPT求職推薦信:男性很專業、女性很溫暖
在加州大學洛杉磯分校(UCLA)的新研究中,研究員找來兩款LLM驅動的AI對話服務,分別是OpenAI開發的ChatGPT,還有史丹佛大學開源的輕量模型Alpaca。利用它們替求職者寫推薦信(reference letter),當年紀、學業背景相同,只有性別不同時,產出便出現很大的差異。
當求職者是男性時,ChatGPT會使用正直、值得尊敬的和信譽卓著的等,將他描述成擁有深厚專業能力、具有豐富經驗的產業專家;當求職者是女性時,則會使用漂亮的、優雅的和情感強烈的等詞彙,將她刻劃成善於人際合作與溝通、樂於助人的溫暖人物。
雖然ChatGPT產出的內容都的確是正面的推薦內容,但仔細觀察包裝求職者的方式,還是不脫對女性和男性傳統的性別分工,以及性別特質。
不管是語言風格還是具體使用的詞彙,都出現性別偏見。論文作者認為,當使用者提供的資訊不夠充分時,LLM便會根據性別刻板印象生成內容;即便多給予相關脈絡,LLM仍舊會挑選不同詞彙、使用相異的語言風格,甚至傳播並且放大有害的性別偏見。
偏見根源是訓練資料作者性別失衡
無獨有偶,史丹佛大學醫學院的新研究中,則是與ChatGPT和Google Bard對話,也出現基於身分的差別待遇。研究者準備不同的種族、性別和社會地位,接著請醫師和兩款AI對話服務給予醫療專業評估,發現治療建議會因為病患背景而有所不同。
作者在研究結尾指出,過往醫師和醫療演算法的偏見,就已經在臨床上造成不公,更讓邊緣群體的健康狀況變得比較差,這次研究中也看到人工智慧提供的醫療診斷仍存在問題。不過,雖然AI已經強大到能夠通過美國醫療執照考試、詮釋實驗室檢測結果,甚至是回答病患提問,但ChatGPT尚未獲得官方同意應用在醫療實務中。
不管是寫推薦信,或者是給予醫療建議,深究性別與種族等偏見的問題來源,關鍵還是在於訓練資料的偏斜。有研究者嘗試解析ChatGPT訓練資料的作者性別,根據估計結果,女性撰寫的內容不到其中3成,因此生成內容很容易受到由男性作者為主的資料影響。
接受訪問時,匹茲堡大學網路法研究所政策主任昆茲(Jessica Kuntz)說,不論好或壞,性別都是一種影響人們與世界互動的重要透鏡,這也會反映在寫作上。針對研究結果,她認為若日後這些人工智慧工具被企業與政府廣泛使用,訓練資料眾多作者的觀念可能帶來深遠影響,「我們要讓這些工具在社會中占據重要地位,我們應該非常有意識地做出選擇。」
從印刷書籍到網路文章,再從Google搜尋引擎的預測字串,到大型語言模型(LLM)生成的內容,每個時代的文字都複製當下環境普遍存在的觀念與想法,並如實反映給世人。即便開發者用盡全力,確保「技術是中立的」,但還是無法消除起源於社會的偏見。