alexa
置頂

四庫全書數位化

文 / 蕭富元    
1998-10-05
瀏覽數 14,400+
四庫全書數位化
分享 Line分享分享 複製連結

曾經,汗牛充棟是做學問的基本條件,但恁你學富五車,要窮究一個用典出處,就是上窮碧落下黃泉,也未必能即時找到。中研院開發的漢籍電子文獻資料庫,讓你隨時可做個博古通今的數位化翰林大學士。

那一套沒有斷句、洋洋灑灑數十本的[二十五史],可暫時束之高閣了。只要連線進入全球資訊網中研院網頁,輸入關鍵字「翰林院」三字,一秒鐘之內,電腦就幫你找到[二十五史]裡一千零二段有關翰林院的資料,全文檢索,無一筆遺漏。

全球品質最優良的中文資料庫

這是中研院貢獻給文史研究的劃時代產物。

十三年前,嗜讀文史古書的資訊所研究員謝清俊突發奇想,希望透過電腦處理,將古籍資料保存下來。這個構想有點瘋狂,中文古籍不僅浩瀚無根,涉及的版本、斷句、校對、造字等問題,夠教一位文史事業工作者窮經皓首,做也做不完。

謝清俊不死心,在歷史語言所和計算中心人文科技攜手合作下,終於催生出「二十五史食貨志全文自動化」計畫,將[二十五史]的食貨志全部搬上網路。

啼聲初試,計畫意外成功。史語所接著研發規模更大的[二十五史]自動化計畫。史語所靠所內經費,窮五年時間,將整套五千多萬字的[二十五史]全部電子化。計畫完成之後,受到海內外漢學界高度肯定,還以每套三萬美元的價格,賣給美日等國的二十多個學術機構。

「我們為台灣創造知識輸出的產業,」中研院漢籍電子文獻協調委員會召集人黃寬重不無驕傲地說,這套系統

的錯誤率低於千分之一,是全球品質最優良的中文資料庫。

[二十五史]之後,中研院又陸續建立了[十三經]與其他文獻史料。目前正在開發及已經完成的資料,將近三億字,是世界規模最大的中文資料庫,每年還以三千萬字的速度建檔。資訊所也因此研發出造字系統,什麼稀奇古怪的文字,現在幾乎都可以造出來。

參與計書百有十二年歷史的計算中心系統分析師林晰坦言,古籍電子化的工作「本大利小」、枯燥乏味,許多研究員視為畏途。計畫花費的總經費達上億元,平均每個字的成本不到一元。但是,這套系統體積小、不怕遺失、不需保養,長遠而言,還是要做下去。

電腦是未來治學趨勢

漢籍電子資料庫改變了傳統文史研究方法。留美歷史學家唐德剛在使用過這套系統後,興奮不已。他體會到資訊化研究時代己經來臨,電腦是未來治學趨勢,過去博覽群書、背誦死記的研究工夫可以省下許多,以便進行更全面、更深入的研究。

擅長電腦、製作「數位典藏史料」的史語所副研究員劉增貴也現身說法。從前他要找古書做筆記,只能把資料手抄在卡片上,即使再博聞強記,也無法翻遍所有典籍;現在他只要下一個指令,所有相關檔案都可以用資料卡的形式輸出。「過去做的卡片都可以丟掉了,」專研魏晉史的劉增貴,邊翻著電腦列印的卡片,邊對著電腦螢幕說,這套系統對於延伸性的研究議題助益更大,沒有這套系統,有時還真不知從何查起。

中研院院長李遠哲要求研究成果服務社會,在兩年前院方成立「漢籍電子文獻協調委員會」,統籌所有文獻自動化計畫,並逐步上網、對外開放。

今年上半年,就有近七萬人次上網使用這套系統查詢,有一半以上的使用者都不是專業的文史工作者;中研院研究員的使用量占總量還不到五%。國內文史研究所上課時,必定教導系統使用方法,以利研究生找資料。國外漢學家的論文,更常引用這套系統。

挑戰「不可能的計畫」

電子資料還可不斷重複,重建利用價值。為服務學子,中研院抽取其中部分資料,建立師生版人文資料庫,供小學到大學通識課程使用,總字數約四、五千萬字。舉凡在課本上讀到的名文佳句,都可以在電腦上搜尋到。今年上半年,已有兩萬多人次上網使用。

今年,協調委員會擬定一項更「不可能」的計畫--電子版新四庫全書。清乾隆年間紀昀奉命編修四庫全書,囊括了乾隆以前中國歷史上的主要典籍,總字數七億字,是當時世界上最大的出版工程,得要有一棟大房子,才能收藏一套。中研院新四庫全書涵蓋的範圍,比舊四庫更多更廣。

在史語所副所長黃寬重看來,乾隆版四庫全書「問題很大」,只收錄儒家的經典史冊,並且還修改、刪除許多邊疆民族的文獻。新四庫全書不僅要復原史料,還蒐羅《楚辭》、詩詞小說、醫療、堪輿、卜筮等非儒家的作品,以及乾隆之後的文獻、台灣研究素材等。總字數超過二十億字,是現有四庫全書的三倍,總經費達十億元,預計在下個世紀初可以完成。

「這是沒完沒了的工作,」雖然扛下這個重任,黃寬重卻不會電腦、也很少使用資料庫,還是用最原始的方法,直接找原始資料。

從最初單純的查詢工具,演變到現在的文獻總整理,這套資料庫再現了傳統文化的生命。從小就喜歡閱讀文史的林晰體會,自己是在做文化工作,剛開始參與計畫,他認為只是在開發一種支援學術研究的工具,沒有多大成就感;到後來他相信自己是在整理、保存文化。「讓古文資料重現古典的餘暉,」林晰肯定地說。

下次,如果你想要找史冊中的紀錄,只要連線,古人文章生命,盡在指尖的滑鼠上。

如何進入漢籍電子資料庫:

上網後連上全球資訊網(www),然後進入中研院首頁http://www.sinica.edu.tw。選擇網頁上的資料庫,再進入漢籍全文資料庫。選項(二十五史,師生版人文資料庫、十三經,新清史等三十種史料),打入關鍵字,就可以進行檢索。目前上網可以免費檢索三十筆,每一筆都會刊登全文或標明出處。如果機關要訂閱這套系統。一年單機費用是四千元,多機(二五0部)為兩萬五千元,目前尚未開放給個人訂閱使用。

(蕭富元)

分享 Line分享分享 複製連結
評論