︿
Top

AI的新寶庫:圖書館歷史藏書的數位轉型之路

瀏覽次數:1136| 歡迎推文: facebook twitter wechat Linked

科技產業資訊室(iKnow) - 黃松勳 發表於 2025年6月20日
facebook twitter wechat twitter
圖、AI的新寶庫:圖書館歷史藏書的數位轉型之路

隨著人工智慧(AI)技術的迅速發展,AI訓練的資料來源逐漸引起關注。過去,科技公司多使用網路資料,包括維基百科、論壇甚至盜版圖書,來訓練AI模型,但這些資料往往存在版權爭議。

面對愈加嚴格的版權訴訟,科技公司開始轉向公共領域資料。近期哈佛大學發布一套包含近百萬冊歷史藏書的AI訓練資料庫,涵蓋254種語言、394億頁,最早的作品甚至可追溯至15世紀,提供了大量的原始內容供AI研究使用。

這些歷史藏書不僅解決了版權問題,更補足了現有網路資料缺乏的歷史、文化與語言多樣性。圖書館豐富的館藏,如波士頓公共圖書館持有的19至20世紀法語報紙,也成為重要的AI訓練來源,展現圖書館的數位轉型潛力。

哈佛大學的「機構書籍1.0」資料庫,主要包含19世紀的文學、哲學、法律和農業典籍。這些資料皆經由圖書館多代館員細心保管及整理,成為提高AI模型準確性與可靠性的重要基礎。

過去,科技公司往往忽視資料來源的真實性,單純追求資料量,以致部分內容來自盜版或無授權使用,造成諸多版權爭議與訴訟。例如,Meta公司便面臨因使用盜版書籍訓練AI所引發的訴訟。

OpenAI近期也因版權訴訟備受壓力,選擇向包括牛津大學圖書館在內的機構捐贈5000萬美元,協助數位化稀有書籍,同時使用AI技術進行內容轉寫,以公開、合法的途徑取得AI訓練資料。

這種合作模式對圖書館而言是雙贏:科技公司獲得合法豐富的資料,圖書館則獲得數位化的資金支持,推動本來就有意進行的文化典藏計畫,提升公共資源的可及性。

波士頓公共圖書館數位服務主管Jessica Chapel指出,圖書館明確要求所有數位化的資料必須公開,「我們是公共圖書館,我們的館藏本就應該開放給所有人使用」。

然而,數位化過程成本高昂,需耗費大量時間與人力,例如波士頓公共圖書館正進行的法語報紙數位化項目,即是一個艱鉅且耗時的過程,顯示數位化不僅是技術挑戰,也是經濟挑戰。

哈佛大學的藏書資料庫不僅涵蓋語言廣泛,還保有大量歷史思潮與知識方法論的資料。這對於訓練具備人類般邏輯推理能力的AI特別重要,能提供更完整的推理與分析框架。

但同時,這些歷史資料中也包含許多過時或有害的內容,如被推翻的科學理論及種族歧視言論,這使得如何有效篩選與處理敏感內容,成為使用這些資料的重大倫理挑戰。

哈佛圖書館創新實驗室協調員Kristi Mukk表示,其團隊正積極提出指引,協助研究人員在使用歷史資料時作出負責任且知情的決策,以確保AI的倫理與社會責任。

由此可見,圖書館的歷史典籍正開啟一條全新的AI數位訓練之路,不僅提供技術上的革新,更挑戰AI發展的倫理與文化責任,成為科技界和文化機構共同探索的新領域。(1036字;圖1)


參考資料:
AI chatbots need more books to learn from. These libraries are opening their stacks. AP. 2025/06/13.
Some libraries are opening their stacks to teach AI chatbots. The Journal Record. 2025/06/12.
AI chatbots need more books to learn from, so more libraries are opening their stacks. The Hindu. 2025/06/13.


 

 
歡迎來粉絲團按讚!
--------------------------------------------------------------------------------------------------------------------------------------------
【聲明】
1.科技產業資訊室刊載此文不代表同意其說法或描述,僅為提供更多訊息,也不構成任何投資建議。
2.著作權所有,非經本網站書面授權同意不得將本文以任何形式修改、複製、儲存、傳播或轉載,本中心保留一切法律追訴權利。