AI的新寶庫：圖書館歷史藏書的數位轉型之路

關鍵字：；；；；；；；；；

瀏覽次數：6163｜歡迎推文：

科技產業資訊室(iKnow) - 黃松勳發表於 2025年6月20日

圖、AI的新寶庫：圖書館歷史藏書的數位轉型之路

隨著人工智慧（AI）技術的迅速發展，AI訓練的資料來源逐漸引起關注。過去，科技公司多使用網路資料，包括維基百科、論壇甚至盜版圖書，來訓練AI模型，但這些資料往往存在版權爭議。

面對愈加嚴格的版權訴訟，科技公司開始轉向公共領域資料。近期哈佛大學發布一套包含近百萬冊歷史藏書的AI訓練資料庫，涵蓋254種語言、394億頁，最早的作品甚至可追溯至15世紀，提供了大量的原始內容供AI研究使用。

這些歷史藏書不僅解決了版權問題，更補足了現有網路資料缺乏的歷史、文化與語言多樣性。圖書館豐富的館藏，如波士頓公共圖書館持有的19至20世紀法語報紙，也成為重要的AI訓練來源，展現圖書館的數位轉型潛力。

哈佛大學的「機構書籍1.0」資料庫，主要包含19世紀的文學、哲學、法律和農業典籍。這些資料皆經由圖書館多代館員細心保管及整理，成為提高AI模型準確性與可靠性的重要基礎。

過去，科技公司往往忽視資料來源的真實性，單純追求資料量，以致部分內容來自盜版或無授權使用，造成諸多版權爭議與訴訟。例如，Meta公司便面臨因使用盜版書籍訓練AI所引發的訴訟。

OpenAI近期也因版權訴訟備受壓力，選擇向包括牛津大學圖書館在內的機構捐贈5000萬美元，協助數位化稀有書籍，同時使用AI技術進行內容轉寫，以公開、合法的途徑取得AI訓練資料。

這種合作模式對圖書館而言是雙贏：科技公司獲得合法豐富的資料，圖書館則獲得數位化的資金支持，推動本來就有意進行的文化典藏計畫，提升公共資源的可及性。

波士頓公共圖書館數位服務主管Jessica Chapel指出，圖書館明確要求所有數位化的資料必須公開，「我們是公共圖書館，我們的館藏本就應該開放給所有人使用」。

然而，數位化過程成本高昂，需耗費大量時間與人力，例如波士頓公共圖書館正進行的法語報紙數位化項目，即是一個艱鉅且耗時的過程，顯示數位化不僅是技術挑戰，也是經濟挑戰。

哈佛大學的藏書資料庫不僅涵蓋語言廣泛，還保有大量歷史思潮與知識方法論的資料。這對於訓練具備人類般邏輯推理能力的AI特別重要，能提供更完整的推理與分析框架。

但同時，這些歷史資料中也包含許多過時或有害的內容，如被推翻的科學理論及種族歧視言論，這使得如何有效篩選與處理敏感內容，成為使用這些資料的重大倫理挑戰。

哈佛圖書館創新實驗室協調員Kristi Mukk表示，其團隊正積極提出指引，協助研究人員在使用歷史資料時作出負責任且知情的決策，以確保AI的倫理與社會責任。

由此可見，圖書館的歷史典籍正開啟一條全新的AI數位訓練之路，不僅提供技術上的革新，更挑戰AI發展的倫理與文化責任，成為科技界和文化機構共同探索的新領域。(1036字；圖1)

參考資料：
AI chatbots need more books to learn from. These libraries are opening their stacks. AP. 2025/06/13.
Some libraries are opening their stacks to teach AI chatbots. The Journal Record. 2025/06/12.
AI chatbots need more books to learn from, so more libraries are opening their stacks. The Hindu. 2025/06/13.

歡迎來粉絲團按讚！

--------------------------------------------------------------------------------------------------------------------------------------------