友人推薦了一具資料群聚(data clustering)[1]分析網站grokker.com,如圖一所示[2],經實際測試後深覺值得推薦,特撰本文。
分類方式有兩種,其一為利用人工與知識領域進行分類,另一為利用電腦或是人工智慧(artificial intelligence)運作,然而不論哪一種方式,目的均為將一群無組織、無系統規則的資料內容進行有序化的處理與分類。
在文【Google Health垂直整合型搜尋服務的啟示】我們介紹Google在垂直整合搜尋服務所進行的工作(現階段該服務已被證實為Google新服務 Google Co-op的一部份,網址為http://www.google.com/coop),並且也說明Kosmix(http://www.kosmix.com)亦屬於同一類分析服務。
垂直整合搜尋服務將首次檢索結果,根據自行分類進行細部區分,例如Kosmix以醫療健康Health為主,因而區分為“Overview”、”Support Groups and Tools”、”Specific Patients”、”Written for Doctors”與”Natural Remedies”五大類與21小類。換言之,一個檢索結果可以再根據功能別,細分為21種資料模式。需要說明,上述21類即是Kosmix根據人工所進行的知識領域分類。
另一種為根據電腦資料群聚(data clustering)所進行的資料分析模式,關於資料群聚的說明與分析方法可進一步參考Wikipedia說明[2],本文所介紹的Grokker即是以此運作模式所設計。
Grokker檢索與資料閱讀模式
Grokker使用方式包括兩部分[1],其一為選擇資料倉庫(data warehouse),該網站共提供三個選擇,分別為”Yahoo!”、”Wikipedia”與”Amazon Books”,其二為利用關鍵字進行檢索。
舉例來說,我們選擇”Yahoo!”,並以”electronic paper”為關鍵字,檢索結果如圖二所示。瀏覽結果共計240筆資料,其中網頁中間呈現Clustering分析結果分類(classification, 結果如表一所示,每一分類後面數字為對應資料比數),左邊為對應的結果網頁(data set, 資料網頁),右邊為部分進階處理模式。如果使用者對特定分類有興趣,即可點選相關細部分類,進一步瀏覽對應網頁。
Grokker另一種結果呈現方式為地圖模式(Map View),如圖三所示(需要安裝Java圖形瀏覽功能)。由圖三可以發現,Grokker將其主區分為九類(九個圓圈),並且九類中尚有進一步分類(小圓圈)。進一步點選其中一筆資料(往細部分類點選),最後結果如圖四所示,由圖可以發現,該網頁與Australian IT相關,資料來源為Yahoo!,語言為英文,網域為澳洲(.au)。地圖模式的優點為可以追蹤資料分類,與找出不同層級之分類關係,缺點為類別與類別之間關係不易區分。
圖二 Grokker檢索結果畫面 |
 |
圖三 Grokker檢索結果之圖形瀏覽形式 |
 |
圖四 Grokker檢索結果之其中一筆資料 |
 |
Grokker工具運用
友人說Grokker對於檢索關鍵字的釐清有重大幫助,我們亦認同此看法。例如,我們僅以”electronic paper”(電子紙)為簡單關鍵字(請參考表一),就可以發現E Ink(一家美國電子紙公司, http://www.eink.com/),display technology(顯示技術)、Flexible Electronic Paper Display(軟性顯示器)、Philips Electronics公司、Fujitsu公司、Toppan Printing公司等均與電子紙相關其他關鍵字與公司名稱。換句話說,Grokker對於商情(網際網路)的收集將能扮演重要角色,並可進一步運用於先前所討論情報收集體系中。
結語
本文初步整理與測試Grokker.com功能後發現,Grokker可以當成關鍵字或知識領域(domain knowledge)的建構工具,當然對於網際網路資料的瞭解與判讀也可扮演關鍵角色。根據Grokker網站說明,其服務對象主要為企業資料用戶,並可用於分析與整合其他知識種類與資料庫。最後,以分類角度來看,我們認為此功能重要且實用,因為人工智慧型搜尋系統,就是希望電腦能有自動判讀功能。 (1346字)
表一 Grokker中”electronic paper”分類與對應資料結果
|
o E Ink (58)
|
o Display Technology (40)
|
o Image Memory (34)
|
o Electronic Publishing (32)
|
o New Electronic (32)
|
o Future of Electronic (24)
|
o Technology News (24)
|
o Flexible Electronic Paper Display (18)
|
o Electronic-paper Displays (16)
|
o Daily News (15)
|
o Fujitsu Develops (15)
|
o White Paper (14)
|
o Digital Paper (13)
|
o Electronic Edition (12)
|
o Philips Electronics (12)
|
o Voting System (12)
|
o Electronic Voting Machines (11)
|
o Medical Records (11)
|
o Today Announced (11)
|
o Sheets of Electronic (9)
|
o Paper Trail (7)
|
o Toppan Printing (6)
|
o EE Times (5)
|
o Electronic Journal (5)
|
o Lucent Technologies (5)
|
o Social Science Research Network (4)
|
o Sony Reader (4)
|
o Erase Electronic Paper (3)
|
o Paper Submission (3)
|
o General (2) |
|
參考資料
--------------------------------------------------------------------------------------------------------------------------------------------