Web集成信息檢索在數(shù)字圖書館中的應(yīng)用研究論文

時間：2021-04-14 16:27:52 論文我要投稿

　　摘要：本文針對數(shù)字圖書館領(lǐng)域的特點，提出了一種實現(xiàn)數(shù)字圖書館Web集成信息檢索及知識庫的建立管理機制，以RDF作為信息和知識的表示模型，采用中介器和包裝器框架來實現(xiàn)對異構(gòu)數(shù)據(jù)源的集成信息檢索，并在此基礎(chǔ)上建立基于RDF的知識庫，實現(xiàn)全局查詢，在知識服務(wù)方面做了初步的實現(xiàn)。最后，本文介紹了基于該機制實現(xiàn)的一個原型系統(tǒng)，并以此原型系統(tǒng)為例，分析了系統(tǒng)性能。

Web集成信息檢索在數(shù)字圖書館中的應(yīng)用研究論文

　　關(guān)鍵詞：數(shù)字圖書館；Web集成信息檢索；RDF；說明式查詢語言

　　0引言

　　數(shù)字圖書館是海量電子資源的集合，它所提供的功能涵蓋并遠遠超過了傳統(tǒng)的數(shù)據(jù)庫、信息檢索系統(tǒng)。數(shù)字圖書館已經(jīng)成為世界范圍內(nèi)、日益重要的基于Web的應(yīng)用框架體系。其基本目的是實現(xiàn)信息的集成共享，給用戶提供統(tǒng)一資源查詢服務(wù)，保障數(shù)字資源的最大可用性、系統(tǒng)之間的互操作性和集成性。

　　但是，如果數(shù)字圖書館像現(xiàn)有的Web一樣僅僅提供簡單的信息瀏覽功能，則同樣會讓用戶陷入“信息過載”的困境，不能共享經(jīng)驗知識，無法滿足用戶對信息、知識的需求。因此，需要針對數(shù)字圖書館異構(gòu)信息源的特點，采取一種適用的集成信息檢索框架，同時要求系統(tǒng)能夠積累交互運行中的知識，建立知識庫，從而給用戶提供智能的、主動的、動態(tài)的知識服務(wù)。

　　1RDF查詢語言——RQuery

　　RDF查詢語言RQuery與XML相比，RDF支持語義信息，然后，XML的設(shè)計動機是關(guān)心文檔的結(jié)構(gòu)，目的在于提供多元的文檔表示結(jié)構(gòu)，關(guān)注的焦點不是文檔中數(shù)據(jù)所代表的語義信息。通過比較得知，RDF查詢語言可以根據(jù)實際需要，使用多元的機制，同時可以定制應(yīng)用領(lǐng)域內(nèi)資源、語義信息、知識的表達規(guī)則。因此，采用RDF查詢語言作為信息表示標準，更方便實現(xiàn)數(shù)字圖書館領(lǐng)域異構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)源IIR的語義相互操作。

　　RQuery的作用有兩個，實現(xiàn)對RDF數(shù)據(jù)和RDFS的查詢，為了給用戶提供超出普通信息查詢更多的知識，系統(tǒng)將上述查詢方法結(jié)合起來。

　　設(shè)計的RQuery解析器是一個簡單的語法分析器，針對RQuery的上下文無關(guān)文法的特點，采用了自上而下的語法分析方法。顧名思義，自上而下就是從文法的開始符號出發(fā)，向下推導(dǎo)，推出句子。其主旨是：對任何輸入串，試圖用一切可能的辦法，從文法開始符號（根節(jié)點）出發(fā)，為輸入串獲取確定的最左推導(dǎo)。

　　提出的RDF查詢語言RQuery，是一種融合了謂詞邏輯的說明式查詢語言，它的設(shè)計基于數(shù)字圖書館IIR需求，與其它RDF查詢語言相比，具有如下特點：支持語義映射、可邏輯解析、模式查詢和數(shù)據(jù)查詢相融合。

　　2數(shù)字圖書館集成信息檢索框架

　　基于中介器，包裝器的數(shù)字圖書館集成信息檢索（DLIIR）系統(tǒng)結(jié)構(gòu)如圖1所示。系統(tǒng)采用RDF作為中間信息表示規(guī)范：即系統(tǒng)各組件間交換的數(shù)據(jù)皆為符合RDF規(guī)范和RDFS定義的信息。因此組件之間以計算機可理解的語義信息進行通訊，提高了處理信息的效率和準確度，適合海量數(shù)據(jù)的查詢。

　　DLIIR系統(tǒng)包含用戶接口和中介器2個模塊：包裝器生成組件（WrapperDispatcher，WD）：包裝器（Wrapper）；知識獲取器（KnowledgeAcquireAgent，KAA）：知識庫搜索器（KBSearchAgent，KBSA）。它們彼此通信，相互協(xié)作，共同完成檢索功能。同時，在DLIIR系統(tǒng)中增加了RDF知識庫。RDF知識庫包含一個知識獲�。↘AA）組件，將來自中介器的RDF文檔轉(zhuǎn)換成RDF知識庫中的記錄。

　　3組件間通訊規(guī)則

　　DLIIR系統(tǒng)包含若干個共同協(xié)作、彼此獨立的單元模塊，這樣的目的在于增加系統(tǒng)的可擴展性。為了進一步實現(xiàn)組件之間的通訊和數(shù)據(jù)交換，提高系統(tǒng)性能、查詢準確率以及工作效率。整個系統(tǒng)的數(shù)據(jù)流如圖2所示。

　　采用RDF作為統(tǒng)一的數(shù)據(jù)格式，完成彼此的數(shù)據(jù)交換和通信，協(xié)同工作，從而實現(xiàn)整個系統(tǒng)的功能，為用戶提供查詢服務(wù)。

　　4用戶接口Agent

　　用戶接口Agent的主要功能是協(xié)助用戶明確、細化查詢請求。同時，將MA返回的查詢結(jié)果以友好、清晰的格式顯示給用戶。

　　UIA的功能包括：①協(xié)助用戶明確、細化查詢請求，將查詢請求提交給MA；②接收MA返回的查詢結(jié)果，以普通HTML頁面形式將結(jié)果顯示給用戶；③為用戶提供查詢RDF知識庫的導(dǎo)航服務(wù)。UIA主要和MA進行通信，完成和用戶交互的功能，這就是主體和其它主體協(xié)作共同實現(xiàn)系統(tǒng)功能的過程。從主體的運行周期來看，UIA的狀態(tài)周期如圖3所示。

　　DLIIR系統(tǒng)中，主體之間的通信數(shù)據(jù)均以RDF表示，MA接收到該消息之后，把該查詢請求轉(zhuǎn)換成RQuel查詢語句。DLIIR提供給用戶基于Web的查詢界面，當用戶提交查詢請求時，激活UIA，開始響應(yīng)用戶的請求。DLIIR給用戶提供了兩種查詢方式：基于關(guān)鍵詞的查詢和基于語義的查詢�；谡Z義的查詢僅僅限于對RDF知識庫進行查詢，由于知識庫中存放的是經(jīng)過處理的、以RDF格式表示的知識，它們之間存在可處理的語義關(guān)聯(lián)，可以根據(jù)語義聯(lián)系查找用戶所需要的信息。

　　5中介器的實現(xiàn)機制

　　中介器依靠包裝器完成信息集成。在DLIIR系統(tǒng)中，中介器（MediatorAgent，MA）需要和其它五種組件通信，協(xié)調(diào)各個組件彼此協(xié)作，共同完成查詢?nèi)蝿?wù)。從MA的內(nèi)部結(jié)果來看，MA就是一個查詢映射、結(jié)果集成的模塊。

　　DLIIR系統(tǒng)中，所有組件之間傳遞的信息均以RDF格式表示，采用提出的RQuery來實現(xiàn)對這些數(shù)據(jù)的查詢。在MA中，對查詢請求的轉(zhuǎn)換，其實質(zhì)就是將RDF格式描述的查詢請求，轉(zhuǎn)換成RQuery語句。

　　為了更清楚地給用戶提供查詢結(jié)果，往往需要HTML文檔具有一定的格式，如不同數(shù)據(jù)以不同顏色顯示，采用表格、鏈接給用戶提供更友好的界面等。此外，考慮到系統(tǒng)的靈活性，便于將來修改結(jié)果顯示的形式，在設(shè)立了一個系統(tǒng)文件——顯示模式（DisplaySchema）文檔。MA在進行查詢結(jié)果到轉(zhuǎn)換時，根據(jù)提前定義的顯示模式，將RDF文檔轉(zhuǎn)換成具有一定格式的`HTML文檔，然后提交給UIA，以供在用戶端的Web瀏覽器上顯示。

　　6包裝器自動構(gòu)造及知識庫框架

　　包裝器（Wrapper）具體工作流程如下：首先該Wrapper將全局查詢請求轉(zhuǎn)換成對該數(shù)據(jù)源進行檢索的命令格式，按照接口協(xié)議和數(shù)據(jù)源通信，獲得檢索結(jié)果。然后該包裝器將結(jié)果遵循全局RDFSchema構(gòu)造成RDF文檔，返回給MA。完成此次查詢?nèi)蝿?wù)后，Wrapper進入空閑狀態(tài)，等待下次檢索任務(wù)。

　　DLIIR中的RDF知識庫以關(guān)系數(shù)據(jù)庫形式存儲的知識記錄，采用兩個組件實現(xiàn)對關(guān)系數(shù)據(jù)庫的操作：知識獲取器和知識庫搜索器。圖4給出了RDF知識庫的框架結(jié)構(gòu)。

　　以RDF圖模型表示的知識按照類和屬性的關(guān)系，以關(guān)系型數(shù)據(jù)庫格式存儲在MicrosonSQLServer數(shù)據(jù)庫中。因此，KAA和KBSA組件需要更新、訪問關(guān)系數(shù)據(jù)庫，實現(xiàn)對知識庫的維護和查詢。這個過程涉及到RDF的解析與RDF圖的恢復(fù)。

　　7性能評估

　　傳統(tǒng)的應(yīng)用程序往往由程序員手工為每個信息源編制包裝器代碼，采用包裝器自動生成機制避免了程序員手工編寫代碼。傳統(tǒng)方式中手工開發(fā)包裝器代碼耗費的開發(fā)代價最大，而DLIIR中建立數(shù)據(jù)源接口描述文檔的開發(fā)代價遠遠小于它。

　　DLIIR系統(tǒng)在實現(xiàn)對異構(gòu)數(shù)據(jù)源檢索的基礎(chǔ)上，同時從檢索結(jié)果中獲取知識，構(gòu)造了以RDF進行知識表示的知識庫。利用本文提出的RQuery語言對知識庫進行檢索。因此，衡量DLIIR系統(tǒng)的知識庫檢索性能（P-RKBIR）也就是衡量RQuery語言的檢索性能。采用知識庫檢索時間作為P_RKBIR的衡量標準。

　　在數(shù)據(jù)量很小時（10萬條記錄以下），數(shù)據(jù)量的變化對查詢時間的影Ⅱ向無法衡量出來，查詢時間相等。在數(shù)據(jù)量在百萬級別以上時，才體現(xiàn)出查詢時間隨著數(shù)據(jù)量的增大而增加的趨勢。此外，查詢時間與記錄數(shù)是線性關(guān)系的。

　　基于結(jié)果，DLIIR系統(tǒng)符合設(shè)計要求，滿足了對數(shù)字圖書館領(lǐng)域異構(gòu)數(shù)據(jù)源集成檢索的需要，而系統(tǒng)的RDF知識庫通過設(shè)計的專用查詢語言RQuery進行檢索時性能良好。

　　8結(jié)論

　　數(shù)字圖書館已經(jīng)成為國家信息化水平的標志，是社會信息知識共享的框架平臺。因此，實現(xiàn)對該領(lǐng)域內(nèi)異構(gòu)信息源的互操作，給用戶提供智能的、主動的知識服務(wù)是數(shù)字圖書館的發(fā)展方向。本文提出了一種實現(xiàn)異構(gòu)信息源集成信息檢索的互操作框架，并對知識庫的建立和檢索進行了初步研究。

【W(wǎng)eb集成信息檢索在數(shù)字圖書館中的應(yīng)用研究論文】相關(guān)文章：

基于數(shù)據(jù)挖掘的數(shù)字圖書館檢索技術(shù)研究論文11-06

關(guān)于網(wǎng)絡(luò)信息檢索論文04-11

數(shù)字圖書館中大數(shù)據(jù)存儲的應(yīng)用研究論文10-26

數(shù)字圖書館的信息營銷特征綜述論文11-06

高校圖書館信息檢索課程教學(xué)的改革02-26

中文字幕高清在线,中文字幕在线电影观看,中文字幕在线看,免费国产一区二区三区,男攻调教双性男总裁,热热涩热热狠狠色香蕉综合,亚洲精品网站在线观看不卡无广告

Web集成信息檢索在數(shù)字圖書館中的應(yīng)用研究論文