中文字幕高清在线,中文字幕在线电影观看,中文字幕在线看,免费国产一区二区三区,男攻调教双性男总裁,热热涩热热狠狠色香蕉综合,亚洲精品网站在线观看不卡无广告

科技文獻語義檢索系統(tǒng)的分類與功能特點論文

時間:2021-06-25 13:00:50 論文 我要投稿

科技文獻語義檢索系統(tǒng)的分類與功能特點論文

  1 引 言

科技文獻語義檢索系統(tǒng)的分類與功能特點論文

  語義檢索是信息檢索的發(fā)展趨勢, 早在 20 世紀80 年代, 語義檢索的思想就已經(jīng)出現(xiàn), 并且信息檢索領域已經(jīng)開展了相關研究工作。企業(yè)級的語義搜索引擎近幾年已經(jīng)開始應用, 例如 Kosmix 和 等, 特別等讓搜索變得更智慧。百度框計算搜狗知立方代表了國內(nèi)搜索引擎在該領域的成功實踐。在文獻信息檢索領域,作為語義檢索系統(tǒng)的典型代表, 做出了開創(chuàng)性的工作, 一些面向科技文獻的語義檢索系統(tǒng)不斷出現(xiàn)。

  傳統(tǒng)基于關鍵詞的檢索系統(tǒng)具有一定的局限性,如無法解決詞匯的模糊性問題, 分散在多個文檔中的相關信息不容易被發(fā)現(xiàn)等。語義檢索基于含義而不是通過關鍵詞匹配尋找用戶查詢的答案, 用以實現(xiàn)實體檢索、概念檢索、分類檢索、關系查詢等知識檢索方式來滿足用戶的多種信息需求, 使得搜索智能化, 根據(jù)用戶的意圖給出用戶想要的結(jié)果。目前, 語義檢索主要有兩個方向: 語義網(wǎng)資源的檢索和對于傳統(tǒng)檢索系統(tǒng)的語義擴展。面向科技文獻的語義檢索研究主要偏向于后者, 利用語義技術改進傳統(tǒng)文獻檢索系統(tǒng),利用敘詞表、主題詞表、本體等知識組織體系實現(xiàn)語義豐富化, 采用語義標注、自動抽取、關系發(fā)現(xiàn)的文本挖掘技術從非結(jié)構化的文本中發(fā)現(xiàn)細粒度的數(shù)據(jù),使得檢索系統(tǒng)更智能化。本文根據(jù)文本語義處理程度對科技文獻語義檢索系統(tǒng)進行分類, 提出科技文獻語義檢索系統(tǒng)的基本框架, 并探討科技文獻語義檢索系統(tǒng)的功能特性。

  2 科技文獻語義檢索系統(tǒng)分類

  根據(jù)系統(tǒng)的智能化、語義化程度, 將現(xiàn)有科技文獻語義檢索系統(tǒng)分為: 語義查詢擴展的檢索系統(tǒng)、以概念或?qū)嶓w為中心的檢索系統(tǒng)、以關系為中心的檢索系統(tǒng)、面向知識發(fā)現(xiàn)的檢索系統(tǒng) 4 種類型。這 4 類檢索系統(tǒng)對科技文獻的文本語義化處理程度不同, 檢索系統(tǒng)的智能化和語義化程度也不同, 如圖 1 所示:

  【1】

  2.1 語義查詢擴展的檢索系統(tǒng)

  語義查詢擴展的檢索系統(tǒng)在傳統(tǒng)關鍵詞檢索基礎上, 對檢索詞進行處理, 利用受控詞表和本體對檢索詞進行擴展。PubMed支持基于 MeSH 的查詢擴展,也有利用 UMLS 的同義詞對 PubMed 查詢進行擴展,QuExT執(zhí)行面向概念的查詢擴展, 檢索結(jié)果根據(jù)用戶預先分配給概念類別的不同權重進行排序。

  GO2PUB利用基因本體中術語之間的語義繼承對PubMed 查詢進行語義擴展, 基因名稱、符號和同義詞都作為額外的關鍵詞提交給查詢處理器。

  2.2 以概念或?qū)嶓w為中心的檢索系統(tǒng)

  以概念或?qū)嶓w為中心的檢索系統(tǒng)利用本體、主題詞表、敘詞表等對科技文獻進行語義標注, 識別文獻中的知識, 檢索過程通過匹配用戶查詢和語義標注結(jié)果執(zhí)行, 這使得檢索系統(tǒng)能夠利用標注信息查詢到更精確的結(jié)果。GoPubMed是這類系統(tǒng)中最典型的, 它利用 Gene 本體和 MeSH 標引 PubMed 文獻, 并用于檢索結(jié)果的結(jié)構化展示, 可以讓用戶看到與查詢相關的主要的生物醫(yī)學概念。相比 PubMed, GoPubMed 可以更快地找到相關的檢索結(jié)果。NextBio 文獻檢索系統(tǒng)利用基于本體的語義工具和創(chuàng)新界面, 對 ScienceDirect 內(nèi)容和 PubMed、臨床實驗、生物醫(yī)學新聞等授權開放使用的研究數(shù)據(jù)進行文本挖掘, 并通過自然語言處理技術實現(xiàn)命名實體識別和消歧, 從而提高檢索性能。Kleio 系統(tǒng)對文本的語義概念(如 genes、protein和其他生物醫(yī)學術語)進行標注, 提供對于 MEDLINE的文本和元數(shù)據(jù)相結(jié)合的檢索, 利用標注的命名實體類型對檢索結(jié)果進行分面, 從而實現(xiàn)檢索結(jié)果的過濾。

  2.3 以關系為中心的檢索系統(tǒng)

  以關系為中心的檢索系統(tǒng)通過文本挖掘技術從科技文獻中發(fā)現(xiàn)概念或?qū)嶓w之間的關系, 能夠提供基于關系的檢索服務。Quertle是一個關系驅(qū)動的生物醫(yī)學文獻檢索工具, 使用基于語義的自然語言處理方法從生物醫(yī)學文獻集中抽取主謂賓關系, 發(fā)現(xiàn)生物醫(yī)學實體(如疾病、基因、藥物)之間的一般或特殊關系。

  用"咖啡因偏頭痛"作為搜索詞, Quertle 會發(fā)現(xiàn)兩個檢索詞之間的關系如"咖啡因治療偏頭痛", 而不是通常搜索 PubMed 所返回的同時包含"咖啡因"和"偏頭痛"兩個檢索詞的記錄。CoPub是以共現(xiàn)關系為中心的檢索工具, 利用文本挖掘技術檢測 PubMed 摘要中共現(xiàn)的生物醫(yī)學概念, 如基因本體中的人類/鼠基因、生物過程、分子功能、細胞組成以及病理、疾病、藥物和途徑等。在 CoPub 系統(tǒng)中檢索某個生物醫(yī)學概念, 可以獲得與其共現(xiàn)的其他生物醫(yī)學概念以及共同出現(xiàn)的文摘。PolySearch抽取人類疾病、基因、突變、藥物和代謝物之間的關系, 利用各種文本挖掘和信息檢索技術對內(nèi)容摘要、段落或句子進行識別和排序, 支持面向十幾個不同類型的文本、科學文摘或生物信息學數(shù)據(jù)庫的50多種查詢類型, 例如檢索"與乳腺癌有關的基因".

  2.4 面向知識發(fā)現(xiàn)的檢索系統(tǒng)

  面向知識發(fā)現(xiàn)的檢索系統(tǒng)通過發(fā)現(xiàn)隱含的關系和知識, 從而為用戶提供更深層次的語義檢索服務。

  CoPub 5.0在 CoPub 共現(xiàn)關系挖掘的基礎上開發(fā)了稱為CoPub Discovery的新技術, 從文獻中挖掘間接關系, 用于研究疾病背后的機理、連接基因和途徑, 發(fā)現(xiàn)現(xiàn)有藥物的新型應用等。CoPub 5.0 提供了三種分析模式, "term search"模式為一個術語檢索文摘和術語關系, "pair search"模式分析術語對之間的已知關系或新關系, "set terms"模式用以給出多個術語之間的關系。

  FACTA++從 MEDLINE 文摘中發(fā)現(xiàn)并可視化如基因、疾病、化合物等生物醫(yī)學概念之間的間接關聯(lián), 利用機器學習模型發(fā)現(xiàn)文本中的生物分子事件, 利用概念之間的共現(xiàn)關系統(tǒng)計出信息挖掘隱藏的關聯(lián)。EvidenceFinder實現(xiàn)對 PMC 全文數(shù)據(jù)從化合物基因、蛋白質(zhì)、疾病等生物醫(yī)學實體到如磷酸化、綁定、激活等生物相關性事實的多層次文本標注。Evidence-Finder 將標注事實轉(zhuǎn)化為一系列的問題, 作為文獻檢索的推薦, 幫助用戶找到問題答案對應的文章。例如, 輸入檢索詞"粘蛋白", 系統(tǒng)自動給出一系列相關問題, 如"降低腸道粘蛋白的是什么?"、"什么產(chǎn)生粘蛋白?"等。

  3 科技文獻語義檢索系統(tǒng)的基本框架

  根據(jù)對典型科技文獻語義檢索系統(tǒng)的分析, 提出系統(tǒng)基本框架, 分為語義知識獲取、數(shù)據(jù)集成與融匯、語義索引構建、查詢處理、結(jié)果展示 5 個主要的系統(tǒng)功能, 如圖 2 所示。實現(xiàn)科技文獻的語義豐富化, 基于領域敘詞表或本體, 利用語義標注、實體抽取、關系抽取等技術從科技文獻文本信息中獲取語義知識。以這些語義知識為基礎, 借助實體或概念匹配、本體集成、Linked Data 之間的關聯(lián)實現(xiàn)潛在語義知識、科技文獻以及外部資源的數(shù)據(jù)集成與融匯, 支持細粒度的語義檢索以及相關知識的擴展檢索。在文獻元數(shù)據(jù)索引的基礎上, 構建實體、概念、關系、文本事實依據(jù)的索引, 支撐基于語義的檢索功能。在查詢處理方面, 采用術語匹配、自然語言處理、相似度計算、知識庫圖遍歷、本體推理等技術手段理解用戶的搜索意圖, 通過基于語義知識的分類、聚類、排序等對檢索結(jié)果進行重新優(yōu)化計算。通過結(jié)果列表、可視化展示、分面瀏覽、樹形導航、本體導航等方式將檢索結(jié)果展示給用戶, 同時提供基于語義知識的相關推薦和統(tǒng)計預測等功能。

  4 科技文獻語義檢索系統(tǒng)的功能特點

  語義信息的引入影響了科技文獻檢索系統(tǒng)從數(shù)據(jù)處理、索引構建、查詢處理到結(jié)果管理的各個方面, 使得檢索系統(tǒng)具有一些新的特性。

  4.1 科技文獻語義豐富化

  在傳統(tǒng)文獻標引的基礎上, 一些文獻檢索系統(tǒng)已經(jīng)進行了深層的語義豐富化處理, 并且在此基礎上提供更準確的檢索服務。例如, ProQuest在文本標引基礎上將蘊含在學術出版物中的表格、地圖、照片和其他圖形中的數(shù)據(jù)、變量以及其他內(nèi)容進行深度的標引,平均使用8個術語描述一個圖像。Wiley的SmartArticle技術[14]針對化學期刊新增了化合物索引, 提供對于內(nèi)容的深層檢索, 此外對文獻中的化學術語進行標注,使用不同顏色對不同類型的化學術語進行高亮顯示,以方便用戶閱讀。在醫(yī)學文獻檢索領域, PubMed使用MeSH主題詞表進行文獻標引, 隨著文本挖掘技術的成熟, 一些工具和系統(tǒng)在PubMed基礎上對科技文獻進行了更為深入的語義豐富化處理[15].例如, EBIMed[16]

  從文獻中抽取蛋白質(zhì)、基因本體標注、藥物和物種, 基于共現(xiàn)分析識別抽取概念之間的關系。PubTator工具[17]支持對PubMed檢索結(jié)果的標注, 識別的生物醫(yī)學實體包括基因、化學物質(zhì)、疾病、變異、物種等。

  4.2 基于實體或概念的數(shù)據(jù)集成與融合科技文獻的數(shù)據(jù)集成已轉(zhuǎn)變?yōu)橐詫嶓w或概念為中心的數(shù)據(jù)集成和融合, 實現(xiàn)不同應用系統(tǒng)之間的語義互操作, 促進更廣泛的共享與應用。AGRIS 國際農(nóng)業(yè)科學和技術信息系統(tǒng)利用 OKKAM 實體名稱系統(tǒng)框架[18]創(chuàng)建關聯(lián)數(shù)據(jù)模型, 將書目數(shù)據(jù)庫轉(zhuǎn)換為關聯(lián)數(shù)據(jù)服務.一方面, 使用 AGROVOC 敘詞表與其他敘詞表映射, 另一方面將書目記錄與外部資源建立連接,如 DBPedia、WordBank、Google Custom SearchAPI、Nature OpenSearch 等。在 AGRIS 檢索結(jié)果的詳細頁面中, 除書目信息外, 還提供相關外部資源的結(jié)果揭示, 借助文獻標引使用的 AGROVOC 詞匯、書目關聯(lián)數(shù)據(jù)等實現(xiàn)以實體或概念為中心的知識頁面之間的融匯。Elsevier 提出 Smart Content 的概念, 組織醫(yī)學專家在 UMLS 基礎上構建 EMMeT 醫(yī)學詞匯分類體系, 將 Elsevier 的臨床醫(yī)學期刊、論文、書目章節(jié)、表格、圖像等數(shù)據(jù)映射到合適的醫(yī)學術語上, 從而加強對 Content 的理解, 使其提升到實體、概念和關系的知識層面上, 以便各類應用程序更好地理解和處理內(nèi)容上的內(nèi)涵信息。

  4.3 面向文本分析結(jié)果的索引機制。為實現(xiàn)對文本分析結(jié)果的檢索, 語義檢索系統(tǒng)構建了文本中概念、實體、關系、事實與文獻之間的索引。例如, Kleio系統(tǒng)應用Lucene對識別出來的蛋白質(zhì)、基因、代謝物和醫(yī)學術語構建索引, 即對與文本相關的概念構建索引, 而不是個體或規(guī)范詞形式, 這意味著系統(tǒng)可以檢索與某個指定概念相關的文檔, 無論概念的表現(xiàn)形式是它的拼寫變體還是縮寫形式.

  EvidenceFinder 系統(tǒng)借助基因、蛋白質(zhì)、藥物、疾病和代謝物的詞表以及表示生物醫(yī)學過程和關系的詞典, 對 Europe PMC 倉儲全文數(shù)據(jù)進行語法分析和文本挖掘, 將所有可能包含相關事實的句子構建索引。NLMplus使用 Solr 對語義層進行索引, 支撐檢索服務。而 Quertle建立語義關系索引、關鍵詞索引和輔助索引三種索引, 用于查找用戶輸入的檢索詞和提問,并返回檢索結(jié)果。

  4.4 查詢處理

  由于一個搜索請求可能代表多重含義, 對用戶輸入的檢索詞進行語義分析是語義檢索系統(tǒng)的首要任務。通常, 語義檢索系統(tǒng)從用戶輸入字符開始提供自動完成功能, 對用戶輸入的檢索詞和語句進行識別和分析, 給出相關的查詢建議, 通過理解用戶查詢意圖和搜索空間的含義改進檢索質(zhì)量。

 。1) 基于受控詞表和本體的自動完成功能

  目前, 搜索引擎大多數(shù)都具有自動完成功能, 利用預存的術語自動將用戶的檢索詞對應到可能匹配術語上并提示給用戶, 簡化用戶輸入操作。文獻檢索系統(tǒng)通常利用受控詞表和本體實現(xiàn)自動完成功能,GoPubMed將輸入的術語匹配 MeSH 和 Gene 本體術語; Semedico將查詢建議放在分類樹中允許用戶選擇一個廣義術語作為檢索詞, 在括號中列出其同義詞;NextBio可以列出匹配的基因、化合物、SNPs、疾病、組織、生物學團體和作者等; Elsevier 的 ClinicalKey 醫(yī)學信息平臺在用戶輸入檢索詞后提供檢索建議, 如相關醫(yī)學主題、內(nèi)容來源和作者等。

  (2) 查詢分析

  檢索系統(tǒng)在執(zhí)行查詢前, 采用語言學方法將用戶輸入的檢索詞映射到受控詞表或本體的概念、實體上,將關鍵詞檢索轉(zhuǎn)化為概念或?qū)嶓w的`檢索。利用受控詞表的同義、廣義、窄義等術語以及基于本體上下位關系實現(xiàn)查詢的邏輯推理, 用于解釋用戶的查詢, 并給出查詢建議。Kleio 系統(tǒng)將摘要中命名實體進一步分類, 結(jié)合語義分類信息執(zhí)行查詢, 可以降低搜索空間,提高檢索效率.一些文獻檢索系統(tǒng)允許用戶使用自然語言進行提問, 如 Quertle、EvidenceFinder 等, 在執(zhí)行查詢處理前, 需要對查詢語句進行預處理, 利用自然語言處理技術將查詢語句進行重構。NLMplus使用敘詞表和本體對 PubMed Review 進行語義標引, 利用構建的知識庫對查詢進行分析和解析, 以檢索到更精確的結(jié)果。iPubMed[23]提供一個交互式檢索界面, 當用戶在搜索框中輸入幾個字符時, 系統(tǒng)將立即顯示任何包含這些字符的引用, 便于縮小搜索目標, 此外該系統(tǒng)還允許小的拼寫錯誤。ClinicalKey 通過 EMMeT建立關系的語義框架, 促進內(nèi)容發(fā)現(xiàn), 使得被傳統(tǒng)關鍵詞檢索忽略的潛在關聯(lián)能夠被揭示出來, 并且保證了ClinicalKey能夠為用戶的檢索請求提供具體并且有針對性的答案, 比如查找"myocardial infarction",ClinicalKey 智能檢索可以識別其縮略詞、同義詞、相關外科手術和治療藥物, 并且知道這是一種與高膽固醇相關的心血管疾病[20].

  4.5 查詢結(jié)果管理在傳統(tǒng)文獻檢索系統(tǒng)的基礎上, 語義檢索系統(tǒng)對于查詢結(jié)果的呈現(xiàn)方式更加多樣, 表達的信息也更加豐富, 基于本體的結(jié)果精煉、知識導航等為用戶帶來了新的檢索體驗。

  (1) 查詢結(jié)果呈現(xiàn)方式語義檢索系統(tǒng)為用戶提供了最直接的結(jié)果呈現(xiàn)方式, 如檢索的目標概念(實體)、關系、事實、回答等信息。GoPubMed[5]在文獻結(jié)果列表中只顯示文摘中與檢索目標相關的句子, 反映檢索詞的事實, 而不是全部摘要信息。Quertle[8]同樣顯示文摘中相關的事實信息,并對檢索目標進行高亮顯示。FACTA++[12]將與查詢目標相關的概念通過不同分類列表的方式顯示, 并可以按照相關的頻次排序。CoPub[9]返回查詢術語的詳細信息、共現(xiàn)術語的分類和文摘數(shù)量。EvidenceFinder[13]在文獻檢索列表中直接給出查詢問題的答案并高亮顯示。

  (2) 概念/實體層級結(jié)構分類與導航GoPubMed[5]通過本體的層級結(jié)構對查詢結(jié)果進行聚集, 實現(xiàn)了大規(guī)模結(jié)果的快速導航, 用戶可以快速獲取相關的生物醫(yī)學概念, 同時可以在檢索中發(fā)現(xiàn)新的檢索目標或過濾檢索條件, 使得檢索更有深度和廣度。NextBio[6]將從摘要和正文中抽取的生物醫(yī)學術語, 以Tag云的方式顯示, 并提供這些術語的分類, 可以利用它們進一步過濾和優(yōu)化查詢結(jié)果。Kleio[7]將檢索結(jié)果根據(jù)文獻標注命名實體的語義分類進行組織,并列出最高關聯(lián)頻率的概念, 方便用戶瀏覽和過濾檢索結(jié)果。ClinicalKey 允許用戶根據(jù)有臨床意義的子分類篩選檢索結(jié)果, 比如內(nèi)容類型、?、疾病名稱、身體部位等[20].

 。3) 文本挖掘結(jié)果顯示與相關知識導航在結(jié)果頁面或文獻詳細頁面對語義標注結(jié)果進行呈現(xiàn), 并提供相關知識的簡介、鏈接與導航, 例如GoPubMed[5]在標注概念下方用虛線標記, 點擊后可實現(xiàn)對標注概念的重新檢索和二次檢索, 以及直接給出標注概念的詳細信息、W kipedia 鏈接。EvidenceFinder系統(tǒng)[13]在文獻詳細頁面將識別的生物實體統(tǒng)計情況以圖形化的方式顯示, 并根據(jù)不同的類型分別列出, 點擊標注實體可以直接鏈接到 UniProtKB的相關檢索界面,查看相關信息。ClinicalKey平臺在檢索結(jié)果頁面提供文獻摘要的預覽窗口, 同時對語義標注的結(jié)果進行展示,并且提供 2 000 多個疾病主題頁, 可以快速訪問疾病的流行病學、風險因素、臨床表現(xiàn)、治療等方面的信息, 以及與特定?葡嚓P的答案和藥物鏈接[20].

  (4) 基于概念/實體的文獻統(tǒng)計分析。通過對文獻的文本挖掘, 語義檢索系統(tǒng)可以實現(xiàn)基于概念/實體而不是關鍵詞等元數(shù)據(jù)信息的文獻統(tǒng)計分析功能。例如, 在 GoPubMed[5]平臺上點擊左側(cè)導航的概念或文本標注概念都可以看到該概念相關文獻的時間軸, 不僅可以展示相關文獻的演化過程, 也可以預測其發(fā)展趨勢。

  5 結(jié) 語

  科技文獻語義檢索系統(tǒng)相比傳統(tǒng)檢索系統(tǒng), 其優(yōu)勢在于能夠處理語義信息, 從非結(jié)構化文本中發(fā)現(xiàn)潛在知識, 實現(xiàn)知識檢索, 滿足用戶更高的檢索需求。通過研究和分析現(xiàn)有科技文獻語義檢索系統(tǒng)可以發(fā)現(xiàn)系統(tǒng)的語義化程度依賴于對文獻的語義挖掘深度, 借助現(xiàn)有的文本挖掘、自然語言處理、語義網(wǎng)等技術以及受控詞表和本體, 在很大程度上實現(xiàn)了對指定信息的挖掘和發(fā)現(xiàn), 然而由于受控詞表和本體的領域局限性和覆蓋率問題, 科技文獻語義檢索系統(tǒng)的研究主要集中在生物醫(yī)學領域, 而在科技文獻檢索領域?qū)崿F(xiàn)通用的語義檢索仍然困難重重。

【科技文獻語義檢索系統(tǒng)的分類與功能特點論文】相關文章:

MPA論文的特點分類以及選題06-29

多功能農(nóng)業(yè)科技論文03-30

科技畢業(yè)論文參考文獻01-28

批復的特點及分類10-16

多功能農(nóng)業(yè)科技創(chuàng)新論文04-01

科技論文作者署名、文獻人名的書寫形式規(guī)范05-27

基于語義識別分析論文04-27

彩色剪紙的特點分類03-27

聘書的分類以及特點10-06