歸納邏輯程序設(shè)計(jì)的應(yīng)用與發(fā)展論文
機(jī)器學(xué)習(xí)試圖利用計(jì)算機(jī)來模擬人類的學(xué)習(xí)行為,進(jìn)而利用計(jì)算機(jī)的技術(shù)優(yōu)勢給人類的生活帶來便利。歸納邏輯程序設(shè)計(jì)(Inductive Logic Programming,簡寫為ILI}是機(jī)器學(xué)習(xí)和邏輯程序設(shè)計(jì)的交叉研究領(lǐng)域。它在子句邏輯的框架下,通過讓計(jì)算機(jī)考察具體的事例,然后學(xué)習(xí)出能夠刻畫這些事例特有屬性的一般性規(guī)則。具體來說,計(jì)算機(jī)進(jìn)行操作時(shí),根據(jù)背景知識(shí)在限定的歸納假設(shè)空間中不斷地搜索,最后得出一個(gè)理論(也即滿足某種語言偏向的子句巢,使得所有的正例都能被理論覆蓋,而負(fù)實(shí)例不被覆蓋。ILP作為機(jī)器學(xué)習(xí)的重要方法,已經(jīng)在生物信息學(xué)、自然語言處理、軟件工程等應(yīng)用領(lǐng)域取得成功。
一、歸納邏輯程序設(shè)計(jì)的研究現(xiàn)狀
近年來,ILP得到很大的發(fā)展,其應(yīng)用領(lǐng)域也不斷拓寬。一般說來,ILP最重要的應(yīng)用領(lǐng)域之一是生物信息學(xué)的。ILP之所以能適用于生物信息學(xué)的任務(wù),是因?yàn)樗鼤?huì)將背景知識(shí)和結(jié)構(gòu)數(shù)據(jù)考慮在內(nèi),學(xué)習(xí)產(chǎn)生人類能理解的知識(shí)。在學(xué)習(xí)蛋白質(zhì)結(jié)構(gòu)的折疊的過程中,由于對(duì)其結(jié)構(gòu)的學(xué)習(xí)很重要,所以需要找到能夠清晰描述其結(jié)構(gòu)的語言。傳統(tǒng)的屬性方法無法描述對(duì)象間的關(guān)系,因而也就無法合理地表示蛋白質(zhì)分子的三維結(jié)構(gòu),ILP的一階邏輯工具—子句邏輯是非常適合描述這種關(guān)系的語言,它在預(yù)測蛋白質(zhì)結(jié)構(gòu)信息和蛋白質(zhì)次級(jí)結(jié)構(gòu)生成中發(fā)揮了很大作用。同時(shí),在預(yù)測化合物誘變問題上,ILP也解決了傳統(tǒng)方法無法解決的結(jié)構(gòu)關(guān)系問題。
機(jī)器學(xué)習(xí)一個(gè)非常獨(dú)特的應(yīng)用領(lǐng)域是自然語言處理,它的主要任務(wù)在于建立各種自然語言處理系統(tǒng),如文字自動(dòng)識(shí)別系統(tǒng)、語音自動(dòng)識(shí)別系統(tǒng)、機(jī)器翻譯系統(tǒng)、自然語言信息檢索系統(tǒng)、自動(dòng)索引系統(tǒng)等。在自然語言處理中,ILP的方法可以從文本中抽取復(fù)雜的關(guān)系數(shù)據(jù),這是ILP優(yōu)于其他機(jī)器學(xué)習(xí)技術(shù)的特點(diǎn)之一。ILP系統(tǒng)還常常為工程學(xué)、環(huán)境監(jiān)控、軟件分析、模式學(xué)習(xí)和關(guān)系發(fā)現(xiàn)等領(lǐng)域的數(shù)據(jù)構(gòu)造預(yù)測模型。雖然ILP與其他機(jī)器學(xué)習(xí)方法相比有一定的優(yōu)勢,然而隨著科學(xué)技術(shù)發(fā)展和需求的增加,ILP在應(yīng)用中也面臨許多挑戰(zhàn):
首先,相比其他的機(jī)器學(xué)習(xí)系統(tǒng)來說,ILP系統(tǒng)對(duì)時(shí)間和空間有更高的要求,這使得ILP很難去處理大的數(shù)據(jù)集。因此,ILP應(yīng)該努力尋求與隨機(jī)搜索和并行處理技術(shù)等方法結(jié)合以處理結(jié)構(gòu)復(fù)雜的數(shù)據(jù)集。
其次,隱馬爾科夫模型、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)、雙連詞和三連詞等技術(shù)都能充分表達(dá)任務(wù)中的內(nèi)在概率,而ILP系統(tǒng)很少有表達(dá)、處理概率的能力,這也是ILP的重大不足之一。
最后,當(dāng)背景知識(shí)和數(shù)據(jù)集用一階邏輯清晰表達(dá)出來時(shí),ILP可以運(yùn)行良好。但是當(dāng)數(shù)據(jù)集是無法通過一階邏輯清晰表達(dá)的圖像、視頻、音頻時(shí),ILP就無能為力。就這一問題來說,ILP需要從約束邏輯程序設(shè)計(jì)中借鑒經(jīng)驗(yàn),學(xué)習(xí)處理特殊數(shù)據(jù)格式的技術(shù)。
二、歸納邏輯程序設(shè)計(jì)的發(fā)展展望
ILP用過程中所顯現(xiàn)出來的不足之處,使得ILP必須與其他研究領(lǐng)域的技術(shù)相結(jié)合,來提高它解決問題的能力。為了使ILP更好地完成歸納學(xué)習(xí)任務(wù),戴維·培基提出了ILP未來發(fā)展的五個(gè)研究方向。
1 .ILP和貝葉斯網(wǎng)絡(luò)
目前在人工智能中,貝葉斯網(wǎng)絡(luò)(Bayesian network)是處理不確定信息和進(jìn)行概率推理的最有力工具,它在很大程度上取代了傳統(tǒng)的基于規(guī)則的專家系統(tǒng)。人工智能的研究者已經(jīng)意識(shí)到概率的重要性,例如在醫(yī)療診斷中,幾乎沒有普遍真的醫(yī)學(xué)規(guī)律存在,也很少有完全正確的實(shí)驗(yàn)可被利用。取而代之的是,概率被用來刻畫任務(wù)本身內(nèi)在的不確定性。貝葉斯網(wǎng)絡(luò)被特別設(shè)計(jì)出來去表達(dá)一些可能的概率分布,并且嘗試對(duì)這些概率分布進(jìn)行推理。它已經(jīng)在醫(yī)療診斷、拼寫糾錯(cuò)、故障診斷等領(lǐng)域得到應(yīng)用,也成為了國內(nèi)外研究的新寵兒。
雖然貝葉斯網(wǎng)絡(luò)有如此良好的應(yīng)用,然而它本質(zhì)上是命題的:變量集是確定且有限的,并且每個(gè)變量都有其確定的可能值域。這個(gè)事實(shí)限制了貝葉斯網(wǎng)絡(luò)的應(yīng)用。此外,當(dāng)一個(gè)貝葉斯網(wǎng)用一個(gè)圖表表示時(shí),圖表能夠刻畫的唯一關(guān)系是概率、或然性之間的條件依賴關(guān)系,它不能表達(dá)關(guān)系結(jié)構(gòu)。要想使貝葉斯網(wǎng)絡(luò)更好地為人類服務(wù),必須試圖去拓展貝葉斯網(wǎng)絡(luò)的表達(dá)力,并且試圖用一個(gè)拓展的表達(dá)來進(jìn)行歸納學(xué)習(xí)。實(shí)踐證明,這個(gè)拓展的表達(dá)結(jié)果是復(fù)雜的,還降低了一階邏輯的表達(dá)力。ILP研究者嘗試學(xué)習(xí)添加概率的子句,來拓展貝葉斯網(wǎng)的表達(dá)力,在一定程度上可以解決這一問題。目前,學(xué)者已經(jīng)提出幾種可供選擇的子句表達(dá)方式,其中包括概率邏輯程序設(shè)計(jì),隨機(jī)邏輯程序設(shè)計(jì)和概率約束邏輯程序設(shè)計(jì)。庫塞斯(Cusses)著手研究隨機(jī)邏輯程序設(shè)計(jì)的算法和應(yīng)用,而恩格"'b"和哈達(dá)維則研究貝葉斯網(wǎng)絡(luò)的一階表達(dá)。一般說來,ILP和貝葉斯網(wǎng)絡(luò)學(xué)習(xí)是正交的。ILP擅長處理關(guān)系域,而貝葉斯網(wǎng)絡(luò)對(duì)概率處理的很好。因此,設(shè)想一個(gè)能夠具有貝葉斯網(wǎng)絡(luò)學(xué)習(xí)和ILP-者優(yōu)點(diǎn)的學(xué)習(xí)算法的存在和應(yīng)用是合理的,嘗試將貝葉斯網(wǎng)絡(luò)學(xué)習(xí)和ILP結(jié)合的領(lǐng)域也應(yīng)該是一個(gè)有前途、有希望的研究領(lǐng)域。
2 .ILP和隨機(jī)搜索
隨著計(jì)算機(jī)技術(shù)的發(fā)展,人類收集數(shù)據(jù)、存儲(chǔ)數(shù)據(jù)的能力有了很大提高,對(duì)這些數(shù)據(jù)施以算法搜索處理,就能滿足人類不同的需求。隨機(jī)搜索是指在目標(biāo)位置基本服從均勻分布的條件下,搜索軌跡隨機(jī)且均勻散布在目標(biāo)分布區(qū)域內(nèi)的一種搜索方式。常用的隨機(jī)搜索算法主要包括模擬退火算法、進(jìn)化策略、遺傳算法。這些算法求解時(shí)搜索過程是非確定性的,算法對(duì)約束函數(shù)及目標(biāo)函數(shù)有限制,因而可以解決大規(guī)模復(fù)雜問題。
大部分ILP算法搜索由假設(shè)而定的一個(gè)子句格。它們尋找這樣一個(gè)子句—即能夠使子句覆蓋范圍的函數(shù)達(dá)到最大化的`子句。根據(jù)它們?nèi)绾嗡阉鬟@個(gè)子句格,這些ILP算法被分為(基于最小一般泛化腳自底向上算法和(基于求精的自頂向下算法。算法又根據(jù)它們是否利用貪婪搜索、定向搜索、接受搜索來進(jìn)行進(jìn)一步劃分。在幾乎所有算法中,以上這些搜索方法都是確定性搜索。然而,對(duì)于其他ILP之外的具有挑戰(zhàn)性的邏輯或人工智能任務(wù),隨機(jī)搜索常常勝過確定性搜索。1992年,考茨、塞爾曼、維斯克、米切爾以及其他學(xué)者對(duì)局部搜索算法諸如LSAT, WSAT的可滿足性問題的研究,已經(jīng)證實(shí)了隨機(jī)搜索更具優(yōu)勢。塞巴格(Saba咨和羅維洛從事于隨機(jī)匹配和定理證明,并且在誘變性研究上超越PROGOL程序,同時(shí)并沒有犧牲預(yù)測準(zhǔn)確性和理解力。由此可以看出,隨機(jī)搜索是ILP中一個(gè)有前途的研究方向。ILP可以嘗試與隨機(jī)搜索算法結(jié)合,利用隨機(jī)搜索可選擇的形式去檢測子句格,嘗試解決不確定搜索問題。
3 .ILP和約束邏輯程序設(shè)計(jì)
機(jī)器學(xué)習(xí)中廣為人知的成功理論之一是約束邏輯程序設(shè)計(jì)。這個(gè)理論成功的原因在于它整合邏輯和特殊目的的推理者或約束解決者的能力。前面提到的在ILP中加入概率的方法也可以理解為特殊目的推理者在貝葉斯網(wǎng)絡(luò)片段形式中訴諸約束。關(guān)于約束問題,斯里尼瓦森和卡馬喬使用線性回歸去構(gòu)建一個(gè)約束,而克萊文和斯拉特利的工作是用樸素貝葉斯技術(shù)去構(gòu)造一個(gè)約束。值得注意的是,除了在演繹過程中所需要的約束解釋器外,ILP還需要一個(gè)像類似線性回歸一樣的“約束構(gòu)造函數(shù)”。一般情況下,采用一個(gè)數(shù)據(jù)庫的標(biāo)準(zhǔn)邏輯解釋,這里每一個(gè)關(guān)系是一個(gè)謂詞,并且關(guān)系中每一元組是由那個(gè)謂詞建立而來的一個(gè)基原子公式,F(xiàn)在假設(shè)數(shù)據(jù)庫中包含一些復(fù)雜數(shù)據(jù)的格式諸如影像,簡單的邏輯相似性就不能夠刻畫一系列影像的重要特征,這時(shí)就需要基于特殊目的的影像處理技術(shù)。我們將ILP運(yùn)用于處理電影(如MPEG格溝或視頻(如格溝數(shù)據(jù)時(shí),首先需要構(gòu)造特殊目的的約束解釋器,再用ILP技術(shù)對(duì)其進(jìn)行處理。關(guān)于如何將約束加入到ILP研究中,需要關(guān)注阿蘭·弗里希的工作。令人遺憾的是,他的工作沒有涉及如何確保歸納學(xué)習(xí)系統(tǒng)的效率,以及如何去設(shè)計(jì)約束解釋器的正確類型。這些問題正是留給我們?nèi)ニ伎嫉,阿蘭·弗里希至少給我們提供了一種考慮問題的思路。ILP確實(shí)需要從約束邏輯程序設(shè)計(jì)中借鑒經(jīng)驗(yàn),學(xué)習(xí)處理特殊數(shù)據(jù)格式的技術(shù),提高其處理問題和解決問題的能力。
4 .ILP和人類專家的交流
在從遠(yuǎn)程通訊、分子生物學(xué)、制藥學(xué)等領(lǐng)域的數(shù)據(jù)庫中發(fā)現(xiàn)新知識(shí)的過程中,如果一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)和人類專家能夠以團(tuán)隊(duì)的形式合作,充分利用計(jì)算機(jī)的速度優(yōu)勢及人類專家的知識(shí)和技術(shù)優(yōu)勢,那么在很大程度上會(huì)提高機(jī)器學(xué)習(xí)的效率和工作水平,促進(jìn)新知識(shí)的發(fā)現(xiàn)。ILP系統(tǒng)的三個(gè)特性使得它在知識(shí)發(fā)現(xiàn)中能夠很自然地與人類專家進(jìn)行合作:首先,ILP系統(tǒng)能夠利用可宣告的背景知識(shí)去構(gòu)造假設(shè),這就使得ILP和領(lǐng)域?qū)<抑g能夠展開合作。其次,基于特征的學(xué)習(xí)系統(tǒng)要求使用者從描述創(chuàng)造實(shí)例的特征開始,ILP系統(tǒng)允許結(jié)構(gòu)實(shí)例根據(jù)組成它的對(duì)象以及這些對(duì)象之間的關(guān)系一起自然地被描述。一個(gè)分子的二維結(jié)構(gòu)可以將它的原子作為對(duì)象,將原子之間的聯(lián)系作為關(guān)系,這樣直接表示出來。三維結(jié)構(gòu)可以通過添加距離關(guān)系而被表示。最后,ILP系統(tǒng)和命題邏輯學(xué)習(xí)者一樣,都具有輸出用戶可以理解的規(guī)則的能力,一些ILP系統(tǒng)甚至可以用英語返回規(guī)則。
盡管ILP系統(tǒng)呈現(xiàn)了如此多的有用特性,它在知識(shí)發(fā)現(xiàn)中作為人類的合作者,仍然還有許多缺點(diǎn)和不足。首先,大多數(shù)ILP系統(tǒng)在探試程序基礎(chǔ)上返回單一理論,因此丟掉了對(duì)一些領(lǐng)域?qū)<襾碚f有意義的子句。其次,ILP系統(tǒng)不能用人類合作者所使用的那種方式來回答人類專家的問題。它們用簡單的成批處理模式操作,采用一個(gè)數(shù)據(jù)庫作為輸入,并且在此基礎(chǔ)上返回一個(gè)假設(shè)。再次,ILP系統(tǒng)不會(huì)像人類合作者那樣對(duì)輸入的數(shù)據(jù)進(jìn)行質(zhì)疑。最后,人類專家能夠?yàn)榧僭O(shè)提供知識(shí)豐富的辯護(hù)形式,例如將一個(gè)新的假設(shè)與現(xiàn)有的信念聯(lián)系起來,ILP系統(tǒng)做不到這一點(diǎn),它僅僅能提供正確的判斷。在知識(shí)發(fā)現(xiàn)和知識(shí)獲取的人機(jī)合作中,要克服ILP的不足,不僅需要邏輯和人工智能的技術(shù),還需要對(duì)邏輯主體進(jìn)行研究,只有二者結(jié)合才能使機(jī)器與人類專家進(jìn)行良好溝通。
5 .ILP和并行處理技術(shù)
面對(duì)今天復(fù)雜的科學(xué)計(jì)算、各式各樣的圖象處理以及大量的信號(hào)等問題,提高計(jì)算機(jī)的運(yùn)行速度和縮短程序的運(yùn)行時(shí)間至關(guān)重要。ILP系統(tǒng)對(duì)時(shí)間和空間有很高的要求,這使得ILP很難去處理大的數(shù)據(jù)集。并行處理技術(shù)的出現(xiàn),為ILP處理大數(shù)據(jù)集提供了解決思路。并行處理系統(tǒng)由多個(gè)處理單元組成,通過特定方法可以將一個(gè)任務(wù)分成若干個(gè)子任務(wù),分別由各處理單元完成。目前并行處理技術(shù)最顯著的是“貝奧武夫簇群技術(shù)”的普遍應(yīng)用,以及個(gè)人計(jì)算機(jī)、工作站、智能終端并行處理技術(shù)的使用。大衛(wèi)·斯基利康在大容量同步并行模型之下發(fā)展了一個(gè)PROGOL的并行實(shí)施技術(shù)。艾倫·韋德在貝奧武夫簇群技術(shù)基礎(chǔ)上,再次進(jìn)行自上而下的ILP研究。
并行處理技術(shù)的理想是在處理時(shí)間上的一個(gè)縮減,這里處理時(shí)間是處理程序所用數(shù)量的一個(gè)線性函數(shù),斜率接近于1。由于程序之間的管理自檢和資源的競爭,這個(gè)理想很難達(dá)到。一個(gè)好的并行策略,要求程序之間盡可能地相對(duì)獨(dú)立,盡量使得程序之間擁有較少的交流或資源共享。在測試數(shù)據(jù)時(shí),在不同的處理器之間派發(fā)假設(shè)空間。更詳細(xì)地說,對(duì)一個(gè)完備的搜索,一個(gè)并行ILP方案能夠產(chǎn)生一個(gè)戶主用戶模式,這里戶主將不同分段的假設(shè)空間指派給用戶,然后用戶用假設(shè)對(duì)數(shù)據(jù)進(jìn)行測試。用戶反饋給戶主的所有假設(shè)在數(shù)據(jù)上達(dá)到一個(gè)預(yù)先最小評(píng)估值。當(dāng)用戶完成自己的任務(wù)時(shí),戶主繼續(xù)指派時(shí)空的新程序段,直到整個(gè)空間被開發(fā)。在用戶和戶主交流過程中,要考慮每次交流產(chǎn)生數(shù)據(jù)的成本,還要考慮戶主所花費(fèi)的時(shí)間和戶主一用戶交流的時(shí)間。在相對(duì)較大的論域中,完備性搜索期望用戶和戶主之間有盡量少的假設(shè)交流。如果戶主面對(duì)如此快速增長的假設(shè)空間片段,能夠以這樣一個(gè)方式將這些片段與用戶簡潔地交流是可能的;那么整體開銷將是低的,處理時(shí)間也會(huì)縮減,這樣也就接近理想的并行處理模式。
三、結(jié)語
人類有對(duì)宇宙本源、生命本質(zhì)、自我本體的好奇,對(duì)機(jī)器如何模擬人類思維進(jìn)行學(xué)習(xí)和思考這一問題的探討,給機(jī)器學(xué)習(xí)添加了自然科學(xué)色彩。本文總結(jié)了歸納邏輯程序設(shè)計(jì)的發(fā)展現(xiàn)狀,對(duì)目前ILP發(fā)展過程存在的問題進(jìn)行了詳細(xì)地闡述。雖然ILP已經(jīng)在軟件工程、計(jì)算機(jī)網(wǎng)絡(luò)、生物信息學(xué)等眾多領(lǐng)域發(fā)揮作用,然而應(yīng)用領(lǐng)域的迫切需求使得ILP仍需與貝葉斯網(wǎng)絡(luò)、隨機(jī)搜索、并行處理等技術(shù)結(jié)合,進(jìn)一步推動(dòng)科技的發(fā)展,進(jìn)而為人類的生活帶來便利。.
【歸納邏輯程序設(shè)計(jì)的應(yīng)用與發(fā)展論文】相關(guān)文章:
歸納邏輯程序設(shè)計(jì)的發(fā)展論文05-30
燃?xì)饪照{(diào)的應(yīng)用與發(fā)展論文03-03
電子商務(wù)發(fā)展與應(yīng)用論文04-25
管理會(huì)計(jì)在我國的應(yīng)用與發(fā)展論文12-13