中文字幕高清在线,中文字幕在线电影观看,中文字幕在线看,免费国产一区二区三区,男攻调教双性男总裁,热热涩热热狠狠色香蕉综合,亚洲精品网站在线观看不卡无广告

數(shù)據(jù)信息與知識論文

時間:2021-06-13 10:15:43 論文 我要投稿

數(shù)據(jù)信息與知識論文

  一、人類社會三大要素

數(shù)據(jù)信息與知識論文

  人類社會三大要素(能源 材料和信息)中,信息愈來愈顯示出其重要性和支配力,它將人類社會由工業(yè)化時代推向信息化時代,使現(xiàn)代社會所有大的機構(gòu)都卷入到以數(shù)據(jù)及其處理(數(shù)據(jù)搜集 存儲 檢索 傳送 分析和表示)的浪潮中。而隨著人類活動范圍擴展,節(jié)奏加快,以及技術(shù)的進(jìn)步,人們能以更快速較易而廉價的方式獲取和存儲數(shù)據(jù),這就使得數(shù)據(jù)和信息量以指數(shù)形式向上增長。早在八十年代,人們粗略地估算到全球信息量,每隔20個月就增加班一倍。進(jìn)入九十年代,各類機構(gòu)所有數(shù)據(jù)庫數(shù)據(jù)量增長更快。一個不大的企業(yè)每天要產(chǎn)生100MB以上來自各方面的營業(yè)數(shù)據(jù)。美國政府部門的一個典型的大數(shù)據(jù)庫每天要接收約5TP數(shù)據(jù)量,在15秒到1分鐘時間里,要維持的數(shù)據(jù)量達(dá)到300TB,存檔數(shù)據(jù)達(dá)15-100PB。在科研方面,以美國宇航局的數(shù)據(jù)庫為例,每天從衛(wèi)星下載的數(shù)據(jù)量就達(dá)3-4TB之多,而為了研究的需要,這些數(shù)據(jù)要保存七年之久。九十年代因特網(wǎng)(Internet)的出現(xiàn)和發(fā)展,以及隨之而來的企業(yè)內(nèi)部網(wǎng)(Intranet)和企業(yè)外部網(wǎng)(Extranet)以及虛擬私有網(wǎng)(V P N--Virtual Private network)的產(chǎn)生和應(yīng)用,將整個世界聯(lián)成一個小小的地球村,人們可以跨越時空地在網(wǎng)上交換信息和協(xié)同工作。這樣,展現(xiàn)在人們面前的已不是局限于本部門,本單位和本行業(yè)的龐大數(shù)據(jù)庫,而是浩瀚無垠的信息海洋。據(jù)估計,1993年面全球數(shù)據(jù)存貯容量約為二千TP,到達(dá)2000年會增加到三百萬TB,對這極度膨脹的數(shù)據(jù)信息量,人們受到“信息爆炸”“混沌信息空間”(Information Chaotic Spact)和“數(shù)據(jù)過剩”(Data glut)的巨大壓力。

  然而,人類的各項活動基于人類的智慧和知識,即對外部世界的觀察和了解,正確的判斷和決策以及采取正確的行動,而數(shù)據(jù)僅僅是人們用各種工具和手段觀察外部世界所得到的原始材料,它本身沒有任何意義。從數(shù)據(jù)到智慧,要經(jīng)過分析加工處理精煉的過程。如圖1所示:數(shù)據(jù)是原材料,它只是描述發(fā)生了什么事情,它不提供判斷或解釋,和行動的可靠基礎(chǔ)。人們對數(shù)據(jù)進(jìn)行分析找出其中關(guān)系,賦予數(shù)據(jù)以某種意義和關(guān)聯(lián),這就形成所謂信息。信息雖給出了數(shù)據(jù)中一些有一定意義的東西,但它往往和人們手上的任務(wù)沒有什么關(guān)聯(lián),還不能做為判斷 決策和行動的依據(jù)。對信息進(jìn)行再加工,進(jìn)行深入洞察,才能獲得更有用可資利用的信息,即知識.所謂知識,可以定義為“信息塊中的一組邏輯聯(lián)系,其關(guān)系是通過上下文或過程的貼近度發(fā)現(xiàn)的。”從信息中理解其模式,即形成知識。在大量知識積累基礎(chǔ)上,總結(jié)成原理和法則,就形成所謂智慧(Wisdom).其實,一部分人類文明發(fā)展史,就是在各種活動中 知識的創(chuàng)造 交流 再創(chuàng)造不斷積累的螺旋式上升的歷史。另一方面,計算機與信息技術(shù)的發(fā)展,加速了這種過程,據(jù)德國世界報的資料分析,如果說19世紀(jì)時科學(xué)定律(包括新的化學(xué)分子式,新的物理關(guān)系和新的醫(yī)學(xué)認(rèn)識)的認(rèn)識數(shù)量一百年增長一倍,到本世紀(jì)60年代中期以后,每五年就增加一倍。這其中知識起著關(guān)鍵的作用。當(dāng)數(shù)據(jù)量極度增長時,如果沒有有效的方法,由計算機及信息技術(shù)來提取有用信息和知識,也感到像大海撈針一樣束手無策。據(jù)估計,一個大型企業(yè)數(shù)據(jù)庫中數(shù)據(jù),只有百分之七得到很好應(yīng)用.這樣,相對于“數(shù)據(jù)過剩” 和“信息爆炸”,人們又感到“信息貧乏”(Information poor)"數(shù)據(jù)關(guān)在牢籠中”(data in jail).

  二 從數(shù)據(jù)到知識

  早在八十年代,人們從“物競天擇 適者生存”的大原則下,認(rèn)識到“誰最先從外部世界獲得有用信息并加以利用誰就是優(yōu)勝者”,F(xiàn)時當(dāng)市場經(jīng)濟面向全球性劇烈競爭的環(huán)境下,一家廠商的優(yōu)勢不在于像產(chǎn)品 服務(wù) 地區(qū)等方面因素,而在于創(chuàng)新。用知識來作為創(chuàng)新的原動力,就能使公司長期持續(xù)保持競爭優(yōu)勢。因此要能及時迅速從日積月累的龐大的數(shù)據(jù)庫及網(wǎng)絡(luò)上獲取有關(guān)經(jīng)營決策有關(guān)知識,這是應(yīng)付客戶需求易變性及市場快速變化引起競爭激烈局面的唯一武器。

  針對上述情況,如何對數(shù)據(jù)與信息快速有效地進(jìn)行分析加工提煉以獲取所需知識并發(fā)揮其作用,向計算機和信息技術(shù)領(lǐng)域提出了新的挑戰(zhàn)。其實計算機和信息技術(shù)發(fā)展的過程,也是數(shù)據(jù)和信息加工手段不斷更新和改善的過程。早年受技術(shù)條件限制,一般用人工方法進(jìn)行統(tǒng)計分析,和用批處理程序進(jìn)行匯總和提出報告.在當(dāng)時市場情況下,月度和季度報告已能滿足決策所需信息要求。隨著數(shù)據(jù)量的增長,多渠道數(shù)據(jù)源帶來各種數(shù)據(jù)格式的不相容性,為了便于獲得決策所需信息,就有必要將整個機構(gòu)內(nèi)的數(shù)據(jù)以統(tǒng)一形式集成存儲在一起,這就是所謂數(shù)據(jù)倉庫(data Warehousing).它不同于只適用于日常工作的數(shù)據(jù)庫.它是為了便于分析針對一定主

  題(Subject-oriented)的集成化的 時變的(time-Variant即提供存貯5-10或更老的數(shù)據(jù),這些數(shù)據(jù)不再更新,供比較以求出趨向及預(yù)測用)非破壞性(即只容易輸入和訪問不容許更新和改變)的數(shù)據(jù)集中場所。數(shù)據(jù)倉庫的出現(xiàn),為更深入對數(shù)據(jù)進(jìn)行分析提供了條件,針對市場變化的加速人們提出了能實時分析和報表的在線分析手段OLAP(On Line Analytical Processing),它是一種友好而靈活的工具,它能允許用戶以交互方式瀏覽數(shù)據(jù)倉庫對其中數(shù)據(jù)進(jìn)行多維分析,能及時地從變化和不太完整的數(shù)據(jù)中提出與企業(yè)經(jīng)營動作有關(guān)的信息。例如能對數(shù)據(jù)中的異常和變化行為進(jìn)行了解,OLAP是數(shù)據(jù)分析手段的一大進(jìn)步,以往的分析工具所得到的報告結(jié)果能回答“什么”(What),而OLAP的分析結(jié)果能回答“為什么”(Why)。但上述分析手段是建立在用戶對深藏在數(shù)據(jù)中的某種知識有預(yù)感和假設(shè)的前提下。而由于數(shù)據(jù)倉庫(通常數(shù)據(jù)貯藏量以TB計)及聯(lián)網(wǎng)界面上的數(shù)據(jù)來源于多種信息源,因此其中埋藏著豐富的不為用戶所知的有用信息和知識,而要使企業(yè)能及時迅速準(zhǔn)確地作出經(jīng)營動作的決策,以適應(yīng)變化迅速的市場環(huán)境,就需要有一種基于計算機與信息技術(shù)的智能化自動工具,來發(fā)掘埋藏在數(shù)據(jù)中的各類知識。這種手段不應(yīng)再基于用戶假設(shè),而應(yīng)能自身生成多種多種假設(shè),再用數(shù)據(jù)倉庫或聯(lián)網(wǎng)的數(shù)據(jù)進(jìn)行檢驗和驗證,然后返回對用戶 最有用的結(jié)果。同時這種工具還應(yīng)能適應(yīng)現(xiàn)實世界中數(shù)據(jù)的多種特性(即量大 含噪聲 不完整 動態(tài) 稀疏性 異質(zhì) 非線性等)。要達(dá)到上述要求,只借助于一般數(shù)學(xué)分析和算法是無能為力的。多年來,數(shù)理統(tǒng)計技術(shù)以及人工智能和知識工程等領(lǐng)域的研究成果,諸如推理 歸納學(xué)習(xí) 機器學(xué)習(xí) 知識獲取 模糊理論 神經(jīng)元網(wǎng)絡(luò) 進(jìn)化算法 模式識別 粗糙集理論等等分支給開發(fā)上述工具提供了堅實而豐富的理論和技術(shù)基礎(chǔ)。九十年代中期以來,許多軟件開發(fā)商,基于上述技術(shù)和市場需求,開發(fā)了名目繁多的數(shù)據(jù)發(fā)掘(DM--Data Mining)和知識發(fā)現(xiàn)(KDD--Discovery from Data)工具和軟件,DM和KDD形成了近年來軟件開發(fā)市場的熱點,并且已不斷出現(xiàn)成套軟件和系統(tǒng),并開始朝智能化整體解決方案發(fā)展,這是從數(shù)據(jù)到知識前進(jìn)過程中又一個里程碑。

  從數(shù)據(jù)中獲取有用信息或知識,是一個完整的對數(shù)據(jù)進(jìn)行加工 處理的過程。如圖3所示,其中DM是關(guān)鍵的一步。挑選:按一定的標(biāo)準(zhǔn)從數(shù)據(jù)源中挑選或切取一組數(shù)據(jù),形成目標(biāo)數(shù)據(jù)。凈化和預(yù)處理:將不必要或影響分析進(jìn)程的部分?jǐn)?shù)據(jù)刪去。轉(zhuǎn)換:將預(yù)處理后的數(shù)據(jù)進(jìn)行某些轉(zhuǎn)換使之成為可用和可導(dǎo)引的數(shù)據(jù)。數(shù)據(jù)發(fā)掘:這是關(guān)鍵的階段,從數(shù)據(jù)中抽取出信息的模式。所謂模式,可以作如下定義:給定一組事實(數(shù)據(jù))F,一種語言L,和某種可信度測量C,模式就是一種用L的描述方式S,它以可信度C對F的一個子集Fs各事實間的關(guān)系進(jìn)行描述,這種描述在某種意義上比枚舉Fs中所有事實上要簡單得多。解釋賦義或可視化:將模式解釋為可以支持決策的知識,例如預(yù)測 分類 匯總數(shù)據(jù)內(nèi)容和解釋所觀察到的現(xiàn)象等。上述階段之間也許還需要某種迭代分析.(見圖3)從上述過程可以看出,從數(shù)據(jù)中獲取知識是涉及多個領(lǐng)域內(nèi)技術(shù)融合的綜合應(yīng)用(見圖4)

  數(shù)據(jù)庫 模式識別

  技術(shù)

  機器學(xué) 可視化

  習(xí)技術(shù) 技術(shù)

  AI技術(shù) 統(tǒng)計學(xué)

  圖4 DM(KDD)與相關(guān)技術(shù)

  三 KDD(DM)的任務(wù) 技術(shù)和應(yīng)用

  利用DM(KDD)技術(shù)可以完成多項決策所需任務(wù),但大致可分為下述幾方面:預(yù)測:從事例中求得模式,構(gòu)造模型以預(yù)測目標(biāo)度量。分類:找出一函數(shù)能使每事例映射到某種離散類別之一。查出關(guān)系:搜索到對某選定目標(biāo)變量最有影響的其它獨立變量。顯式模型:找出描述不同變量間依賴關(guān)系的顯式公式。聚類:認(rèn)定出描述數(shù)據(jù)的類別的有限分組。偏離檢測:從數(shù)據(jù)已有或期望值中找出某些關(guān)鍵測度顯著的變化。

  由于上述任務(wù)的不同,就需要采用不同的技術(shù)方法和手段,因而在市面也出現(xiàn)種類繁多的商品工具和軟件。大致可以歸納為下列主要類型:

  傳統(tǒng)主觀導(dǎo)向系統(tǒng):這是針對專業(yè)領(lǐng)域應(yīng)用的系統(tǒng)。如基于技術(shù)分析方法對金融市場進(jìn)行分析。采用的方法從簡單的走向分析直到基于高深數(shù)學(xué)基礎(chǔ)的分形理論和譜分析。這種技術(shù)需要有經(jīng)驗?zāi)P蜑榍疤?屬于這類商品有美國的Metastak,SuperCharts,Candlestick Forecaster 和Wall Street Money等

  傳統(tǒng)統(tǒng)計分析:這類技術(shù)包括相關(guān)分析 回歸分析及因子分析等。一般先由用戶提供假設(shè),再由系統(tǒng)利用數(shù)據(jù)進(jìn)行驗證。缺點是需經(jīng)培訓(xùn)后才能使用,同時在數(shù)據(jù)探索過程中,用戶需要重復(fù)進(jìn)行一系列操作。屬于這類商品有美國的SAS,SPSS和Stargraphis等。由于近年來更先進(jìn)的DM方法的出現(xiàn)和使用,這些廠商在原有系統(tǒng)中綜合一些DM部件,以獲得更完善的功能。

  以上兩種技術(shù)主要基于傳統(tǒng)的數(shù)理統(tǒng)計等數(shù)學(xué)的基礎(chǔ)上,一般早已開始用于數(shù)據(jù)分析方面。

  神經(jīng)元網(wǎng)絡(luò)(NN)技術(shù):神經(jīng)元網(wǎng)絡(luò)技術(shù)是屬于軟計算(Soft Computing)領(lǐng)域內(nèi)一種重要方法,它是多年來科研人員進(jìn)行人腦神經(jīng)學(xué)習(xí)機能模擬的成果,已成功地應(yīng)用于各工業(yè)部門。在DM(KDD)的應(yīng)用方面,當(dāng)需要復(fù)雜或不精確數(shù)據(jù)中導(dǎo)出概念和確定走向比較困難時,利用神經(jīng)網(wǎng)絡(luò)技術(shù)特別有效。經(jīng)過訓(xùn)練后的NN可以想像具有某種專門知識的“專家”,因此可以像人一樣從經(jīng)驗中學(xué)習(xí)。NN有多種結(jié)構(gòu),但最常用的是多層BP(back propagation)模型。它已廣泛地應(yīng)用于各種DM(KDD)工具和軟件中。有些是以NN為主導(dǎo)技術(shù),例如俄羅斯的PolyAnalyst,美國的BrainMaker,Neurosell和OWL等。NN技術(shù)也已廣泛地做為一種方法嵌入各種DM成套軟件中。其缺點是用它來分析復(fù)雜的系統(tǒng)諸如金融市場,NN就需要復(fù)雜的結(jié)構(gòu)為數(shù)眾多神經(jīng)元以及連接數(shù),從而使現(xiàn)有的事例數(shù)(不同的紀(jì)錄數(shù))無法滿足訓(xùn)練的需要。另外由受訓(xùn)后的NN所代表的預(yù)測模型的非透明性也是其缺點,盡管如此,它還是廣泛而成功地為各種金融應(yīng)用分析系統(tǒng)所采用。

  決策樹:在知識工程領(lǐng)域,決策樹是一種簡單的知識表示方法,它將事例逐步分類成代表不同的類別。由于分類規(guī)則是比較直觀的,因而比較易于理解,雖然在機器獲取領(lǐng)域內(nèi),多年來已研制出不少實施決策樹的有效算法(如ID3及其改進(jìn)算法等)。但這種方法限于分類任務(wù)。在系統(tǒng)中采用這種方法的有美國的IDIS,法國的SIPINA。英國的Clementinc和澳大利亞的C5.0。

  進(jìn)化式程序設(shè)計(Evolutionary programming):這種方法的獨特思路是:系統(tǒng)自動生成有關(guān)目標(biāo)變量對其他多種變量依賴關(guān)系的務(wù)種假設(shè),并形成以內(nèi)部編程語言表示的程序。內(nèi)部程序(假設(shè))的產(chǎn)生過程是進(jìn)化式的,類似于遺傳算法過程。當(dāng)系統(tǒng)找到較好地描述依賴關(guān)系的一個假設(shè)時,就對這程序進(jìn)行各種不同的微小修正,生成子程序組,再在其中選擇能更好地改進(jìn)預(yù)測精度的子程序,如此依次進(jìn)行,最后獲得達(dá)到所需精度的最好程序時,由系統(tǒng)的專有模塊將所找到的依賴關(guān)系由內(nèi)部語言形式轉(zhuǎn)換成易于為人們理解的顯式形式,如數(shù)學(xué)公式,預(yù)測表等。由于采用通用編程語言,這種主法在原則上能保證任何一種依賴關(guān)系和算法都能用這種語言來描述。這種方法也許是目前最年青的和最有前途的DN方法之一。這種是方法的商用產(chǎn)品還只見諸俄羅斯的Poly Analyst,據(jù)報導(dǎo),它用于金融到醫(yī)療方面軍的各種應(yīng)用于,能獲得者很好的'結(jié)果。

  基于事例的推理方法(CBR棗Case based reasoning)這種方法的思路非常簡單,當(dāng)預(yù)測未來情況或進(jìn)行正確決策時,系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案,這種方法能用于很多問題求解,并獲得好的結(jié)果,其缺點是系統(tǒng)不能生成匯總過去經(jīng)驗的模塊或規(guī)則。采用這種方法的系統(tǒng)有美國的Pattern Recognition Workbench和法國的KATE tools.

  遺傳算法(GA棗Genetic Algorithms):嚴(yán)格說來,DA不是GA應(yīng)用的主要領(lǐng)域,它是解決各種組合或優(yōu)化問題的強有力的手段,但它在現(xiàn)代標(biāo)準(zhǔn)儀器表中也用來完成DA任務(wù)。這種方法的不足之處是:這種問題的生成方式使估計所得解答的統(tǒng)計意義的任何一種機會不再存在。另外一方面,只有專業(yè)人員才能提出染色體選擇的準(zhǔn)則和有效地進(jìn)行問題描述與生成。在系統(tǒng)中包含遺傳算法的有美國的GeneHunter.

  非線性回歸方法:這種方法的基礎(chǔ)是,在預(yù)定的函數(shù)的基礎(chǔ)上,尋找目標(biāo)度量對其它多種變量的依賴關(guān)系。這種方法在金融市場或醫(yī)療診斷的應(yīng)用場合,比較好的提供可信賴的結(jié)果。在俄羅斯的Paly Analyst以及美國的Neuroshell系統(tǒng)中包括了這種技術(shù)。

  上面所列DM技術(shù)不可能是詳盡的囊括,因為多年來數(shù)理統(tǒng)計分析以及AI與KE的研究提供了種類繁多特點各異的手段,DM開發(fā)人員完全可

  以根據(jù)不同任務(wù)加以選擇使用,另外近年來在軟計算(Soft Comp-uting)和不確定信息處理(dealing with Uncertainty of information)方法的研究,促使DM(KDD)技術(shù)向更深層次發(fā)展。

  另外需要說明的,上面所說的DM中的數(shù)據(jù)是指數(shù)據(jù)庫中表格形式中的記錄和條目,這種數(shù)據(jù)稱作結(jié)構(gòu)型數(shù)據(jù)(Structured data)。在一個企業(yè)中,還有一類像文本和網(wǎng)頁形式的數(shù)據(jù),稱作非結(jié)構(gòu)型數(shù)據(jù)(unstructured data)。它來自不同的信息源,如文本 圖像 影視和音響等,當(dāng)然文本是最主要的一種非結(jié)構(gòu)數(shù)據(jù).對一個企事業(yè)單位來說,非結(jié)構(gòu)型數(shù)據(jù)往往占數(shù)據(jù)總量的80%,而結(jié)構(gòu)型數(shù)據(jù)只占20%。1995年分析家已預(yù)言,像文本這樣非結(jié)構(gòu)型數(shù)據(jù)將是在線存貯方面占支配地位的數(shù)據(jù)形式。到1998年初,在Internet上的信息網(wǎng)頁數(shù),已超過5億,到2000年,預(yù)計網(wǎng)頁數(shù)將達(dá)到15億。隨著Internet的擴展和大量在線文本的出現(xiàn),將標(biāo)志這巨大的非結(jié)構(gòu)型數(shù)據(jù)海洋中,蘊藏著極其豐富的有用信息即知識。人們從書本中獲取知識方法是閱讀和理解。開發(fā)一種工具能不需要閱讀而能協(xié)助用戶從非結(jié)構(gòu)數(shù)據(jù)中抽取關(guān)鍵概念以及快速而有效地檢索到關(guān)心的信息,這將是一個非常引人入勝的研究領(lǐng)域。目前,基于圖書 索引 檢索以及超文本技術(shù)的各類搜索引擎,能協(xié)助用戶尋找所需信息,但要深入發(fā)掘這類數(shù)據(jù)中的有用用信息,尚需要更高層次的技術(shù)支持,人工智能領(lǐng)域有關(guān)知識表示及獲取的方法(如語義網(wǎng)絡(luò) 概念映射等),和自然語言理解的研究成果,可望被采用。還可能要涉及到語言學(xué) 心理學(xué)等領(lǐng)域。最近已出現(xiàn)針對文本的DM工具的報導(dǎo)。如IBM公司的TexMiner,NetQuestion,WedCawler和megaputer公司的TextAnalyst等。

  DM(KDD)工具和軟件已在各個部門得到很好的應(yīng)用,并收到明顯的效益。在對客戶進(jìn)行分析方面:銀行信用卡和保險行業(yè),用DM將市場分成有意義的群組和部門,從而協(xié)助市場經(jīng)理和業(yè)務(wù)執(zhí)行人員更好地集中于有促進(jìn)作用的活動和設(shè)計新的市場運動。在客戶關(guān)系管理方面:DM能找出產(chǎn)

  品使用模式或協(xié)助了解客戶行為,從而可以改進(jìn)通道管理(如銀行分支和ATM等)。又如正確時間銷

  售(Right Time MarKeting)就是基于顧客生活周期模型來實施的。在零售業(yè)方面:DM用于顧客購貨籃的分析可以協(xié)助貨架布置,促銷活動時間,促銷商品組合以及了解滯銷和暢銷商品狀況等商業(yè)活動。通過對一種廠家商品在各連鎖店的市場共享分析,客戶統(tǒng)計以及歷史狀況的分析,可以確定銷售和廣告業(yè)務(wù)的有效性。在產(chǎn)品質(zhì)量保證方面:DM協(xié)助管理大數(shù)量變量之間的相互作用,DM能自動發(fā)現(xiàn)出某些不正常的數(shù)據(jù)分布,暴露制造和裝配操作過程中變化情況和各種因素,從而協(xié)助質(zhì)量工程師很快地注意到問題發(fā)生范圍和采取改正措施。在遠(yuǎn)程通訊部門:基于DM的分析協(xié)助組織策略變更以適應(yīng)外部世界的變化,確定市場變化模式以指導(dǎo)銷售計劃.在網(wǎng)絡(luò)容量利用方面,DM能提供對客戶組類服務(wù)使用的結(jié)構(gòu)和模式的了解,從而指導(dǎo)容量計劃人員對網(wǎng)絡(luò)設(shè)施作出最佳投資決策。在各個企事業(yè)部門,DM在假偽檢測 及險評估 失誤回避 資源分配 市場銷售預(yù)測廣告投資等很多方面,起著很重要作用。例如在化學(xué)及制藥行業(yè),將DM用于巨量生物信息可以發(fā)現(xiàn)新的有用化學(xué)成分.在遙感領(lǐng)域針對每天從衛(wèi)星上及其它方面來的巨額數(shù)據(jù),對氣象預(yù)報,臭氧層監(jiān)測等能起很大作用?傊趪,DM已廣泛應(yīng)用于銀行金融,零售與批發(fā) 制造 保險 公共設(shè)施 政府 教育 遠(yuǎn)程通訊 軟件開發(fā) 運輸?shù)雀鱾企事業(yè)單位。據(jù)報導(dǎo),DM的投資回報率有達(dá)400%甚至10倍的事例。

  四 DM(KDD)產(chǎn)品狀況

  九十年代開始出現(xiàn)DM商用產(chǎn)品以來,據(jù)不完全統(tǒng)計,到1998年底1999年初,已達(dá)50多個廠商從事DM的開發(fā)工作,在美國DM產(chǎn)品市場在1994年約為5千萬美元,1997年達(dá)到3億美元。預(yù)計2000年將達(dá)到8億美元。從產(chǎn)品的類型來分有下列產(chǎn)品:提供廣泛的DM能力,典型產(chǎn)品有IBM的Intelligent Miner,SAS的Enterprise Miner.為某個部門旨在求解問題,典型的有Unica公司的Response Modeler Segnentor,IBM公司的Busiess Application等。與提供服務(wù)一起,典型的有NeoVista,Hyperparallel,HNC Marksman.黑匣工具,典型的有GroupModell,ModelMax,NewralWare的Predict.解決客戶問題有Marketier Paregram,Exchemge Application等。

  據(jù)不完全統(tǒng)計,目前出現(xiàn)的DM工具和軟件,可以按采用技術(shù)分類如下表:采用技術(shù)分 類成 套聚 類統(tǒng)計與回 歸連接與相 關(guān)序列模式可視化文筆與網(wǎng)絡(luò)DM報告與匯總偏差虛假檢測商品數(shù)73071157141132發(fā)表數(shù)4657217413。

  DM商品軟件一般包含多種技術(shù)方法,以適應(yīng)不同要求。經(jīng)常將成套工具按不同方式分成模塊,例如Spss的DM套件由下列按功能的模塊組成:基于規(guī)則的影響發(fā)現(xiàn)模塊。多維共性發(fā)現(xiàn)模塊。OLAP發(fā)現(xiàn)模塊。增量發(fā)現(xiàn)模塊。趨向發(fā)現(xiàn)模塊。比較發(fā)現(xiàn)模塊。預(yù)測發(fā)現(xiàn)模塊。而Neovista的DM套件卻按所采用的技術(shù)分組,基于GA的DecisionGA和基于規(guī)則相關(guān)的DecisionAR.

  由于DM不能只看作一個獨立的操作,它是與前后操作聯(lián)系起來,形成數(shù)據(jù)到知識的整體過程。有各種不同的組合方式,最自然的方式是將DM系統(tǒng)與數(shù)據(jù)倉庫和常規(guī)的SQL用戶界面和可視化工具聯(lián)系在一起。如圖5所示是NeoVista公司所提出的集成系統(tǒng)的示意簡圖。它是將集成化知識發(fā)現(xiàn)環(huán)境和開放式數(shù)據(jù)倉庫組成一個DM的集成環(huán)境。為了使DM所得到的結(jié)果更廣泛直接地為用戶所用,人們提出了模式庫(Patterm Base)模式倉庫(Patterm Warehouse)加上聯(lián)網(wǎng)模塊的方案,如圖6所示,這個稱作DMsuite的結(jié)構(gòu)直接工作在大型多表格的SQL數(shù)據(jù)庫基礎(chǔ)上,同時90%的DM工作在服務(wù)器上完成,這樣就使DM工作不受客戶機容量限制。

  DM(KDD)的目的原本是為企事業(yè)單位提供決策的正確依據(jù),從分析數(shù)據(jù)發(fā)現(xiàn)問題作出決策采取行動這一系列操作是一個單位的動作行為,利用計算機及信息技術(shù)完成這整體行動,是發(fā)揮機構(gòu)活力和贏得競爭優(yōu)勢的唯一手段。所以前幾年一位分析學(xué)家將這種機構(gòu)行為和手段稱這為“事務(wù)智能”(BI棗Business Intelligent).他認(rèn)為BI能極大地改進(jìn)決策的質(zhì)量和及時性,從而改進(jìn)機構(gòu)的生產(chǎn)率或發(fā)揮競爭優(yōu)勢。所以近年來,一些大公司將數(shù)據(jù)分析和DM(KDD)工具和有關(guān)技術(shù)組合起來形成所謂BIS(Business Intelligent Softwave)。其中SAS公司的作法是將數(shù)據(jù)源 ,數(shù)據(jù)預(yù)處理 ,數(shù)據(jù)存貯 ,數(shù)據(jù)分析與發(fā)掘 ,信息表示與應(yīng)用等方面技術(shù)有機地綜合成一體,IBM公司更全面地考慮BI系統(tǒng)的結(jié)構(gòu)和功能,與其它公司共同合作來開發(fā)BI各類軟件和工具。并從多方面來加以考慮:首先必須有一良好的數(shù)據(jù)庫和數(shù)據(jù)倉庫,并能使企業(yè)過渡到下一個世紀(jì),所以提出了一個統(tǒng)一的數(shù)據(jù)庫系統(tǒng)DB2和一個可視化數(shù)據(jù)倉庫VDW(Visual Data Warehouse),可以將各種應(yīng)用和各部門的信息融為一體,加上Visual Warehouse OLAP工具可以生成實時報告。在信息發(fā)現(xiàn)和數(shù)據(jù)發(fā)掘工具方面,提出能對結(jié)構(gòu)型和非結(jié)構(gòu)型數(shù)據(jù)進(jìn)行發(fā)掘的一整套智能工具(Intelligent Miner Family)。BI手段只有在好的數(shù)據(jù)基礎(chǔ)才能見效,因此提出數(shù)據(jù)重組工具。向用戶提供聯(lián)合統(tǒng)一觀點的企業(yè)數(shù)據(jù)是作出聰明決策的前提,提出能支持異形數(shù)據(jù)庫的DataJointer(數(shù)據(jù)接合)工具,具有簡單而強有力的數(shù)據(jù)查詢和優(yōu)化的數(shù)據(jù)訪問功能,并能對異形數(shù)據(jù)庫數(shù)據(jù)進(jìn)行復(fù)制,以便不斷更新數(shù)據(jù)倉庫內(nèi)容。所有工具不僅易于使用外,并能與數(shù)據(jù)倉庫無縫地集成在一起。圖 8是IBM BI系統(tǒng)的結(jié)構(gòu)圖。BI系統(tǒng)標(biāo)志著從數(shù)據(jù)到知識到?jīng)Q策的進(jìn)程中的更深入的一步,展示著真正的實用的智能信息系統(tǒng)的雛形。有人將電子商務(wù)和BI看成90年代以來推動企業(yè)創(chuàng)新的兩大重要技術(shù),二者的結(jié)合可以提供指數(shù)增長的機遇。電子商務(wù)通過網(wǎng)絡(luò)加速核心事務(wù)處理過程,改善對客戶的服務(wù),減少周期時間,從而從有限的資源中獲得多的回報。而BI能利用豐富的數(shù)據(jù)資產(chǎn)做出最佳決策,以獲取競爭優(yōu)勢。有人將兩者的結(jié)合比做光速的飛行器加上精密的制導(dǎo)系統(tǒng),能迅速而準(zhǔn)確地命中目標(biāo)

  五 結(jié)束語

  本文從一個方面討論從數(shù)據(jù)到知識的過程,以及計算機及信息技術(shù)在過程中的發(fā)展。新的世紀(jì)將是一個高度化信息化的時代,也就是知識時代,以知識為題的許多問題,諸如知識經(jīng)濟 知識產(chǎn)業(yè) 知識工人 知識管理 知識工程 知識網(wǎng)絡(luò)等,將成為研究的對象。也勢必推動以網(wǎng)絡(luò)為環(huán)境的計算機與信息技術(shù)向更高層次發(fā)展。

【數(shù)據(jù)信息與知識論文】相關(guān)文章:

大數(shù)據(jù)在知識管理中的應(yīng)用論文06-22

大數(shù)據(jù)與信息管理論文04-06

淺談知識管理的信息服務(wù)論文05-29

電力營銷數(shù)據(jù)信息化管理分析論文07-04

大數(shù)據(jù)信息化管理教學(xué)模式論文06-15

構(gòu)建高校信息管理數(shù)據(jù)倉庫論文07-02

信息交流曝隱私幕后原是大數(shù)據(jù)論文04-29

基于知識網(wǎng)格的分布式數(shù)據(jù)挖掘論文04-25

《數(shù)據(jù)信息的加工》教案07-04