數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用論文
一、數(shù)據(jù)挖掘的背景
互聯(lián)網(wǎng)、計(jì)算機(jī)信息技術(shù)迅猛的發(fā)展勢(shì)頭,數(shù)據(jù)從結(jié)構(gòu)化存儲(chǔ)以及轉(zhuǎn)化為非結(jié)構(gòu)化的存儲(chǔ),數(shù)據(jù)存儲(chǔ)形式的轉(zhuǎn)變,不同數(shù)據(jù)類型的存儲(chǔ)變多,音頻、視頻等大格式的信息存儲(chǔ)在多個(gè)應(yīng)用中實(shí)現(xiàn)。行業(yè)中的計(jì)算機(jī)化、信息化和網(wǎng)絡(luò)化,使計(jì)算機(jī)和服務(wù)器上積累了各種各樣海量的數(shù)據(jù)。傳統(tǒng)的人工分析已經(jīng)不能滿足和適應(yīng)如此大量的數(shù)據(jù),各行各業(yè)都產(chǎn)生了巨大數(shù)據(jù)信息,包括生產(chǎn)加工、研究、物流運(yùn)輸、客戶、營(yíng)銷、售后等數(shù)據(jù),人們卻不知道怎么利用這些數(shù)據(jù)實(shí)現(xiàn)價(jià)值的增長(zhǎng)。如果能將這些數(shù)據(jù)進(jìn)行挖掘分析,很可能會(huì)產(chǎn)生巨大的商業(yè)價(jià)值,很多有價(jià)值的信息可以被發(fā)現(xiàn)。現(xiàn)在,越來越多的公司和企業(yè)意識(shí)到數(shù)據(jù)挖掘的重要性,但是怎么能從如此海量的數(shù)據(jù)中挖掘出有價(jià)值有用的信息,已經(jīng)成為研究的熱門話題。在傳統(tǒng)的數(shù)據(jù)分析基礎(chǔ)上,相關(guān)人員結(jié)合新開發(fā)人工智能和數(shù)據(jù)挖掘等相關(guān)的技術(shù),數(shù)據(jù)庫(kù)孕育而生,讓我們能從海量的數(shù)據(jù)中挖掘出有價(jià)值的信息,促使信息化的發(fā)展,稱之為數(shù)據(jù)挖掘。
二、數(shù)據(jù)挖掘的過程
1、數(shù)據(jù)收集。將要進(jìn)行數(shù)據(jù)分析的海量數(shù)據(jù)資源收集到數(shù)據(jù)倉(cāng)庫(kù)中。把不同來源、格式、特點(diǎn)性質(zhì)的數(shù)據(jù)在邏輯上或物理上有機(jī)地集中,抽象出分析相關(guān)的數(shù)據(jù),進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)的分類,篩選出不相關(guān)或者無價(jià)值的數(shù)據(jù),減少數(shù)據(jù)集的容量。
2、數(shù)據(jù)清洗和轉(zhuǎn)換。數(shù)據(jù)清洗是為了刪除掉無用的數(shù)據(jù)信息。數(shù)據(jù)轉(zhuǎn)換的目的最直接的是把所有信息統(tǒng)一化。將完整,有效的`信息存入數(shù)據(jù)倉(cāng)庫(kù)。
3、模型建立。模型建立是數(shù)據(jù)挖掘的核心階段。首先,要和相關(guān)領(lǐng)域的專家組成團(tuán)隊(duì),進(jìn)行需求分析,明確數(shù)據(jù)挖掘的目的和具體的數(shù)據(jù)挖掘任務(wù)。根據(jù)不同的任務(wù),選擇相關(guān)算法,利用這些算法來建立模型,再用專業(yè)的模型評(píng)估工具比較模型的準(zhǔn)確度。即使是同一種算法,參數(shù)選取的不同,所建模型的準(zhǔn)確度也不一樣。
4、模型評(píng)估。從商業(yè)角度來講,模型評(píng)估是對(duì)我們所建立的預(yù)測(cè)模型的正確性進(jìn)行價(jià)值評(píng)估,如若模型中模式無價(jià)值,就要重復(fù)數(shù)據(jù)挖掘過程中的2~4步,即數(shù)據(jù)清洗和轉(zhuǎn)換、模型建立。
5、知識(shí)表示。將數(shù)據(jù)挖掘最后的結(jié)果以最直觀的方式呈現(xiàn)給用戶,通常用數(shù)據(jù)圖形展示工具來表示。
6、應(yīng)用集成。將數(shù)據(jù)挖掘集成到現(xiàn)實(shí)的實(shí)際應(yīng)用中。例如,CRM中有了數(shù)據(jù)挖掘功能,就可以對(duì)客戶進(jìn)行等級(jí)分類。
7、模型管理。根據(jù)不同數(shù)據(jù)模型的生命周期做好數(shù)據(jù)應(yīng)用和管理。
三、WEB數(shù)據(jù)挖掘
基于WEB內(nèi)容的挖掘就是針對(duì)網(wǎng)頁內(nèi)容進(jìn)行數(shù)據(jù)挖掘,通過用戶對(duì)網(wǎng)頁訪問的交互,留下的數(shù)據(jù)信息進(jìn)行收集分類,完成數(shù)據(jù)挖掘。目前對(duì)文本內(nèi)容的挖掘技術(shù)取得了一定的成果,對(duì)圖像、音頻、視頻等各種多媒體數(shù)據(jù)的數(shù)據(jù)挖掘技術(shù)都開始采用非結(jié)構(gòu)化大數(shù)據(jù)應(yīng)用技術(shù)來完成。基于WEB結(jié)構(gòu)的挖掘是發(fā)現(xiàn)頁面、文檔和WEB的結(jié)構(gòu),主要是發(fā)現(xiàn)WEB潛在的結(jié)構(gòu)模式,利用分析這些結(jié)構(gòu)我們可以得到很多潛在有價(jià)值的信息;赪EB使用的數(shù)據(jù)挖掘,即針對(duì)用戶的訪問網(wǎng)頁的軌跡收集分析。WEB內(nèi)容的挖掘和結(jié)構(gòu)的挖掘面對(duì)的主要挖掘?qū)ο笫谴笠?guī)模的軌跡數(shù)據(jù),對(duì)挖掘數(shù)據(jù)進(jìn)行分析可以讓管理者了解用戶的不同需求,從而為用戶提供個(gè)性化的服務(wù)。
四、數(shù)據(jù)挖掘在WEB中個(gè)性化定制的應(yīng)用
通過網(wǎng)站與用戶的交互,可以得到用戶訪問的內(nèi)容、時(shí)間、方式、頻率等,從中發(fā)現(xiàn)潛在的商業(yè)價(jià)值,通過價(jià)值數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘以及算法分析得出商業(yè)結(jié)論。就可以根據(jù)挖掘到的信息對(duì)這些客戶進(jìn)行特定的推銷策略,進(jìn)行個(gè)性化定制。在商業(yè)領(lǐng)域中,通過對(duì)相似軌跡數(shù)據(jù)的客戶進(jìn)行分類,分析他們的共性,幫助管理者發(fā)現(xiàn)不同客戶的需求和興趣,提供適宜各類人的服務(wù)。按照不同用戶的不同興趣和愛好,向用戶提供動(dòng)態(tài)的瀏覽建議。對(duì)大多數(shù)用戶來說,如果可以訪問該網(wǎng)站可以體會(huì)到量身定做的服務(wù),那么數(shù)據(jù)挖掘個(gè)性化定制就成功完成了。
五、數(shù)據(jù)挖掘技術(shù)在WEB中的應(yīng)用
網(wǎng)站的功能設(shè)計(jì)及其版面的內(nèi)容直接影響到網(wǎng)站的訪問率。相關(guān)人員發(fā)現(xiàn)用戶的需要和興趣,對(duì)需求強(qiáng)烈的地方提供優(yōu)化,使用數(shù)據(jù)挖掘去發(fā)現(xiàn)頁面間的關(guān)聯(lián),針對(duì)不同的用戶動(dòng)態(tài)調(diào)整網(wǎng)站的設(shè)計(jì)和鏈接,使用戶可以便捷地訪問到自己想要訪問的頁面。將數(shù)據(jù)挖掘技術(shù)的在WEB中的應(yīng)用,吸引更多的用戶。隨著數(shù)據(jù)挖掘技術(shù)在WEB中的應(yīng)用,用戶可以通過分析挖掘的結(jié)果了解各種客戶的需求和喜好,得到各種定制個(gè)性化服務(wù)。隨著互聯(lián)網(wǎng)上軌跡數(shù)據(jù)信息量的急速增長(zhǎng),不斷復(fù)雜化的數(shù)據(jù)結(jié)構(gòu),挖掘技術(shù)也面臨著一系列新的問題和挑戰(zhàn)。
參考文獻(xiàn):
[1]胡繼平、數(shù)據(jù)挖掘技術(shù)[J]、景德鎮(zhèn)高專學(xué)報(bào),1998
[2]NguyenT,SrinivasanV、AccessingrelationaldatabasesfromtheWorldWideWEB、In:ProcofIEEEDataEngineering[J]、NewOrleansLouisiana,2006
【數(shù)據(jù)挖掘技術(shù)在WEB的運(yùn)用論文】相關(guān)文章:
《數(shù)據(jù)的波動(dòng)》說課稿09-25
《數(shù)據(jù)的波動(dòng)》說課稿范文09-27
積累運(yùn)用二教學(xué)設(shè)計(jì)11-29
《積累與運(yùn)用五》教學(xué)設(shè)計(jì)01-16
《積累與運(yùn)用七》教學(xué)設(shè)計(jì)07-08
《積累·運(yùn)用八》教學(xué)設(shè)計(jì)01-20
《積累·運(yùn)用五》教學(xué)設(shè)計(jì)02-27
《積累運(yùn)用二》教學(xué)設(shè)計(jì)03-03