決策樹算法在高職院校成績分析中的應用研究的論文
摘 要:高職院校的學生的成績是一項重要的數(shù)據(jù),它不僅是對學生學習情況的評價,也是對教師教學質(zhì)量的檢查。本文研究了使用決策樹算法對學生的成績進行挖掘分析,分析學生的畢業(yè)設計成績與基礎類課程、專業(yè)類課程以及專項實踐類課程之間隱藏的內(nèi)在聯(lián)系,指導教師在今后的教學中加強學生實踐操作能力的訓練,進而提高教學質(zhì)量。
關(guān)鍵詞:決策樹; ID3算法; 數(shù)據(jù)挖掘 ;學生成績分析
1.引言
高職院校在多年的教學和管理工作中,積累了大量的教學管理數(shù)據(jù),這些數(shù)據(jù)中蘊含了很多有價值的信息。如果利用數(shù)據(jù)挖掘技術(shù)對學院教務管理系統(tǒng)中教師和學生的數(shù)據(jù)進行挖掘,可以使教師更好的把握學生、把握教學過程,實現(xiàn)教學過程動態(tài)化管理,為學校合理設置課程、優(yōu)化教育資源配置、提高教學質(zhì)量提供可靠的數(shù)據(jù)依據(jù),同時對提高學校教學和管理水平也有一定的幫助。[1]
數(shù)據(jù)挖掘(Data Mining),即數(shù)據(jù)庫中的知識發(fā)現(xiàn),就是對龐大的數(shù)據(jù)集或數(shù)據(jù)庫進行分析,挖掘出隱含的、未知的、用戶可能感興趣的和對決策有潛在價值的知識和規(guī)則,可以為用戶提供決策的依據(jù)[2]。決策樹算法是數(shù)據(jù)挖掘的核心算法之一,決策樹方法以樹型結(jié)構(gòu)表達最終分類結(jié)果的,也能生成If-Then形式的規(guī)則,便于使用者理解。
在教務管理系統(tǒng)中,學生的成績是一項重要的數(shù)據(jù),它不僅是對學生學習情況的評價,也是對教師教學質(zhì)量的.檢查。本文中研究使用決策樹算法對學生的成績進行挖掘分析,全面地分析學生的畢業(yè)設計成績與實踐類課程、專業(yè)類及基礎類課程中隱藏的內(nèi)在聯(lián)系,體現(xiàn)出學生課程之間有一定的相互關(guān)聯(lián)關(guān)系,可以及時指導教師在以后的教學工作中采取恰當?shù)姆椒,加強學生實踐操作能力的訓練,指導學生進行專業(yè)、基礎類課程的學習,提高教學質(zhì)量。
2.決策樹算法
2.1決策樹算法基本概念
決策樹是一種常用的、直觀的分類歸納算法。決策樹是一種類似流程圖的樹狀結(jié)構(gòu),根據(jù)層次的不同,結(jié)點分為根結(jié)點、內(nèi)部結(jié)點和葉結(jié)點三種類型。[3] 每個結(jié)點對應一個樣本集,樹的最高層結(jié)點就是根結(jié)點,對應整個樣本集,內(nèi)部結(jié)點對應一個類標志。根結(jié)點和內(nèi)部結(jié)點都包含一個對樣本屬性的測試,根據(jù)測試的結(jié)果將樣本集劃分為兩個或多個子集,每個子集生成一個分支,分支用測試屬性值來標識。葉結(jié)點包含一個類標志,表示對應樣本集的類別。決策樹的中間結(jié)點通常用矩形表示;而葉子結(jié)點常用橢圓表示。
決策樹的構(gòu)造包括兩個步驟,一是生成決策樹,二是進行剪枝。決策樹的生成是從一個根結(jié)點開始,從下到下的遞歸過程,通過不斷地將訓練樣本分割成子集來構(gòu)造決策樹,從根結(jié)點開始對該樣本的屬性進行測試,根據(jù)測試結(jié)果確定下一個結(jié)點,直至到達葉結(jié)點為止。決策樹的剪枝是對樹結(jié)構(gòu)進行修剪,刪除多余分支的過程,得到一棵最小期望錯誤率的決策樹。
2.2 ID3算法
ID3算法是決策樹學習算法中最有影響力、使用最廣泛的一種決策樹算法。ID3的基本思想是自頂向下遞歸地使用搜索訓練樣本集,是一種典型的貪心算法,在決策樹的每個結(jié)點處測試每一個屬性,用信息增益作為屬性的選擇標準,選擇信息增益最大的屬性作為決策樹結(jié)點,從而構(gòu)建決策樹。[4]在算法中,在決策樹結(jié)點屬性的選擇上使用信息論中熵(Entropy)的概念來完成。
2.2.1 信息熵
信息熵是各自信息量的期望,用信息熵可以用來度量整個信息源X整體的不確性。設樣本數(shù)據(jù)集為X, n是信號源所有可能的符號數(shù),ai是可能取到的值,P(ai)是取值為ai的概率。其信息熵如下:
2.2.3平均信息增益
信息增益表示兩個信息量之間的差值,在進行分類屬性的選擇時,應該選擇最大的信息增益作為分類屬性。信息增益如下:
Gain(XY)= H(X)-H(XY)
3.決策樹算法在教學質(zhì)量分析中的應用
學生的畢業(yè)設計通常是學生對三年來所學的各種基礎素養(yǎng)類課程、專業(yè)類課程、專項實踐類課程的綜合掌握,是體現(xiàn)一個學生的綜合素質(zhì)的重要依據(jù),也是教師培養(yǎng)學生的教學質(zhì)量的重要體現(xiàn)。因此,通過對學生的畢業(yè)設計和各種基礎課、專業(yè)課及專業(yè)實踐課的考試成績的挖掘,分析出其中的關(guān)系,為今后教師調(diào)整教學方案提供依據(jù)。
決策樹算法對學生成績進行分析,是將決策樹的相關(guān)算法應用于學生成績挖掘,對大量的考試成績數(shù)據(jù)進行分析,從而更好的分析和預測成績數(shù)據(jù)。[5]其主要過程如下:
3.1數(shù)據(jù)收集
數(shù)據(jù)收集階段主要工作是從教務管理系統(tǒng)中收集與挖掘相關(guān)的學生成績數(shù)據(jù),并進行簡單的統(tǒng)計分析,檢查這些學生成績數(shù)據(jù)是否完整。
在進行數(shù)據(jù)挖掘之前,主要收集了我院2008級軟件技術(shù)專業(yè)0801班42名學生不同學期的課程成績作為原始數(shù)據(jù),一共選擇了9門課程。學生成績表的主要內(nèi)容包括學號及各門課程成績。進行分類整理后,得到學生成績數(shù)據(jù)表。
學號
計算機網(wǎng)絡基礎
C語言程序設計
WEB開發(fā)技術(shù)
數(shù)據(jù)庫原理與應用
ASP.NET程序設計
C#程序設計
數(shù)據(jù)庫設計與開發(fā)
基于C#的ASP.NET應用程序設計
基于C#的Windows應用程序設計
畢業(yè)設計
100080563
80
80
76
74
90
89
良好
良好
良好
中等
100080575
85
86
88
76
92
94
良好
優(yōu)秀
優(yōu)秀
優(yōu)秀
100080593
60
75
95
69
79
80
中等
及格
及格
及格
……
其中計算機網(wǎng)絡基礎、C語言程序設計、WEB開發(fā)技術(shù)三門為基礎類課程,數(shù)據(jù)庫原理與應用、ASP.NET程序設計、C#程序設計三門為專業(yè)類課程,數(shù)據(jù)庫設計與開發(fā)、基于C#的ASP.NET應用程序設計、基于C#的Windows應用程序設計三門為專項實踐類課程。
3.2數(shù)據(jù)預處理
數(shù)據(jù)預處理的主要工作就是檢查數(shù)據(jù)庫中不完整的、含噪聲的,不一致的的數(shù)據(jù),并且進行清理,除去噪音,填補記錄中遺漏的數(shù)據(jù)值、刪除無效數(shù)據(jù)等,提高挖掘算法的精度和有效性。并且要對數(shù)據(jù)進行轉(zhuǎn)換,生成新的屬性或記錄,使之適合數(shù)據(jù)挖掘處理的格式,預處理后的數(shù)據(jù)可以節(jié)省數(shù)據(jù)處理的時間。
在學生成績表中,對學生因缺考、緩考、違紀、休學、退學等情況產(chǎn)生的成績記錄的缺失,可考慮進行清理,刪除這些記錄,確保表格數(shù)據(jù)的完整。最后形成有效數(shù)據(jù)共42條記錄。
3.3數(shù)據(jù)轉(zhuǎn)換
將收集到的數(shù)據(jù)信息轉(zhuǎn)換為一個數(shù)據(jù)模型, 決策樹算法中使用的是離散型數(shù)據(jù),學生成績是連續(xù)型的,因此,要將其數(shù)據(jù)屬性進行離散化處理。
學生成績的成績評價指標可分為三個等級,A:85-100(優(yōu)秀),B:70-84(良好),C:69以下(一般)。離散化后的學生成績表如下圖所示:
學號
基礎課
專業(yè)課
專項實踐課
畢業(yè)設計
100080563
B
B
B
B
100080575
A
A
A
A
100080593
B
C
C
C
……
3.4 數(shù)據(jù)分類挖掘
根據(jù)生成的分析模型,利用決策樹算法對數(shù)據(jù)進行挖掘,具體情況如下。
學生成績表中樣本類別屬性為畢業(yè)設計,首先計算出畢業(yè)設計的信息熵。畢業(yè)設計成績分為A(優(yōu)秀)、B(良好)、C(一般)三種類別,其中優(yōu)秀為3人,良好為28人,一般為11人,根據(jù)公式計算其信息熵如下:
。3)根據(jù)專項實踐課成績計算條件熵。
專項實踐課成績?yōu)?quot;A"人數(shù)為7人。其中畢業(yè)設計成績?yōu)?quot;A"的2人,為"B"的5人,為"C"的0人。專項實踐課成績?yōu)?quot;B"人數(shù)為25人,其中畢業(yè)設計成績?yōu)?quot;A"的1人,為"B"的16人,為"C"的8人。專項實踐課成績?yōu)?quot;C"人數(shù)為10人。其中畢業(yè)設計成績?yōu)?quot;A"的0人,為"B"的7人,為"C"的3人。因此其條件熵為:
H(X專項實踐課)=
=1.022
其信息增益為:
Gain(專項實踐課)=1.168-1.022=0.146
由上述計算可見,專項實踐課成績屬性所獲得的信息增益最大,被作為根結(jié)點,并依次取專業(yè)課成績、基礎課成績屬性做為分支結(jié)點。通過構(gòu)造和剪枝后,形成如圖所示的決策樹:
3.5 結(jié)果分析
通過對上述決策樹的分析,可得出如下結(jié)論:
專項實踐、專業(yè)課、基礎課成績均優(yōu)秀的同學,畢業(yè)設計成績優(yōu)秀。專項實踐優(yōu)秀、專業(yè)課成績一般的同學,無論基礎課成績?nèi)绾,畢業(yè)設計成績均為一般。由決策樹分析可見,專項實踐、專業(yè)課、基礎課在學生的綜合素質(zhì)的培養(yǎng)中起到了不同程度的作用。專項實踐課對學生的綜合能力的培養(yǎng)有重要的影響,但不是絕對因素,基礎課和專業(yè)課的教學安排,對學生的實踐能力的訓練起到了很大的支撐作用。因此,在專業(yè)的課程安排和教師的教學組織中,要注重學生的知識的學習與技能的訓練的有機結(jié)合,提高學生的綜合能力。
4.結(jié)束語
利用決策樹分類算法的ID3 算法對學生的成績進行分析,構(gòu)造出學生成績分析決策樹,可以挖掘出學生的畢業(yè)設計成績與基礎課程、專業(yè)課程、專項實踐課程之間的隱藏關(guān)系,同時也挖掘出各類課程的學習對學生綜合素質(zhì)培養(yǎng)的影響。教師可以根據(jù)分析結(jié)果在今后的教學過程中,注重加強學生的專業(yè)能力培養(yǎng)、實踐能力訓練,培養(yǎng)出合格的高端技能型人才。
參考文獻:
[1]丁智斌,袁方,董賀偉.數(shù)據(jù)挖掘在高校學生學習成績分析中的應用[J].計算機工程與設計.2006.2(590-592)
[2]邵峰晶,于忠清,王金龍,孫仁誠. 數(shù)據(jù)挖掘原理與算法[M].北京:科學出版社.2009.
[3]陳安,陳寧,周龍驤.數(shù)據(jù)挖掘技術(shù)及應用[M].北京:科學出版社.2006.
[4]廖芹,郝志峰,陳志宏.數(shù)據(jù)挖掘與數(shù)學建模[M].北京:國防工業(yè)出版社.2010.
[5]邢曉宇,余建坤,陳磊.決策樹算法在學生考試成績中的應用[J].云南民族大學學報(自然科學版).2009.1(77-80)
【決策樹算法在高職院校成績分析中的應用研究的論文】相關(guān)文章:
高職院校體育文化的定位分析論文10-04
淺析高職院校中的創(chuàng)業(yè)教育論文12-10
高職院校體育教學中的研究論文10-16
基于關(guān)聯(lián)規(guī)則算法的高職英語教學中的分析研究論文09-10
高職院校學生成績管理研討論文10-20
高職院校聲樂教學培養(yǎng)分析論文10-15
高職院校英語教學分析論文07-23