時間:2023-04-01 09:51:21
序論:好文章的創(chuàng)作是一個不斷探索和完善的過程,我們?yōu)槟扑]十篇數(shù)據(jù)挖掘技術(shù)論文范例,希望它們能助您一臂之力,提升您的閱讀品質(zhì),帶來更深刻的閱讀感受。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實(shí)用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價值,要對這些規(guī)則要進(jìn)行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點(diǎn)的檢測。并非由聚類分析算法得到的類對決策都有效,在運(yùn)用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進(jìn)行檢驗(yàn)。
4.決策樹方法。決策樹學(xué)習(xí)是一種通過逼近離散值目標(biāo)函數(shù)的方法,通過把實(shí)例從根結(jié)點(diǎn)排列到某個葉子結(jié)點(diǎn)來分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個結(jié)點(diǎn)說明了對實(shí)例的某個屬性的測試,該結(jié)點(diǎn)的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測試這個結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對人腦或其他計算機(jī)來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。
6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當(dāng)前群體的一組假設(shè),來實(shí)現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強(qiáng)的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進(jìn)行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進(jìn)行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學(xué)習(xí)問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
參考文獻(xiàn):
2、數(shù)據(jù)挖掘技術(shù)主要步驟
數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉庫,要根據(jù)實(shí)際情況而定,在易出現(xiàn)問題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫。主要是用來把數(shù)據(jù)庫中的所有的存儲數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫雖然可以進(jìn)行大量的存儲數(shù)據(jù),同時也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對手工方式進(jìn)行數(shù)據(jù)測試并建模。其次,在數(shù)據(jù)庫中存儲的數(shù)據(jù)選一數(shù)據(jù)集,作為對數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測性的模型、數(shù)據(jù)的摘要等。隨后再決定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時,要注意幾個問題,要充分利用結(jié)論對照其他的信息進(jìn)行校核,可對圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀點(diǎn)和看法有無差錯,使目前的結(jié)論和原先看法的矛盾有效解除。
3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營銷系統(tǒng)中的應(yīng)用和發(fā)展
數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測性建模方法,也就是對歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對象屬于連續(xù)型的變量,那么此類的推斷問題可屬回歸問題。根據(jù)歷史數(shù)據(jù)來進(jìn)行分析和檢測,再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問題得到解決。電力營銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測出未來情況。把關(guān)聯(lián)規(guī)則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統(tǒng)的應(yīng)用中,時間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測方法。這種方法的應(yīng)用中,對神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對錯誤模型的分析精度達(dá)到一定的精確度。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計詞典中獲取所要挖掘的目標(biāo)的特征向量,并計算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫中的動態(tài)信息,然后生成WWW資源庫索引;第四步,進(jìn)行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動時,所有這些問題只要稍加改動,容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識,然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個性化服務(wù)頁面,并提供用戶對站內(nèi)信息進(jìn)行搜索功能,同時可以滿足師生對于圖書館資源進(jìn)行查找訪問的需求,實(shí)現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個性化服務(wù)。
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時所填寫的,訪問記錄則是在用戶登錄時所記錄的,也是由程序獲得。對這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計劃。通過Web數(shù)據(jù)挖掘,可以對用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會直接的對圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會根據(jù)圖書館的性質(zhì)、服務(wù)對象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時候會受采訪人員的主觀意識的影響,同時這種方式也會顯得死板不靈活。很多時候會出現(xiàn)應(yīng)該購進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈ψx者需求的了解和分析。要解決這些問題就必須對讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對各種日志文件和采訪時獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報告和預(yù)測報告。根據(jù)對分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個性化服務(wù)
金融部門每天的業(yè)務(wù)都會產(chǎn)生大量數(shù)據(jù),利用目前的數(shù)據(jù)庫系統(tǒng)可以有效地實(shí)現(xiàn)數(shù)據(jù)的錄入、查詢、統(tǒng)計等功能,但無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系和規(guī)則,無法根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測未來的發(fā)展趨勢。缺乏挖掘數(shù)據(jù)背后隱藏的知識的手段,導(dǎo)致了數(shù)據(jù)爆炸但知識貧乏”的現(xiàn)象。與此同時,金融機(jī)構(gòu)的運(yùn)作必然存在金融風(fēng)險,風(fēng)險管理是每一個金融機(jī)構(gòu)的重要工作。利用數(shù)據(jù)挖掘技術(shù)不但可以從這海量的數(shù)據(jù)中發(fā)現(xiàn)隱藏在其后的規(guī)律,而且可以很好地降低金融機(jī)構(gòu)存在的風(fēng)險。學(xué)習(xí)和應(yīng)用數(shù)扼挖掘技術(shù)對我國的金融機(jī)構(gòu)有重要意義。
一、數(shù)據(jù)挖掘概述
1.數(shù)據(jù)挖掘的定義對于數(shù)據(jù)挖掘,一種比較公認(rèn)的定義是W.J.Frawley,G.PiatetskShapiro等人提出的。數(shù)據(jù)挖掘就是從大型數(shù)據(jù)庫的數(shù)據(jù)中提取人們感興趣的知識、這些知識是隱含的、事先未知的、潛在有用的信息,提取的知識表示為概念(Concepts),規(guī)則(Rules)、規(guī)律(Regularities)、模式(Patterns)等形式。這個定義把數(shù)據(jù)挖掘的對象定義為數(shù)據(jù)庫。
隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,其應(yīng)用領(lǐng)域也不斷拓廣。數(shù)據(jù)挖掘的對象已不再僅是數(shù)據(jù)庫,也可以是文件系統(tǒng),或組織在一起的數(shù)據(jù)集合,還可以是數(shù)據(jù)倉庫。與此同時,數(shù)據(jù)挖掘也有了越來越多不同的定義,但這些定義盡管表達(dá)方式不同,其本質(zhì)都是近似的,概括起來主要是從技術(shù)角度和商業(yè)角度給出數(shù)據(jù)挖掘的定義。
從技術(shù)角度看,數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在的和有用的信息和知識的過程。它是一門廣義的交叉學(xué)科,涉及數(shù)據(jù)庫技術(shù)、人工智能、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計學(xué)、模式識別、知識庫系統(tǒng)、知識獲取、信息檢索、高性能計算和數(shù)據(jù)可視化等多學(xué)科領(lǐng)域且本身還在不斷發(fā)展。目前有許多富有挑戰(zhàn)的領(lǐng)域如文本數(shù)據(jù)挖掘、Web信息挖掘、空間數(shù)據(jù)挖掘等。
從商業(yè)角度看,數(shù)據(jù)挖掘是一種深層次的商業(yè)信息分析技術(shù)。它按照企業(yè)既定業(yè)務(wù)目標(biāo),對大量的企業(yè)數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的或驗(yàn)證已知的規(guī)律性并進(jìn)一步將其模型化,從而自動地提取出用以輔助商業(yè)決策的相關(guān)商業(yè)模式。
2.數(shù)據(jù)挖掘方法
數(shù)據(jù)挖掘技術(shù)是數(shù)據(jù)庫技術(shù)、統(tǒng)計技術(shù)和人工智能技術(shù)發(fā)展的產(chǎn)物。從使用的技術(shù)角度,主要的數(shù)據(jù)挖掘方法包括:
2.1決策樹方法:利用樹形結(jié)構(gòu)來表示決策集合,這些決策集合通過對數(shù)據(jù)集的分類產(chǎn)生規(guī)則。國際上最有影響和最早的決策樹方法是ID3方法,后來又發(fā)展了其它的決策樹方法。
2.2規(guī)則歸納方法:通過統(tǒng)計方法歸納,提取有價值的if-then規(guī)則。規(guī)則歸納技術(shù)在數(shù)據(jù)挖掘中被廣泛使用,其中以關(guān)聯(lián)規(guī)則挖掘的研究開展得較為積極和深入。
2.3神經(jīng)網(wǎng)絡(luò)方法:從結(jié)構(gòu)上模擬生物神經(jīng)網(wǎng)絡(luò),以模型和學(xué)習(xí)規(guī)則為基礎(chǔ),建立3種神經(jīng)網(wǎng)絡(luò)模型:前饋式網(wǎng)絡(luò)、反饋式網(wǎng)絡(luò)和自組織網(wǎng)絡(luò)。這種方法通過訓(xùn)練來學(xué)習(xí)的非線性預(yù)測模型,可以完成分類、聚類和特征挖掘等多種數(shù)據(jù)挖掘任務(wù)。
2.4遺傳算法:模擬生物進(jìn)化過程的算法,由繁殖(選擇)、交叉(重組)、變異(突變)三個基本算子組成。為了應(yīng)用遺傳算法,需要將數(shù)據(jù)挖掘任務(wù)表達(dá)為一種搜索問題,從而發(fā)揮遺傳算法的優(yōu)化搜索能力。
2.5粗糙集(RoughSet)方法:Rough集理論是由波蘭數(shù)學(xué)家Pawlak在八十年代初提出的一種處理模糊和不精確性問題的新型數(shù)學(xué)工具。它特別適合于數(shù)據(jù)簡化,數(shù)據(jù)相關(guān)性的發(fā)現(xiàn),發(fā)現(xiàn)數(shù)據(jù)意義,發(fā)現(xiàn)數(shù)據(jù)的相似或差別,發(fā)現(xiàn)數(shù)據(jù)模式和數(shù)據(jù)的近似分類等,近年來已被成功地應(yīng)用在數(shù)據(jù)挖掘和知識發(fā)現(xiàn)研究領(lǐng)域中。
2.6K2最鄰近技術(shù):這種技術(shù)通過K個最相近的歷史記錄的組合來辨別新的記錄。這種技術(shù)可以作為聚類和偏差分析等挖掘任務(wù)。
2.7可視化技術(shù):將信息模式、數(shù)據(jù)的關(guān)聯(lián)或趨勢等以直觀的圖形方式表示,決策者可以通過可視化技術(shù)交互地分析數(shù)據(jù)關(guān)系??梢暬瘮?shù)據(jù)分析技術(shù)拓寬了傳統(tǒng)的圖表功能,使用戶對數(shù)據(jù)的剖析更清楚。
二、數(shù)據(jù)挖掘在金融行業(yè)中的應(yīng)用數(shù)據(jù)挖掘已經(jīng)被廣泛應(yīng)用于銀行和商業(yè)中,有以下的典型應(yīng)用:
1.對目標(biāo)市場(targetedmarketing)客戶的分類與聚類。例如,可以將具有相同儲蓄和貨款償還行為的客戶分為一組。有效的聚類和協(xié)同過濾(collaborativefiltering)方法有助于識別客戶組,以及推動目標(biāo)市場。
2..客戶價值分析。
在客戶價值分析之前一般先使用客戶分類,在實(shí)施分類之后根據(jù)“二八原則”,找出重點(diǎn)客戶,即對給銀行創(chuàng)造了80%價值的20%客戶實(shí)施最優(yōu)質(zhì)的服務(wù)。重點(diǎn)客戶的發(fā)現(xiàn)通常采用一系列數(shù)據(jù)處理、轉(zhuǎn)換過程、AI人工智能等數(shù)據(jù)挖掘技術(shù)來實(shí)現(xiàn)。通過分析客戶對金融產(chǎn)品的應(yīng)用頻率、持續(xù)性等指標(biāo)來判別客戶的忠誠度;通過對交易數(shù)據(jù)的詳細(xì)分析來鑒別哪些是銀行希望保持的客戶;通過挖掘找到流失的客戶的共同特征,就可以在那些具有相似特征的客戶還未流失之前進(jìn)行針對性的彌補(bǔ)。
3.客戶行為分析。
找到重點(diǎn)客戶之后,可對其進(jìn)行客戶行為分析,發(fā)現(xiàn)客戶的行為偏好,為客戶貼身定制特色服務(wù)。客戶行為分析又分為整體行為分析和群體行為分析。整體行為分析用來發(fā)現(xiàn)企業(yè)現(xiàn)有客戶的行為規(guī)律。同時,通過對不同客戶群組之間的交叉挖掘分析,可以發(fā)現(xiàn)客戶群體間的變化規(guī)律,并可通過數(shù)據(jù)倉庫的數(shù)據(jù)清潔與集中過程,將客戶對市場的反饋?zhàn)詣虞斎说綌?shù)據(jù)倉庫中。通過對客戶的理解和客戶行為規(guī)律的發(fā)現(xiàn),企業(yè)可以制定相應(yīng)的市場策略。
4.為多維數(shù)據(jù)分析和數(shù)據(jù)挖掘設(shè)計和構(gòu)造數(shù)據(jù)倉庫。例如,人們可能希望按月、按地區(qū)、按部門、以及按其他因素查看負(fù)債和收入的變化情況,同時希望能提供諸如最大、最小、總和、平均和其他等統(tǒng)計信息。數(shù)據(jù)倉庫、數(shù)據(jù)立方體、多特征和發(fā)現(xiàn)驅(qū)動數(shù)據(jù)立方體,特征和比較分析,以及孤立點(diǎn)分析等,都會在金融數(shù)據(jù)分析和挖掘中發(fā)揮重要作用。
5.貨款償還預(yù)測和客戶信用政策分析。有很多因素會對貨款償還效能和客戶信用等級計算產(chǎn)生不同程度的影響。數(shù)據(jù)挖掘的方法,如特征選擇和屬性相關(guān)性計算,有助于識別重要的因素,別除非相關(guān)因素。例如,與貨款償還風(fēng)險相關(guān)的因素包括貨款率、資款期限、負(fù)債率、償還與收入(payment——to——income)比率、客戶收入水平、受教育程度、居住地區(qū)、信用歷史,等等。而其中償還與收入比率是主導(dǎo)因素,受教育水平和負(fù)債率則不是。銀行可以據(jù)此調(diào)整貨款發(fā)放政策,以便將貨款發(fā)放給那些以前曾被拒絕,但根據(jù)關(guān)鍵因素分析,其基本信息顯示是相對低風(fēng)險的申請。
6.業(yè)務(wù)關(guān)聯(lián)分析。通過關(guān)聯(lián)分析可找出數(shù)據(jù)庫中隱藏的關(guān)聯(lián)網(wǎng),銀行存儲了大量的客戶交易信息,可對客戶的收人水平、消費(fèi)習(xí)慣、購買物種等指標(biāo)進(jìn)行挖掘分析,找出客戶的潛在需求;通過挖掘?qū)蛻粜畔?,銀行可以作為廠商和消費(fèi)者之間的中介,與廠商聯(lián)手,在掌握消費(fèi)者需求的基礎(chǔ)上,發(fā)展中間業(yè)務(wù),更好地為客戶服務(wù)。
7.洗黑錢和其他金融犯罪的偵破。要偵破洗黑錢和其他金融犯罪,重要的一點(diǎn)是要把多個數(shù)據(jù)庫的信息集成起來,然后采用多種數(shù)據(jù)分析工具找出異常模式,如在某段時間內(nèi),通過某一組人發(fā)生大量現(xiàn)金流量等,再運(yùn)用數(shù)據(jù)可視化工具、分類工具、聯(lián)接工具、孤立點(diǎn)分析工具、序列模式分析工具等,發(fā)現(xiàn)可疑線索,做出進(jìn)一步的處理。
數(shù)據(jù)挖掘技術(shù)可以用來發(fā)現(xiàn)數(shù)據(jù)庫中對象演變特征或?qū)ο笞兓厔荩@些信息對于決策或規(guī)劃是有用的,金融
行業(yè)數(shù)據(jù)的挖掘有助于根據(jù)顧客的流量安排工作人員。可以挖掘股票交易數(shù)據(jù),發(fā)現(xiàn)可能幫助你制定投資策略的趨勢數(shù)據(jù)。挖掘給企業(yè)帶來的潛在的投資回報幾乎是無止境的。當(dāng)然,數(shù)據(jù)挖掘中得到的模式必須要在現(xiàn)實(shí)生活中進(jìn)行驗(yàn)證。
參考文獻(xiàn):
丁秋林,力士奇.客戶關(guān)系管理.第1版.北京:清華人學(xué)出版社,2002
中圖分類號:TP391 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會的飛速發(fā)展,計算機(jī)技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。
畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對影響畢業(yè)論文成績管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對學(xué)校畢業(yè)論文教學(xué)管理有用的知識,將這些知識應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個對大量數(shù)據(jù)處理的過程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對象,圍繞面對應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預(yù)測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識的表現(xiàn)形式。為了對未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個屬性值要在決策樹上進(jìn)行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個決策樹的開始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對應(yīng)一個問題,也對應(yīng)著一個節(jié)點(diǎn);在第二階段中對樹進(jìn)行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進(jìn)而保證生成決策樹的有效性和合理性。當(dāng)一個節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進(jìn)行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據(jù)測試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設(shè)S為一個包含s個數(shù)據(jù)樣本的集合,對于類別屬性,可以取m個不同取值,分別對應(yīng)于m個不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當(dāng)前樣本集合所需用的信息熵,設(shè)一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計算的熵為:
然后利用屬性A對當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計算信息增益:
最后,求信息增益率,表達(dá)式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創(chuàng)建根節(jié)點(diǎn)root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點(diǎn)樹root;
4)If Attributes為空Then;
5)返回單結(jié)點(diǎn)樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續(xù)的Then;
9)對測試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結(jié)點(diǎn)的分類錯誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。
3 畢業(yè)論文成績管理系統(tǒng)的設(shè)計和實(shí)現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對學(xué)生的成績數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會對以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問題的重點(diǎn)在于怎樣對學(xué)生的畢業(yè)論文成績進(jìn)行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘?qū)ο螅鞔_挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對大量成績數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關(guān)知識:數(shù)據(jù)是挖掘知識最原始的資料,根據(jù)確定的數(shù)據(jù)分析對象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對學(xué)生進(jìn)行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過程中是對已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對預(yù)處理后的數(shù)據(jù)建立分析模型,對于特定的任務(wù),需要選擇合適的算法來建立一個準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進(jìn)行分類建模來解決相應(yīng)的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計語言來實(shí)現(xiàn)該算法,對凈化和轉(zhuǎn)換過得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價值的分析信息。
6)知識表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評價,生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。
7)知識應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識針對性的開展畢業(yè)設(shè)計的教學(xué)活動,進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對教師的素質(zhì)及能力培養(yǎng),合理的分配每個教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。
在高校教學(xué)數(shù)字化的時代趨勢下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學(xué)工作中的全面而有價值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻(xiàn):
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計算機(jī)工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計算機(jī)應(yīng)用研究,2005(2):150-154.
云計算是并行計算和分布計算以及網(wǎng)格計算的發(fā)展,是一種在海量數(shù)據(jù)大規(guī)模的集合中能動態(tài)處理各種服務(wù)器數(shù)據(jù)資源的一類計算平臺,在電子商務(wù)、商業(yè)金融、科研開發(fā)等領(lǐng)域能得到廣泛的應(yīng)用。它具有大規(guī)模、虛擬化、高效率、通用性、廉價等特點(diǎn),能針對不同的用戶的不同需求,動態(tài)透明地提供其所需的虛擬化計算和資源儲存,并能及時動態(tài)回收當(dāng)前用戶暫不利用的數(shù)據(jù)資源以提供給其他用戶,而其廉價、通用的特點(diǎn),使得一般用戶實(shí)現(xiàn)大規(guī)模的數(shù)據(jù)操作成為可能。目前來說,云計算的平臺已得到良好的發(fā)展,日益成熟,基于云計算的應(yīng)用已經(jīng)可以相當(dāng)方便的部署和操作其數(shù)據(jù)資源。
1.2數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)是現(xiàn)代知識發(fā)現(xiàn)領(lǐng)域的一個重要技術(shù),它是指一個從隨機(jī)的大量而不完整的模糊的實(shí)際數(shù)據(jù)中提取其中某些隱含著的具有潛在價值的實(shí)用知識與信息的過程。其具體技術(shù)有特征化、聚類、關(guān)聯(lián)和預(yù)測分析等等,涉及到的高級技術(shù)領(lǐng)域有統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、模式識別、人工智能等方面。
2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架
網(wǎng)絡(luò)云的發(fā)展給數(shù)據(jù)挖掘提出了新的問題和時代的挑戰(zhàn),同時,也為數(shù)據(jù)挖掘提供了新的計算平臺和發(fā)展機(jī)遇?;谠朴嬎愕臄?shù)據(jù)挖掘系統(tǒng)平臺的發(fā)現(xiàn),解決了傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)出現(xiàn)的時代滯慢、效率較低、功能落后、成本高昂等問題。云計算是一種商業(yè)計算模式,是網(wǎng)格計算與并行計算及分布式計算在一定程度上的商業(yè)實(shí)現(xiàn),其動態(tài)、可伸縮的計算基于云計算的數(shù)據(jù)挖掘平臺架構(gòu)及其關(guān)鍵技術(shù)探討文/張瑤劉輝云計算是一種在互聯(lián)網(wǎng)時代中應(yīng)運(yùn)而生的新興的網(wǎng)絡(luò)技術(shù),具有高效率、高容量、動態(tài)處理的特點(diǎn),在社會的商業(yè)領(lǐng)域和科研領(lǐng)域表現(xiàn)出了其相當(dāng)高的應(yīng)用價值。將云計算應(yīng)用于數(shù)據(jù)挖掘平臺的構(gòu)架之中后,將能在很大程度上為現(xiàn)代社會中越來越海量的數(shù)據(jù)挖掘提供一個高效率的技術(shù)平臺。本文將結(jié)合云計算和數(shù)據(jù)挖掘的基本概念和現(xiàn)代意義,對數(shù)據(jù)挖掘的平臺構(gòu)架和相應(yīng)的關(guān)鍵技術(shù)做出簡要的分析探討。摘要能力使得進(jìn)行高效的海量數(shù)據(jù)挖掘的目標(biāo)不再遙遠(yuǎn)。同時,云計算SaaS功能日益被理解和標(biāo)準(zhǔn)化,使得基于云計算SaaS化的數(shù)據(jù)挖掘有了理論和技術(shù)的指導(dǎo),并具有了企業(yè)化與大眾化的發(fā)展趨勢。
2.1數(shù)據(jù)挖掘平臺構(gòu)架
建立在關(guān)系型數(shù)據(jù)庫之上的傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)構(gòu)架在現(xiàn)時代數(shù)據(jù)急劇膨脹和分析需求漸增的發(fā)展下已經(jīng)難以應(yīng)付社會的數(shù)據(jù)處理問題。而云計算的分布式存儲與計算形式則接受了當(dāng)代的數(shù)據(jù)挖掘難題,促成了適應(yīng)時代的云計算數(shù)據(jù)挖掘平臺構(gòu)架的形成。其包含了面向組件的設(shè)計理念和分層設(shè)計的思想方法。其構(gòu)架自下向上總共分為3層,分別為底層的云計算支撐平臺層、中間的數(shù)據(jù)挖掘能力層和上層的數(shù)據(jù)挖掘云服務(wù)層。
2.2基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架各層意義
云計算支撐平臺層:顧名思義,該平臺層是云計算數(shù)據(jù)挖掘平臺的基礎(chǔ)處理平臺,其主要具有的功能是對分布式文件存儲與數(shù)據(jù)庫提供資源存儲,以及實(shí)行對數(shù)據(jù)的有關(guān)處理和計算功能。數(shù)據(jù)挖掘能力層:該平臺結(jié)構(gòu)層主要是提供挖掘的基礎(chǔ)能力,是數(shù)據(jù)挖掘的核心支撐平臺,并對數(shù)據(jù)挖掘云服務(wù)層提供能力支撐。該平臺層包含了算法數(shù)據(jù)并行處理、調(diào)度引起和服務(wù)管理的框架,該平臺層可以提供系統(tǒng)內(nèi)部的數(shù)據(jù)挖掘處理和推薦算法庫,亦支持第三方的數(shù)據(jù)挖掘算法工具的進(jìn)入。數(shù)據(jù)挖掘云服務(wù)層:數(shù)據(jù)挖掘云服務(wù)層的主要功能是對外提供數(shù)據(jù)挖掘操作的云服務(wù),同時也能提供基于結(jié)構(gòu)化查詢的語言語句訪問,提供相關(guān)的解析引擎,以便于自動調(diào)用云服務(wù)。對外數(shù)據(jù)挖掘云服務(wù)能力封裝的接口形式多樣,包含了基于簡單對象訪問協(xié)議下的Webservice、XML、HTTP以及本地應(yīng)用程序的編程接口等多種形式。另外,在必要的時候,云服務(wù)層的各個業(yè)務(wù)系統(tǒng)可以進(jìn)行數(shù)據(jù)挖掘云服務(wù)的調(diào)用和組裝。
3基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的關(guān)鍵技術(shù)探討
基于云計算的數(shù)據(jù)挖掘平臺構(gòu)架的形成,離不開現(xiàn)代先進(jìn)的科技技術(shù),其中幾項(xiàng)關(guān)鍵的技術(shù)應(yīng)用將在這里進(jìn)行簡要的闡述:
3.1云計算技術(shù)
3.1.1分布式儲存技術(shù)
通過采用分布式存儲的方式來存儲數(shù)據(jù),是云計算技術(shù)保證數(shù)據(jù)處理高可靠性和經(jīng)濟(jì)性的重要保證。用可靠的軟件來彌補(bǔ)硬件的不足,是分布式存儲技術(shù)提供廉價而又海量的數(shù)據(jù)挖掘支持的重要途徑。
3.1.2虛擬化技術(shù)
在云計算的環(huán)境下,數(shù)據(jù)挖掘能實(shí)現(xiàn)對大量的可用的虛擬化技術(shù)的應(yīng)用、整合,發(fā)展出一套全面虛擬化的運(yùn)行戰(zhàn)略。云計算和虛擬化的共同組合,使數(shù)據(jù)挖掘?qū)崿F(xiàn)了跨系統(tǒng)下的資源調(diào)度,將海量的來源數(shù)據(jù)進(jìn)行IT資源匯合,動態(tài)地實(shí)現(xiàn)對用戶的虛擬化資源的供給,從而以高效率、海量動態(tài)的特點(diǎn)完成服務(wù)任務(wù)。
3.1.3并行云計算技術(shù)
并行云計算技術(shù)是一種對于高效執(zhí)行數(shù)據(jù)挖掘計算任務(wù)極其重要的技術(shù),并且它對云計算的某些技術(shù)細(xì)節(jié)做出了封裝,例如任務(wù)并行、任務(wù)調(diào)度、任務(wù)容錯和系統(tǒng)容錯以及數(shù)據(jù)分布等。該功能代替了用戶對這些細(xì)節(jié)的考慮,使得研發(fā)效率得到了提高。
3.2數(shù)據(jù)匯集調(diào)度中心
數(shù)據(jù)匯集調(diào)度中心的功能主要是完成對不同類型的數(shù)據(jù)進(jìn)行匯集。它實(shí)現(xiàn)了對接入該云計算數(shù)據(jù)挖掘平臺的業(yè)務(wù)數(shù)據(jù)收集匯合,能夠解決與不同數(shù)據(jù)的相關(guān)規(guī)約問題,并能支持多樣的源數(shù)據(jù)格式。
3.3服務(wù)調(diào)度與管理技術(shù)
對于基于云計算的數(shù)據(jù)挖掘平臺,為了使不同業(yè)務(wù)系統(tǒng)能夠使用本計算平臺,必須要提供相應(yīng)的服務(wù)調(diào)度與管理功能。服務(wù)調(diào)度解決云服務(wù)下的并行互斥以及隔離等問題,以保證安全、可靠的平臺的云服務(wù)。服務(wù)管理功能要實(shí)現(xiàn)統(tǒng)一的服務(wù)注冊與服務(wù)暴露功能,并且支持接入第三方的數(shù)據(jù)挖掘,以更好地擴(kuò)展平臺的服務(wù)能力。
(2)計算機(jī)網(wǎng)絡(luò)病毒傳播形式的多樣性。計算機(jī)網(wǎng)絡(luò)和網(wǎng)絡(luò)病毒相互之間存在著很緊密的聯(lián)系,網(wǎng)絡(luò)電子郵件、網(wǎng)絡(luò)系統(tǒng)漏洞以及不良網(wǎng)頁都是網(wǎng)絡(luò)病毒進(jìn)行傳播的重要途徑,進(jìn)而對計算機(jī)網(wǎng)絡(luò)系統(tǒng)造成蓄意破壞。計算機(jī)網(wǎng)絡(luò)系統(tǒng)的傳播形式有很多種,網(wǎng)絡(luò)病毒在網(wǎng)絡(luò)系統(tǒng)漏洞中的傳播就是常見的一種病毒傳播方式,計算機(jī)網(wǎng)絡(luò)病毒程序通過對Internet遠(yuǎn)程主機(jī)系統(tǒng)的搜索和掃描,利用系統(tǒng)漏洞到達(dá)控制對方計算機(jī)的控制。同時也有一種病毒通過對文件夾的搜索掃描,進(jìn)行病毒復(fù)制,以到達(dá)入侵網(wǎng)絡(luò)系統(tǒng)的目的。
(3)計算機(jī)網(wǎng)絡(luò)病毒的針對性。在計算機(jī)網(wǎng)絡(luò)技術(shù)發(fā)展初期,計算機(jī)網(wǎng)絡(luò)病毒主要目標(biāo)就是干擾網(wǎng)絡(luò)技術(shù)人員的程序編寫,隨著計算機(jī)技術(shù)的快速發(fā)展,計算機(jī)網(wǎng)絡(luò)病毒的開發(fā)技術(shù)和功能作用也發(fā)生了很多變化,如今,計算機(jī)網(wǎng)絡(luò)病毒的設(shè)計和開發(fā)已經(jīng)開始商業(yè)化,針對性地對計算機(jī)網(wǎng)絡(luò)系統(tǒng)實(shí)施破壞,如通過盜用網(wǎng)銀賬號和密碼等方式以達(dá)到非法獲取利益的目的。
2數(shù)據(jù)挖掘技術(shù)簡析
數(shù)據(jù)挖掘技術(shù)是通過對所處一定范圍之內(nèi)的所有數(shù)據(jù)進(jìn)行數(shù)據(jù)收集、數(shù)據(jù)分類以及數(shù)據(jù)歸類,進(jìn)而來判斷是否存在某種潛在的關(guān)系和數(shù)據(jù)規(guī)律,主要環(huán)節(jié)有3個,準(zhǔn)備數(shù)據(jù);尋找數(shù)據(jù)存在的規(guī)律;表現(xiàn)數(shù)據(jù)規(guī)律。數(shù)據(jù)挖掘模式設(shè)置好之后,技術(shù)系統(tǒng)中的挖掘引擎就會以數(shù)據(jù)庫中的要求為依據(jù),對準(zhǔn)備好的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)歸類,找出各個數(shù)據(jù)之間存在的關(guān)系和相應(yīng)的數(shù)據(jù)規(guī)律,以便成為之后數(shù)據(jù)分析的有利依據(jù),數(shù)據(jù)挖掘技術(shù)是比較全面的挖掘技術(shù)和數(shù)據(jù)應(yīng)用技術(shù),工作過程比較繁雜,工作操作步驟較多,其中存在很大部分的準(zhǔn)備環(huán)節(jié)和規(guī)劃工作,數(shù)據(jù)挖掘技術(shù)的重點(diǎn)工作是對數(shù)據(jù)的預(yù)處理階段,對數(shù)據(jù)的預(yù)處理階段是數(shù)據(jù)挖掘技術(shù)的基礎(chǔ),是后期進(jìn)行數(shù)據(jù)分析的必要條件。
3以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的計算機(jī)網(wǎng)絡(luò)病毒防御分析
3.1數(shù)據(jù)挖掘技術(shù)的構(gòu)成分析
數(shù)據(jù)挖掘技術(shù)在計算機(jī)網(wǎng)絡(luò)病毒防御中的應(yīng)用過程比較復(fù)雜,步驟繁多,為了便于日常操作應(yīng)用,掌握每個環(huán)節(jié)的基本特征,可以對預(yù)處理模塊、決策模塊、數(shù)據(jù)收集模塊、數(shù)據(jù)挖掘模塊以及規(guī)則庫模塊進(jìn)行分模塊分析研究。
(1)數(shù)據(jù)預(yù)處理模塊分析。簡化數(shù)據(jù)挖掘技術(shù)中數(shù)據(jù)挖掘和數(shù)據(jù)分析之間的處理操作可以通過數(shù)據(jù)預(yù)處理模塊來實(shí)現(xiàn),利用數(shù)據(jù)預(yù)處理模塊可以整體上提高數(shù)據(jù)挖掘效果,提高數(shù)據(jù)辨識度和準(zhǔn)確度。在完成數(shù)據(jù)收集后需要把數(shù)據(jù)導(dǎo)入到預(yù)處理模塊,實(shí)現(xiàn)數(shù)據(jù)的分析歸類和數(shù)據(jù)變換,通過這樣額方式把數(shù)據(jù)轉(zhuǎn)換成可以被系統(tǒng)識別和處理的數(shù)據(jù)內(nèi)容。以目標(biāo)IP地址、源IP地址、端口信息等這些據(jù)數(shù)據(jù)包當(dāng)中所包括的信息內(nèi)容為依據(jù),實(shí)施數(shù)據(jù)集合、數(shù)據(jù)歸納、數(shù)據(jù)處理等流程。
(2)決策模塊分析。在數(shù)據(jù)挖掘技術(shù)中的決策功能模塊中,通過對數(shù)據(jù)的挖掘從而對數(shù)據(jù)庫進(jìn)行構(gòu)建,然后對數(shù)據(jù)進(jìn)行匹配,同時數(shù)據(jù)庫還要和規(guī)則庫密切聯(lián)系起來。如果數(shù)據(jù)庫有與規(guī)則庫存在高度聯(lián)系的信息出現(xiàn),證明在決策模塊里有病毒特征存在,很可能會感染到計算機(jī)病毒。如果是結(jié)果數(shù)據(jù)庫的數(shù)據(jù)信息和規(guī)則庫的數(shù)據(jù)不能相互匹配,那也就是說該數(shù)據(jù)包中存在有帶有新型特征病的毒帶,也就是出現(xiàn)了新型的規(guī)則類,這樣的情況下就需要把該帶有新型特征的病毒導(dǎo)入到系統(tǒng)的規(guī)則庫當(dāng)中,規(guī)則庫的一種較新型的規(guī)則類別也就形成了。
(3)數(shù)據(jù)收集模塊分析。實(shí)現(xiàn)數(shù)據(jù)挖掘的基本要求是提供充分的數(shù)據(jù)信息,只有通過數(shù)據(jù)收集才能實(shí)現(xiàn)數(shù)據(jù)收集模塊的功能。數(shù)據(jù)收集模塊通過對計算機(jī)網(wǎng)絡(luò)中數(shù)據(jù)包的抓取和收集來實(shí)現(xiàn)數(shù)據(jù)信息,數(shù)據(jù)信息被收集后就會具有一定的數(shù)據(jù)結(jié)構(gòu)和比較重要的功能信息。
(4)數(shù)據(jù)挖掘模塊分析。數(shù)據(jù)挖掘技術(shù)的一個最關(guān)鍵部分就是數(shù)據(jù)挖掘模塊。數(shù)據(jù)挖掘模塊中的事件庫和數(shù)據(jù)挖掘算法是數(shù)據(jù)挖掘模塊的關(guān)鍵部分。數(shù)據(jù)挖掘?qū)ο嚓P(guān)數(shù)據(jù)的收集構(gòu)成了事件庫,通過對事件庫中數(shù)據(jù)的分類和數(shù)據(jù)整理,進(jìn)而可以獲取較為準(zhǔn)確的數(shù)據(jù)結(jié)構(gòu)。
(5)規(guī)則庫模塊分析。規(guī)則庫模塊是數(shù)據(jù)挖掘技術(shù)的一個重要組成部分,可以幫助優(yōu)化數(shù)據(jù)挖掘信息庫,給系統(tǒng)提供需要的病毒分析數(shù)據(jù)。如果有網(wǎng)絡(luò)病毒在計算機(jī)系統(tǒng)中出現(xiàn),規(guī)則庫模塊就可以進(jìn)行數(shù)據(jù)分析和數(shù)據(jù)識別,以及實(shí)現(xiàn)數(shù)據(jù)挖掘。在數(shù)據(jù)挖掘的過程中,網(wǎng)絡(luò)病毒屬性會被挖掘過程中獲取的規(guī)則集調(diào)整和改變,并且把這個記錄繼續(xù)使用在數(shù)據(jù)挖掘中,這項(xiàng)記錄可以幫助計算機(jī)系統(tǒng)對一些潛在的網(wǎng)絡(luò)病毒進(jìn)行分析,進(jìn)而起到防御病毒的作用。
3.2以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ)的網(wǎng)絡(luò)病毒防御系統(tǒng)
(1)數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則分析。數(shù)據(jù)挖掘技術(shù)的關(guān)聯(lián)規(guī)則就是指在同一類別的數(shù)據(jù)中有可以被發(fā)現(xiàn)的知識存在,通過對兩個或者超過兩個的變量進(jìn)行取值,如果發(fā)現(xiàn)數(shù)據(jù)具有一定規(guī)律的話說明這些數(shù)據(jù)和數(shù)據(jù)之間存在著某種關(guān)聯(lián)性。因果關(guān)聯(lián)、及時序關(guān)聯(lián)以及簡單關(guān)聯(lián)是存在數(shù)據(jù)挖掘技術(shù)中的幾種主要關(guān)聯(lián)關(guān)系。要找到數(shù)據(jù)庫中的關(guān)聯(lián)網(wǎng),就需要進(jìn)行關(guān)聯(lián)分析,然后結(jié)合數(shù)據(jù)和數(shù)據(jù)之間的關(guān)聯(lián)性進(jìn)行數(shù)據(jù)挖掘,進(jìn)而得到數(shù)據(jù)和數(shù)據(jù)存在的關(guān)聯(lián)規(guī)則。
2基于大數(shù)據(jù)的計算機(jī)數(shù)據(jù)挖掘技術(shù)概述
基于大數(shù)據(jù)的計算機(jī)數(shù)據(jù)挖掘技術(shù)是當(dāng)代新開發(fā)的一種數(shù)據(jù)處理技術(shù),它可以從大數(shù)據(jù)中挑選出人們需要的數(shù)據(jù)。計算機(jī)數(shù)據(jù)挖掘是一個循環(huán)往復(fù)的過程,如果沒有取得預(yù)期的效果,計算機(jī)數(shù)據(jù)挖掘信息處理系統(tǒng)就會返回上一層重新工作,直到完成目標(biāo)任務(wù)為止,這種對目標(biāo)的細(xì)化過程可以滿足檔案數(shù)據(jù)檢索的需要。
3基于大數(shù)據(jù)的計算機(jī)挖掘技術(shù)在檔案管理系統(tǒng)中的作用
3.1提高檔案信息的安全性。無論是文字檔案、圖片檔案還是其他形式的檔案,都是一種寶貴的資料。越是意義重大的檔案,檔案管理人員就越要想方設(shè)法將其保存起來。檔案的價值隨著其保存時間的不斷推移而增加,價值越高的檔案,被使用的頻率就越高,但是如果使用過于頻繁的話,就會縮短檔案資料的壽命,加大保存難度。除此之外,有的檔案信息是保密的,在應(yīng)用時如果監(jiān)管不力就會導(dǎo)致機(jī)密泄露。由以上可見,檔案的保存與使用儼然已互為對立面了。將計算機(jī)挖掘技術(shù)應(yīng)用到檔案管理中則對檔案資料的完整性毫無影響,并且還可以提高檔案信息的安全性。3.2提高檔案信息管理的效率。在檔案管理工作中應(yīng)用計算機(jī)數(shù)據(jù)挖掘技術(shù),可以極大改變傳統(tǒng)檔案管理模式低效率的弊端。使用計算機(jī)數(shù)據(jù)挖掘技術(shù),大大提高了工作人員處理檔案信息的速度,同樣的工作使用的時間極大減少。鑒定檔案是檔案管理工作中的重要組成部分,傳統(tǒng)的鑒定方式是由管理人員根據(jù)自己的經(jīng)驗(yàn)進(jìn)行主觀鑒定,有時會存在有價值的檔案丟失的現(xiàn)象。應(yīng)用計算機(jī)數(shù)據(jù)挖掘技術(shù),檔案管理人員就可以利用計算機(jī)系統(tǒng)分析檔案使用和保存的情況,促進(jìn)了檔案鑒定工作的發(fā)展。3.3提高了檔案信息的使用效率。大部分檔案信息具有一定的機(jī)密性,所以檔案的借閱并不是向全社會公開的,而是有范圍限制的,但是由于檔案管理人員和借閱者對檔案信息不熟悉,導(dǎo)致雙方的溝通存在一定的問題,在借閱者提出申請之后,檔案管理人員會將檔案資料調(diào)出來,有時調(diào)出來的資料不是借閱者所需要的,還得重新調(diào)閱,類似的過程就嚴(yán)重浪費(fèi)了雙方的時間。應(yīng)用計算機(jī)數(shù)據(jù)挖掘技術(shù)可以促進(jìn)檔案管理人員和借閱者之間的交流,讓檔案管理者明確借閱者需要的具體檔案信息,從而形成專門的檔案提供渠道,這就大大提高了檔案信息的使用效率。3.4增強(qiáng)檔案信息的服務(wù)性。加密檔案信息會嚴(yán)重縮小它的適用范圍,受當(dāng)代信息化的影響,很多檔案信息自身會出現(xiàn)一些問題,并且只能為一小部分人服務(wù)。將計算機(jī)數(shù)據(jù)挖掘技術(shù)應(yīng)用到檔案信息管理中,可以具體分析檔案的使用情況,通過研究發(fā)現(xiàn)未來使用檔案信息的人群,在此基礎(chǔ)上提高檔案信息的服務(wù)性。
4基于大數(shù)據(jù)的計算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案管理中的實(shí)際應(yīng)用
4.1在檔案分類管理中的應(yīng)用。檔案管理的基礎(chǔ)工作就是將檔案進(jìn)行分類。傳統(tǒng)的分類方法既費(fèi)時又費(fèi)力,工作效率極低。計算機(jī)數(shù)據(jù)挖掘技術(shù)中有一種決策樹算法,它可以在最短的時間內(nèi)按照一定的規(guī)則將不同屬性的檔案信息進(jìn)行分類和整理,大大提高了檔案分類工作的效率。計算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案分類工作中的具體流程是:從大量不同種類的數(shù)據(jù)集中選擇一些數(shù)據(jù)組合成訓(xùn)練集,然后應(yīng)用到?jīng)]有進(jìn)行分類的檔案管理中,這樣可以幫助管理者根據(jù)借閱者對檔案信息的需求來對檔案進(jìn)行分類,同時還可以根據(jù)借閱者的需求為其推薦其他檔案信息。通過這些針對性強(qiáng)的數(shù)據(jù)分析,可以極大縮短借閱者獲取檔案信息的時間,檔案數(shù)據(jù)的利用價值就能充分發(fā)揮出來。4.2在檔案收集管理中的應(yīng)用。計算機(jī)數(shù)據(jù)挖掘技術(shù)可以根據(jù)數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)信息描述來構(gòu)建一個相應(yīng)的數(shù)據(jù)模型,然后比較計算機(jī)數(shù)據(jù)樣本和數(shù)據(jù)模型之間的差異,如果這二者互相吻合,就需要檔案管理人員使用測試樣本模型來對檔案信息進(jìn)行分類處理。計算機(jī)數(shù)據(jù)挖掘技術(shù)需要全面分析檔案數(shù)據(jù)信息庫中的數(shù)據(jù),建立一個對已知數(shù)據(jù)有詳細(xì)描述的概念模型,并與測試樣本進(jìn)行對比,如果一個模型測試通過,就證明這個模型可以應(yīng)用在檔案收集管理中。
5結(jié)語
綜上所述,在科技技術(shù)不斷進(jìn)步的時代背景下,在檔案信息管理中應(yīng)用基于大數(shù)據(jù)的計算機(jī)數(shù)據(jù)挖掘技術(shù)已成為一種必然趨勢,它可以極大提高檔案信息管理的工作效率,促進(jìn)檔案管理的高效發(fā)展。除了在檔案信息存儲和利用上確保基本的信息查詢服務(wù)外,還需要應(yīng)用計算機(jī)數(shù)據(jù)挖掘技術(shù)整合檔案信息,建立眾多檔案管理服務(wù)數(shù)據(jù)之間的關(guān)聯(lián),這樣才能為檔案信息管理提供更好的服務(wù)。
作者:陳皓穎 單位:昆明理工大學(xué)津橋?qū)W院
參考文獻(xiàn)
[1]高燕飛,陳俊杰.試析計算機(jī)數(shù)據(jù)挖掘技術(shù)在檔案信息管理系統(tǒng)中的運(yùn)用[J].內(nèi)蒙古師范大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2012(4):44-46.
[2]曾雪峰.計算機(jī)數(shù)據(jù)挖掘技術(shù)開發(fā)及其在檔案信息管理中的運(yùn)用研究[J].科技創(chuàng)新與應(yīng)用,2016(9):285.
[3]李國強(qiáng),曹巧蓮,辛正宇,等.淺談數(shù)據(jù)處理的新技術(shù)———數(shù)據(jù)挖掘[J].科技創(chuàng)新與生產(chǎn)力,2010(6).
2、國內(nèi)外文獻(xiàn)綜述
挑選中國知網(wǎng)數(shù)據(jù)庫,以“知識管理”為主題關(guān)鍵詞進(jìn)行精確檢索,共找到 31,324 篇文獻(xiàn),其中 2004 年至2014 年間共發(fā)表文獻(xiàn) 24,895 篇,近十年是知識管理領(lǐng)域研究的高峰期。以“高校知識管理”或“大學(xué)知識管理”為主題關(guān)鍵字進(jìn)行精確檢索,得到 248 篇相關(guān)文獻(xiàn),可發(fā)現(xiàn)針對高校的知識管理研究較少。針對結(jié)果進(jìn)行二次檢索,增加主題關(guān)鍵詞“數(shù)據(jù)挖掘”得到相關(guān)文獻(xiàn) 3 篇,表明對高校知識管理與數(shù)據(jù)挖掘技術(shù)結(jié)合的研究較少,所得文獻(xiàn)主要觀點(diǎn)包括:1.數(shù)據(jù)挖掘技術(shù)可用于高校知識發(fā)現(xiàn);2.數(shù)據(jù)挖掘?qū)χR管理體系建設(shè)有推動作用;3. 高校知識管理成果可通過數(shù)據(jù)挖掘技術(shù)進(jìn)行評價。對國外學(xué)者的研究情況進(jìn)行分析,挑選 Web ofScience 數(shù)據(jù)庫。以“knowledge management”為主題關(guān)鍵字進(jìn)行檢索,共得到 62,474 篇文獻(xiàn),以“knowledgemanagement of college”為主題關(guān)鍵字檢索,得到 647篇文獻(xiàn),再結(jié)合關(guān)鍵詞“Data mining”,共得到文獻(xiàn) 5 篇。由此可見,國外相關(guān)研究比國內(nèi)多出近一倍,并且研究的程度深、范圍廣。但關(guān)于高校知識管理與具體信息技術(shù)結(jié)合應(yīng)用的文獻(xiàn)仍較少,且發(fā)表日期多為 2010 年后。
3、知識管理與數(shù)據(jù)挖掘結(jié)合的軟件要求
知識管理與數(shù)據(jù)挖掘技術(shù)的結(jié)合運(yùn)用對高校相關(guān)設(shè)備提出了一定的要求,包括對服務(wù)器、客戶端計算機(jī)的硬件要求以及對知識管理平臺、數(shù)據(jù)挖掘工具的軟件要求,本文中將重點(diǎn)敘述軟件要求。
知識管理平臺要求
知識管理平臺是高校知識管理的實(shí)施基礎(chǔ),它為高校人員提供了可視化的操作界面,其應(yīng)實(shí)現(xiàn)的基本功能包括:1.數(shù)據(jù)接口;2.工具接口;3.數(shù)據(jù)挖掘(內(nèi)置或外接);4.知識倉庫;5.知識索引、推薦;6.信息檢索;7.組織內(nèi)交流;8. 管理評價。一個知識管理平臺應(yīng)分為:表現(xiàn)層、服務(wù)層、處理層、存儲層。表現(xiàn)層是面向用戶的可視化界面,用于人機(jī)交互,接受用戶的任務(wù);服務(wù)層對任務(wù)進(jìn)行調(diào)度、處理,直接執(zhí)行無需數(shù)據(jù)挖掘的任務(wù)并反饋至表現(xiàn)層,調(diào)度需要數(shù)據(jù)挖掘的任務(wù)至處理層;處理層負(fù)責(zé)數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識發(fā)現(xiàn)等功能;存儲層包括校方數(shù)據(jù)庫及知識倉庫。具體層次如圖 1 所示。根據(jù)高校組織的特征,知識管理平臺應(yīng)在實(shí)現(xiàn)基本功能的前提下具有以下特點(diǎn):1. 接口質(zhì)量高。高校集行政、科研、社會服務(wù)等任務(wù)于一體,需要處理海量數(shù)據(jù),應(yīng)提供接口以使用專業(yè)處理工具處理復(fù)雜任務(wù),保證數(shù)據(jù)處理的效率與深度;2. 內(nèi)置數(shù)據(jù)挖掘功能。高校所含數(shù)據(jù)種類多、范圍廣,對結(jié)構(gòu)簡單、數(shù)據(jù)量小的數(shù)據(jù)可直接使用內(nèi)置數(shù)據(jù)挖掘功能處理,節(jié)省時間;3. 交流功能強(qiáng)。高校為知識密集型組織,其學(xué)科、職能間存在交叉,優(yōu)秀的交流功能保證了知識的共享及創(chuàng)新。4. 完善的激勵體系。激勵體系不僅體現(xiàn)在平臺的評價功能中,更體現(xiàn)在管理人員的管理中,通過提高人員的積極性促進(jìn)知識管理進(jìn)程的實(shí)施。
數(shù)據(jù)挖掘工具要求
高校所含知識從相關(guān)對象分類可分為兩類:1. 管理知識,指高校各部門(教學(xué)、后勤部門等)用于高校管理的知識;2. 科研知識,指各學(xué)科的專業(yè)知識。前者主要與高校行政、管理人員相關(guān),后者則與高校學(xué)者、教授關(guān)系更大。針對不同的用戶,知識管理與數(shù)據(jù)挖掘的結(jié)合運(yùn)用對數(shù)據(jù)挖掘軟件提出了不同的要求。高校行政、管理人員所面對的數(shù)據(jù)多來自高校各類信息系統(tǒng)的記錄,如:校園卡消費(fèi)信息、機(jī)房上機(jī)信息,具有量大、范圍廣、結(jié)構(gòu)一致等特點(diǎn)。用于該類數(shù)據(jù)挖掘的挖掘工具可內(nèi)置于知識管理平臺中,便于數(shù)據(jù)存取,提高挖掘速度。常用功能為預(yù)測、分類、評價三項(xiàng),主要方法可選用回歸分析、趨勢外推、特征分類、層次分析、模糊綜合評價法等。結(jié)合使用者特點(diǎn),該類挖掘工具應(yīng)提供獨(dú)立的、具有既定模式的工作界面,減少用戶與算法的接觸,挖掘結(jié)果應(yīng)具有較強(qiáng)可視性,提供圖、表界面,以便用戶理解。高??蒲兄R主要來自于學(xué)者、教授的科學(xué)研究,包括:實(shí)驗(yàn)數(shù)據(jù)、主觀推測描述等,具有專業(yè)性強(qiáng)、層次深、結(jié)構(gòu)復(fù)雜等特點(diǎn)。針對挖掘要求較低的數(shù)據(jù),可使用知識管理平臺中的內(nèi)置挖掘工具,而針對挖掘要求高的數(shù)據(jù),可選用專業(yè)數(shù)據(jù)挖掘軟件,如:Intelligent Miner、QUEST 等,通過知識管理平臺的接口進(jìn)行對接。
4、知識管理與數(shù)據(jù)挖掘結(jié)合的具體策略
知識管理的基本職能可概括為外化、內(nèi)化、中介、認(rèn)知四大部分,其中前三項(xiàng)職能對信息技術(shù)的依賴較強(qiáng),可用數(shù)據(jù)挖掘技術(shù)進(jìn)行輔助。數(shù)據(jù)挖掘的過程分為條件匹配、選擇、激活、應(yīng)用四部分,即對數(shù)據(jù)進(jìn)行預(yù)處理后,選擇相關(guān)數(shù)據(jù)記錄,根據(jù)用戶要求選擇相應(yīng)技術(shù)進(jìn)行數(shù)據(jù)挖掘,得出并解釋數(shù)據(jù)挖掘結(jié)果,最終將這些記錄應(yīng)用于實(shí)踐中。兩者的具體結(jié)合策略如下:
輔助知識管理體系建設(shè)
知識管理本質(zhì)是一個周期性管理過程,在這一過程中實(shí)現(xiàn)組織知識共享、創(chuàng)新等,最終提升組織綜合實(shí)力,其中知識管理體系建設(shè)是實(shí)現(xiàn)知識管理的宏觀條件。知識管理體系建設(shè)是一個系統(tǒng)、全面的工程,包括組織結(jié)構(gòu)調(diào)整、確定激勵制度、知識管理文化培養(yǎng)、成效評估等任務(wù)。數(shù)據(jù)挖掘技術(shù),可以為知識管理體系建設(shè)提供依據(jù),保證相關(guān)決策的科學(xué)性。數(shù)據(jù)挖掘?qū)χR管理體系建設(shè)的幫助主要體現(xiàn)在以知識主管為主的知識管理部門對高校的管理、決策當(dāng)中。知識管理部門收集并預(yù)處理外校、本校知識管理體系建設(shè)的相關(guān)數(shù)據(jù),完成輔助決策的數(shù)據(jù)倉庫的建設(shè)。管理人員可根據(jù)要求,從數(shù)據(jù)倉庫中選擇數(shù)據(jù),利用對應(yīng)模型完成挖掘,通過挖掘結(jié)果對決策做出幫助。以制定激勵制度為例,管理人員選擇與高校人員喜好相關(guān)的數(shù)據(jù),如至少包含“部門”、“喜好”、“性別”字段,利用關(guān)聯(lián)算法對其進(jìn)行計算,即可得出各部門工作人員的喜好,以此為據(jù)制定相應(yīng)激勵制度。
知識外化
知識外化是指組織從組織外部獲取與本組織相關(guān)的知識、發(fā)現(xiàn)歸集組織內(nèi)部存在的知識并進(jìn)行存儲以備用的過程。完成知識外化的關(guān)鍵即知識發(fā)現(xiàn),其較為常用的方法包括主觀歸納、隱性知識外顯等。目前學(xué)界中較為認(rèn)可、使用較普遍的方法即數(shù)據(jù)知識發(fā)現(xiàn)(KnowledgeDiscovery in Database, KDD),指從數(shù)據(jù)集中識別出表明一定模式的、有效的、潛在的信息歸納為知識的過程。這是數(shù)據(jù)挖掘與知識管理結(jié)合應(yīng)用的最重要部分。同時,數(shù)據(jù)挖掘技術(shù)只給定挖掘目標(biāo),不給出假設(shè)、前提,因此在使用數(shù)據(jù)挖掘的過程中可獲取一些計劃外的知識,為知識管理提供一個可靠的知識源。此處存在兩個前提:第一,知識發(fā)現(xiàn)不能僅僅依靠信息技術(shù),更需要人員對挖掘結(jié)果進(jìn)行主觀歸納,解釋其語義以完成知識的推理;第二,挖掘?qū)ο笮柽M(jìn)行預(yù)處理,并轉(zhuǎn)化成邏輯數(shù)據(jù)。利用數(shù)據(jù)挖掘技術(shù)進(jìn)行知識發(fā)現(xiàn)有多種可用方法:利用分類和聚類分析可提供知識索引和發(fā)現(xiàn)特殊情況下的離群值和孤立點(diǎn),知識索引可細(xì)化知識所屬領(lǐng)域和確定挖掘范圍,離群值和孤立點(diǎn)可為挖掘人員提供歸納的線索,若其存在一定規(guī)律則可得出模型、規(guī)則;使用模糊技術(shù)、統(tǒng)計方法可得出對高校決策的評測分析,判斷方案的有效性,并得出模式,用于同類決策處理;使用粗糙集和主成份分析法定義知識發(fā)現(xiàn)中的主要特征,結(jié)合已有知識庫對不確定、不精準(zhǔn)的知識進(jìn)行細(xì)化;使用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)大量數(shù)據(jù)集各字段中潛在的聯(lián)系。以關(guān)聯(lián)規(guī)則的使用為例,選擇 Apriori 算法,挖掘目的是發(fā)現(xiàn)學(xué)生學(xué)習(xí)情況中的潛在知識。首先從數(shù)據(jù)倉庫中選出與學(xué)生課程成績相關(guān)的數(shù)據(jù)集,包括姓名、院系、性別、課程號、課程類別、成績等字段,進(jìn)行預(yù)處理,將字段中的取值轉(zhuǎn)化為邏輯值,代表不同語義,如:性別字段,男設(shè)值 1,女設(shè)值 2。操作人員設(shè)置最小支持度、置信度,通過數(shù)據(jù)挖掘工具進(jìn)行挖掘,得出關(guān)聯(lián)規(guī)則并進(jìn)行解釋。若結(jié)果顯示 XX 院系、男生、A 類別 => 成績優(yōu)秀構(gòu)成管理規(guī)則,則表示XX院系的男生對于A類別科目較感興趣,學(xué)習(xí)成績優(yōu)秀,可在歸納后存入知識倉庫。
知識內(nèi)化、中介
知識內(nèi)化是發(fā)現(xiàn)特定人員知識需求,并為其提供相應(yīng)知識的過程,內(nèi)化的關(guān)鍵是對知識的聚類、對人員的興趣挖掘。知識中介是指組織中存在一定量無法編碼儲存的知識,針對這些知識,通過一定手段,將知識的需求者與知識來源進(jìn)行匹配,為兩者提供交流的途徑。數(shù)據(jù)挖掘在知識內(nèi)化、中介中所起的作用主要是對高校人員特征的挖掘。在利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)知識后,通過知識管理平臺進(jìn)行分類存儲、添加索引,作為備選。對高校人員數(shù)據(jù)庫中數(shù)據(jù)進(jìn)行挖掘,可利用聚類分析、預(yù)測模型等,得出特定人員的特長領(lǐng)域、興趣愛好,從而根據(jù)先前設(shè)置的知識索引為其提供信息。若定期對人員特征數(shù)據(jù)進(jìn)行挖掘,并根據(jù)結(jié)果為高校人員推送相關(guān)知識、信息,即可實(shí)現(xiàn)個性化推送,其推送內(nèi)容由人員特征數(shù)據(jù)決定。高校組織中擁有大量教授、學(xué)者,其所擁有的知識是一筆巨大財富,加強(qiáng)相關(guān)領(lǐng)域間人員的交流、溝通,可以促進(jìn)知識共享、創(chuàng)新,提升組織綜合實(shí)力,這正是知識管理中介職能的作用。通過上文中相同的挖掘方法,在對教授、學(xué)者特征進(jìn)行挖掘后,對他們的研究方向進(jìn)行聚類分析,由挖掘結(jié)果,為相關(guān)人員提供合適的建議、利用知識管理平臺為特征相似或同一聚類中的教授、學(xué)者提供交流的途徑,進(jìn)而促進(jìn)知識的共享。
數(shù)據(jù)挖掘技術(shù)推動圖書館管理
圖書館是高校組織中的特殊資源,含有大量精確或模糊、成型或不成型的知識,是一種實(shí)體的知識倉庫。對圖書館的有效管理有助于高校知識管理的實(shí)施。目前,已有不少圖書館專家將數(shù)據(jù)挖掘技術(shù)引入圖書館管理,提出了針對圖書館的數(shù)據(jù)挖掘應(yīng)用理論。圖書館數(shù)據(jù)挖掘?qū)ο笾饕ㄈ齻€:1.圖書信息;2.讀者信息 3. 讀者借閱信息。通過對三者挖掘結(jié)果的綜合,可為圖書館資源建設(shè)、讀者服務(wù)、個性化服務(wù)提供幫助。根據(jù)挖掘結(jié)果分析,可做到客觀、合理引入資源,做到讓數(shù)據(jù)說話而不是讓管理人員說話,減少了管理人員個體的主觀影響,使高校圖書館經(jīng)費(fèi)發(fā)揮最大效用;提升讀者服務(wù)質(zhì)量,在讀者進(jìn)行檢索時減少等待時間,改變以往被動檢索的情況,通過用戶數(shù)據(jù)挖掘?yàn)橛脩籼峁┲鲃拥男畔⑼扑?;提供個性化服務(wù),以挖掘結(jié)果為依據(jù),針對不同用戶提供不同服務(wù),比如不同的圖書館系統(tǒng)管理界面。
充分發(fā)揮管理職能
知識管理是一個系統(tǒng)工程,包含平臺開發(fā)、體系構(gòu)建、文化培養(yǎng)等,其在實(shí)踐中設(shè)計大量的數(shù)據(jù)操作。數(shù)據(jù)挖掘技術(shù)可在知識管理的實(shí)踐過程中為各項(xiàng)信息處理工作提供支撐,從而為操作人員提供便利,間接縮短知識管理的周期時間。將高校知識管理與數(shù)據(jù)挖掘技術(shù)相結(jié)合可有效促進(jìn)知識管理具體操作中的工作效率。兩者的結(jié)合對高校人員管理具有積極作用,數(shù)據(jù)挖掘與知識管理在實(shí)踐中相互影響,提升操作人員素養(yǎng)。數(shù)據(jù)挖掘需要專業(yè)人員進(jìn)行操作,操作人員的綜合素養(yǎng)將決定挖掘成果的質(zhì)量。知識管理可有效促進(jìn)數(shù)據(jù)挖掘人員對知識的認(rèn)知,使操作人員對不同要求所對應(yīng)的挖掘技術(shù)、模型的選擇更為準(zhǔn)確,提升挖掘成果的質(zhì)量,使知識更加清晰、獨(dú)立、可接受。
中圖分類號:G642.0 文獻(xiàn)標(biāo)志碼:A 文章編號:1674-9324(2012)12-0218-02
一、背景
“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”是國內(nèi)外高等院校一門重要的課程,是國家基礎(chǔ)教育較為重視的一門學(xué)科,受到不同專業(yè)學(xué)生的喜愛。其教學(xué)目標(biāo)是提高學(xué)生的數(shù)據(jù)分析水平和能力,除了教授學(xué)生數(shù)據(jù)分析的常見方法之外,還將引導(dǎo)學(xué)生如何對實(shí)際的問題進(jìn)行建模,如何對模型進(jìn)行簡化和求解。利用實(shí)例教學(xué)等方法,可以很好地將數(shù)據(jù)挖掘中的抽象概念、模型、公式等闡述清楚,讓學(xué)生易于理解和接受。近年來,數(shù)據(jù)挖掘技術(shù)在醫(yī)學(xué)領(lǐng)域中的應(yīng)用越來越廣泛。在疾病診斷、治療、器官移植、基因研究、圖像分析、康復(fù)、藥物開發(fā)、科學(xué)研究等方面都獲得了可喜的成果。運(yùn)用各種數(shù)據(jù)挖掘技術(shù)了解各種疾病之間的相互關(guān)系、各種疾病的發(fā)展規(guī)律,總結(jié)各種治療方案的治療效果,以及對疾病的診斷、治療和醫(yī)學(xué)研究都是非常有價值的。因此,我們學(xué)院也把這門課程作為計算機(jī)專業(yè)及信息管理與信息系統(tǒng)專業(yè)的必修課。把計算機(jī)與醫(yī)學(xué)結(jié)合,使得學(xué)生的培養(yǎng)方案全面包括了計算機(jī)與醫(yī)學(xué)的知識點(diǎn)。由于該課程原本屬于研究生階段開設(shè)的專業(yè)課程,教材也大多側(cè)重于介紹體系結(jié)構(gòu)、算法原理、效率分析與改進(jìn)等理論知識,其中所涉及的內(nèi)容大多比較深,許多知識都超出了本科生的接受范圍,此外,教材對相關(guān)理論在實(shí)際應(yīng)用方面的說明也比較少,不利于安排實(shí)驗(yàn)教學(xué)。因此要實(shí)現(xiàn)“數(shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程的教學(xué)目標(biāo),必須在理論教學(xué)和實(shí)驗(yàn)教學(xué)環(huán)節(jié)綜合考慮學(xué)時多少、教學(xué)條件以及學(xué)生的接受情況等因素,靈活地加以選擇安排。
二、存在的問題
主要包括以下幾方面:①課堂上以教師講、學(xué)生聽的教學(xué)形式為主,學(xué)生學(xué)習(xí)處于被動狀態(tài),他們的創(chuàng)造性因此被嚴(yán)重扼殺;②教師對專業(yè)課程體系和學(xué)生的知識體系不夠重視,對課程體系的講解不到位,造成學(xué)生在學(xué)習(xí)時課程之間聯(lián)系不上,知識銜接不好,對知識的運(yùn)用和融會貫通比較差;③實(shí)驗(yàn)與理論脫節(jié)?!皵?shù)據(jù)倉庫與數(shù)據(jù)挖掘”課程理論講授的算法與實(shí)驗(yàn)軟件中的算法有很大差距,使得學(xué)生難以理解。比如對于理論上講授的關(guān)聯(lián)規(guī)則算法,實(shí)驗(yàn)中使用SQL SERVER 2005中的商務(wù)智能工具做實(shí)驗(yàn),學(xué)生發(fā)現(xiàn)有很多參數(shù)與理論上講授的有很大不同;④醫(yī)學(xué)院校的學(xué)生對純粹計算機(jī)理論知識接受困難。由于該門課程是交叉學(xué)科,涉及計算機(jī)、數(shù)學(xué)、統(tǒng)計學(xué)等知識,如果學(xué)生的其他學(xué)科學(xué)得不好,就會對該課程的學(xué)習(xí)產(chǎn)生障礙;⑤教師講授沒有把理論課程結(jié)合到實(shí)際應(yīng)用中。有很多學(xué)生不知道學(xué)習(xí)這門課的意義,老師沒有很好引導(dǎo)學(xué)生,激活他們的學(xué)習(xí)熱情。
三、目標(biāo)驅(qū)動的教學(xué)框架
對于以上問題,本文提出了一個新的教學(xué)體系,設(shè)計了一套基于目標(biāo)驅(qū)動的教學(xué)框架,把教師與學(xué)生緊密聯(lián)系起來,從教學(xué)大綱的設(shè)置,教材的選擇,理論教學(xué),實(shí)驗(yàn)教學(xué),課程設(shè)計及畢業(yè)論文,全面引導(dǎo)學(xué)生從初步了解到深入學(xué)習(xí)的過程。對于我們學(xué)校的實(shí)際情況,有兩個專業(yè)的學(xué)生要學(xué)習(xí)這門課程。一個是計算機(jī)科學(xué)與技術(shù)專業(yè),一個是信息管理與信息系統(tǒng)專業(yè)。對于兩個不同的專業(yè),我們設(shè)置不同的教學(xué)大綱。比如對于計算機(jī)專業(yè)的學(xué)生,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘教學(xué)總時數(shù)為72學(xué)時,其中理論為54學(xué)時,實(shí)驗(yàn)為36學(xué)時。
1.理論教學(xué)。對于信息管理與信息系統(tǒng)專業(yè)的學(xué)生,我們可以設(shè)置如下的教學(xué)計劃,可分為三個主要部分。我們教材選擇韓家煒的《數(shù)據(jù)挖掘概念與技術(shù)》,第一部分:第一至四章為數(shù)據(jù)挖掘的基礎(chǔ)知識,包括數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念和相關(guān)知識介紹;第二部分:第五、六章介紹了數(shù)據(jù)挖掘的算法和工具;第三部分:第七章是數(shù)據(jù)挖掘的聚類分析的實(shí)際應(yīng)用。本課程是信息管理與信息系統(tǒng)專業(yè)本科生專業(yè)必修課。通過該課程的學(xué)習(xí),要求學(xué)生掌握數(shù)據(jù)倉庫和數(shù)據(jù)挖掘的基本概念,了解基本方法和應(yīng)用背景。掌握數(shù)據(jù)倉庫的設(shè)計和建立,掌握數(shù)據(jù)挖掘的主要步驟和實(shí)現(xiàn)方法,數(shù)據(jù)挖掘的常用算法,實(shí)現(xiàn)數(shù)據(jù)挖掘的具體操作。理論學(xué)時的安排,第一章緒論(6學(xué)時);第二章數(shù)據(jù)倉庫(4學(xué)時);第三章數(shù)據(jù)預(yù)處理(8學(xué)時);第四章數(shù)據(jù)挖掘發(fā)現(xiàn)知識的類型(8學(xué)時);第五章數(shù)據(jù)挖掘中常用算法(12學(xué)時);第六章數(shù)據(jù)挖掘的工具及其應(yīng)用(8學(xué)時);第七章數(shù)據(jù)挖掘應(yīng)用實(shí)例(8學(xué)時)。
2.實(shí)驗(yàn)教學(xué)。本課程配合理論教學(xué),通過系統(tǒng)的實(shí)踐教學(xué)鍛煉,著重培養(yǎng)學(xué)生的獨(dú)立分析問題和解決問題的能力,熟練掌握數(shù)據(jù)倉庫的設(shè)計和建立以及各類數(shù)據(jù)挖掘方法,使學(xué)生具有一定的數(shù)據(jù)分析和挖掘能力,能在認(rèn)識基礎(chǔ)上,提出有效的數(shù)據(jù)挖掘方法,依據(jù)實(shí)際例子,寫出解決方案。學(xué)生應(yīng)在實(shí)驗(yàn)課前明確實(shí)驗(yàn)的目的和要求,然后針對相關(guān)問題寫出解決方案。實(shí)驗(yàn)時對實(shí)際方案的運(yùn)行結(jié)果應(yīng)能進(jìn)行分析并提出改進(jìn)方法,最終寫出實(shí)驗(yàn)報告。通過實(shí)驗(yàn)教學(xué)應(yīng)達(dá)到以下基本要求:①理解數(shù)據(jù)倉庫的工作機(jī)理及其構(gòu)建過程;②掌握典型的數(shù)據(jù)倉庫系統(tǒng)及其開發(fā)工具的使用;③理解數(shù)據(jù)挖掘技術(shù)的工作原理與流程;④掌握典型數(shù)據(jù)挖掘工具的使用;⑤掌握幾種典型的數(shù)據(jù)挖掘算法;⑥掌握使用SQL SERVER 2000和SPSS工具解決實(shí)際問題。實(shí)驗(yàn)成績包括:實(shí)驗(yàn)教學(xué)過程成績、實(shí)驗(yàn)報告成績,各占50%。實(shí)驗(yàn)過程表現(xiàn)成績包括:學(xué)習(xí)態(tài)度是否認(rèn)真、實(shí)驗(yàn)操作是否正確規(guī)范、基本技能掌握程度是否具有創(chuàng)新意識等方面。實(shí)驗(yàn)報告成績包括:實(shí)驗(yàn)報告格式是否正確、原理是否論述清楚、實(shí)驗(yàn)結(jié)果分析討論是否符合邏輯,報告字跡是否清楚等方面。
3.課程設(shè)計。理論課和實(shí)驗(yàn)課接近結(jié)束時,我們把最后三周作為本門課程的課程設(shè)計。課程設(shè)計的目的是讓學(xué)生進(jìn)一步深刻理解所學(xué)知識。由于本門課程很多算法不容易理解,如何讓學(xué)生把所學(xué)知識結(jié)合到醫(yī)學(xué)應(yīng)用中是課程設(shè)計的關(guān)鍵。比如我們對信息管理與信息系統(tǒng)專業(yè)的學(xué)生課程設(shè)計,要求學(xué)生每人選擇一個老師給定的題目,課程設(shè)計有詳細(xì)的要求,比如題目“數(shù)據(jù)挖掘在醫(yī)學(xué)診斷中的應(yīng)用”要求學(xué)生能把本門課程相關(guān)的算法結(jié)合使用,最后給出詳細(xì)的分析。通過課程設(shè)計,我們發(fā)現(xiàn),學(xué)生對本門課程更有興趣。
4.畢業(yè)論文。我們把課程一般開設(shè)在大三的下學(xué)期,也就是說學(xué)生學(xué)完這門課程后,就做了該門課的課程設(shè)計,使得學(xué)生對數(shù)據(jù)挖掘相關(guān)知識有了比較深刻的認(rèn)識。這樣,我們可以引導(dǎo)學(xué)生畢業(yè)論文的選擇。畢業(yè)論文畢竟是反映學(xué)生大學(xué)四年所學(xué)知識,也對他們將來就業(yè)起到提前培訓(xùn)的作用。把理論結(jié)合實(shí)踐,老師對學(xué)生的引導(dǎo)也十分重要。
我們根據(jù)醫(yī)學(xué)院校的特征,提出了一套目標(biāo)驅(qū)動的教學(xué)理念,從學(xué)生認(rèn)識這門課程到學(xué)生理論課的學(xué)習(xí),實(shí)驗(yàn)課的學(xué)習(xí),課程設(shè)計及畢業(yè)論文的完成,在老師的指導(dǎo)下,使用我們的考核體系,可提高學(xué)生對所學(xué)課程的興趣。