99精品在线视频观看,久久久久久久久久久爱,揉胸吃奶动态图,高清日韩一区二区,主人~别揉了~屁股~啊~嗯,亚洲黄色在线观看视频,欧美亚洲视频在线观看,国产黄色在线
0
首頁 精品范文 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘技術(shù)

時間:2022-03-17 23:08:25

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘技術(shù),希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

數(shù)據(jù)挖掘技術(shù)

第1篇

關(guān)鍵詞:數(shù)據(jù)挖掘;神經(jīng)元;方法;應(yīng)用;發(fā)展

中圖分類號:TP311.13 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9599 (2012) 12-0000-02

一、引言

伴隨信息技術(shù)的迅猛發(fā)展,數(shù)據(jù)庫規(guī)模與應(yīng)用的不斷擴(kuò)大,大量數(shù)據(jù)隨之產(chǎn)生。新增的數(shù)據(jù)包含了重要的信息,人們希望更好地利用這些數(shù)據(jù),并通過進(jìn)行更高層次的數(shù)據(jù)分析,為決策者提供更寬廣的視野。

現(xiàn)今,很多領(lǐng)域已建立了相應(yīng)的數(shù)據(jù)倉庫。但人們無法辨別隱藏在海量數(shù)據(jù)中有價信息,傳統(tǒng)的查詢方式無法滿足信息挖掘的需求。因此,伴隨著數(shù)據(jù)倉庫技術(shù)不斷發(fā)展并逐漸完善的一種從海量信息中提取有價潛在信息的嶄新數(shù)據(jù)分析技術(shù)------數(shù)據(jù)挖掘(Data Mining)技術(shù)應(yīng)運(yùn)而生。

二、數(shù)據(jù)挖掘概念

數(shù)據(jù)挖掘技術(shù)從1990年左右開始,發(fā)展速度很快,數(shù)據(jù)挖掘技術(shù)的產(chǎn)生和不斷發(fā)展可使得人們對當(dāng)今世界的海量數(shù)據(jù)中隱藏著人們所需要的商業(yè)和科學(xué)信息等重要信息進(jìn)行挖掘。數(shù)據(jù)挖掘運(yùn)用到交叉學(xué)科,涉及到,包括Database、AI、Machine Learning、人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)、統(tǒng)計學(xué)(statistics)、模式識別(Pattern Recognition)、信息檢索(Information Retrieval)和數(shù)據(jù)庫可視化等,因此數(shù)據(jù)庫目前還沒有明確的定義。通常普遍認(rèn)可的數(shù)據(jù)挖掘定義是:從數(shù)據(jù)庫中抽取隱含的、以前未知的、有潛在應(yīng)用價值的模型或規(guī)則等有用知識的復(fù)雜過程,是一類深層次的數(shù)據(jù)分析方法。

三、數(shù)據(jù)挖掘方法

由于數(shù)據(jù)挖掘技術(shù)研究融合了不同學(xué)科技術(shù),在研究方法上表現(xiàn)為多樣性。從統(tǒng)計學(xué)角度上劃分,數(shù)據(jù)挖掘技術(shù)模型有:線形/非線形分析、回歸/邏輯回歸分析、單/多變量分析、時間序列/最近序列分析和聚類分析等方法。通過運(yùn)用這些技術(shù)可以檢索出異常形式數(shù)據(jù),最后,利用多種統(tǒng)計和數(shù)學(xué)模型對上述數(shù)據(jù)進(jìn)行解釋,發(fā)掘出隱藏在海量數(shù)據(jù)后的規(guī)律和知識。

(一)數(shù)據(jù)挖掘統(tǒng)計

統(tǒng)計學(xué)為數(shù)據(jù)挖掘技術(shù)提供了判別方法與分析方法,經(jīng)常會用到的有貝葉斯推理(Bayesian reasoning; Bayesian inference)、回歸分析(Regression analysis)、方差分析(Analysis of Variance,簡稱ANOVA)等分析技術(shù)、貝葉斯推理是在估計與假設(shè)統(tǒng)計歸納基礎(chǔ)上發(fā)展的全新推理方法。貝葉斯推理在與傳統(tǒng)統(tǒng)計歸納推理方法相比較,所得出的結(jié)論不僅根據(jù)當(dāng)前觀察得到的樣本信息,還將根據(jù)推理者過去相關(guān)的經(jīng)驗和知識來處理數(shù)據(jù)挖掘中遇到的分類問題;回歸分析是通過輸入變量和輸出變量來確定變量之間的因果關(guān)系,通過建立回歸模型,根據(jù)實測數(shù)據(jù)求解模型的各參數(shù),若能很好的擬合,則可根據(jù)自變量進(jìn)一步預(yù)測。統(tǒng)計方法中的方差分析是通過分析研究中估計回歸直線的性能和自變量對最終回歸的貢獻(xiàn)大小,從而確定可控因素對研究結(jié)果影響力的大小。

(二)聚類分析(Cluster analysis )

聚類分析(Cluster analysis)是將一組研究對象分為相對同質(zhì)的群組(clusters)的統(tǒng)計分析技術(shù)。 同組內(nèi)的樣本具有較高相似度,常用技術(shù)有分裂/凝聚算法,劃分/增量聚類。聚類方法適用于研究群組內(nèi)的關(guān)系,并對群組結(jié)構(gòu)做出相應(yīng)評價。同時,聚類分析為了更容易地使某個對象從其他對象中分離出來的方法用于檢測孤立點。聚類分析已被應(yīng)用于經(jīng)濟(jì)分析(Economic analysis)、模式識別(Pattern Recognition)、圖像處理(image processing)等多種領(lǐng)域。

(三)機(jī)器學(xué)習(xí)(Machine Learning)

機(jī)器學(xué)習(xí)方法經(jīng)過多年的研究已相對完善,通過建立人類的認(rèn)識模型、模仿人類的學(xué)習(xí)方法從海量數(shù)據(jù)中提取信息與知識,在很多領(lǐng)域已取得了一些較滿意的成果。因此利用目前比較成熟的機(jī)器學(xué)習(xí)方法可以提供數(shù)據(jù)挖掘效率。

(四)數(shù)據(jù)匯總

數(shù)據(jù)庫中的數(shù)據(jù)和對象經(jīng)常包含原始概念層上的詳細(xì)信息,將數(shù)據(jù)集通過數(shù)據(jù)立方體和面向?qū)ο蟮臍w納方法由低概念層抽象到高概念層,并對數(shù)據(jù)歸納為更高概念層次信息的數(shù)據(jù)挖掘技術(shù)。

(五)人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks)

神經(jīng)網(wǎng)絡(luò)是一種模范動物神經(jīng)網(wǎng)絡(luò)行為特征,進(jìn)行分布式并行信息處理的算法數(shù)學(xué)模型。近年來在解決數(shù)據(jù)挖掘中遇到的問題越來越受到人們的關(guān)注,源于人工神經(jīng)網(wǎng)絡(luò)具有良好的自組織自適應(yīng)性、并行處理、分布式存儲和高容錯等特性,并通過調(diào)整內(nèi)部大量節(jié)點之間相互連接的關(guān)系,達(dá)到處理信息的目的。

(六)遺傳算法(Genetic Algorithm)

遺傳算法(Genetic Algorithm)是模擬達(dá)爾文生物進(jìn)化論的自然選擇和遺傳學(xué)機(jī)理的生物進(jìn)化過程的計算模型,是一種通過模擬自然進(jìn)化過程搜索最優(yōu)解的方法,是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過變異和重組當(dāng)前己知的最好假設(shè)來生成后續(xù)的假設(shè)。遺傳算法可直接對結(jié)構(gòu)對象進(jìn)行操作,不存在求導(dǎo)和函數(shù)連續(xù)性的限定,能自動獲取和指導(dǎo)優(yōu)化的搜索空間,自適應(yīng)地調(diào)整搜索方向。遺傳算法已被人們廣泛地應(yīng)用于多種學(xué)科領(lǐng)域。

(七)粗糙集

粗糙集是一種刻劃不完整性和不確定性的數(shù)學(xué)工具,能有效地分析不精確,不一致(inconsistent)、不完整(incomplete) 等各種不完備的信息,還可以對數(shù)據(jù)進(jìn)行分析和推理,從中發(fā)現(xiàn)隱含的知識,揭示潛在的規(guī)律。粗糙集理論應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

四、數(shù)據(jù)挖掘技術(shù)發(fā)展趨勢

當(dāng)前,數(shù)據(jù)挖掘技術(shù)不斷創(chuàng)新與發(fā)展,數(shù)據(jù)挖掘技術(shù)開發(fā)研究人員、系統(tǒng)應(yīng)用人員所面對的主要問題:高效、有效的數(shù)據(jù)挖掘方法和相應(yīng)系統(tǒng)的開發(fā);交互和集成的數(shù)據(jù)挖掘環(huán)境的建立以及在實際應(yīng)用中解決大型問題。

五、小結(jié)

數(shù)據(jù)挖掘技術(shù)涉及到多種學(xué)科技術(shù),如:數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、高性能計算、模式識別、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)可視化、信息檢索及空間數(shù)據(jù)分析等。因此,數(shù)據(jù)挖掘是非常有前景的研究領(lǐng)域,隨著數(shù)據(jù)挖掘技術(shù)的不斷發(fā)展,它將會廣泛而深入地應(yīng)用到人類社會的各個領(lǐng)域。

參考文獻(xiàn):

[1]羅可,蔡碧野.數(shù)據(jù)挖掘及其發(fā)展研究[J].計算機(jī)工程與應(yīng)用,2002

[2]趙丹群.數(shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2000

[3]劉毅勇.情報分析智能輔助決策方法及其軍事應(yīng)用[M].北京:國防大學(xué)出版社,2001

[4]唐曉萍.數(shù)據(jù)挖掘技術(shù)及其在指揮控制系統(tǒng)中的應(yīng)用[J].火力與指揮控制,2002

[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997

[6]吳修霆.SAS數(shù)據(jù)挖掘技術(shù)的實現(xiàn)[J].微電腦世界,2000, Vol.14:pp44-45

[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125

第2篇

關(guān)鍵詞:數(shù)據(jù)挖掘 技術(shù)研究 前景分析

中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1674-098X(2014)05(c)-0034-01

數(shù)據(jù)挖掘技術(shù)對各個不同應(yīng)用領(lǐng)域中的傳統(tǒng)數(shù)據(jù)進(jìn)行分析研究,提取其中存在的有價值的信息。隨著科技信息的快速發(fā)展,人們對信息分析技術(shù)的要求越來越高,現(xiàn)階段如何從大量的數(shù)據(jù)中挖掘出自己所需的知識日益重要。數(shù)據(jù)挖掘技術(shù)是在傳統(tǒng)數(shù)據(jù)分析系統(tǒng)的基礎(chǔ)上建立起的新數(shù)據(jù)處理技術(shù)。

1 數(shù)據(jù)挖掘技術(shù)分析研究

1.1 數(shù)據(jù)挖掘的背景

當(dāng)今社會信息技術(shù)的廣泛利用提高了生產(chǎn)的能力,在企業(yè)、工程建設(shè)和科學(xué)研究中數(shù)據(jù)挖掘技術(shù)被逐漸利用,數(shù)據(jù)挖掘技術(shù)的優(yōu)點在被逐漸推廣,作為新興的技術(shù)被廣泛使用。在信息時代的激烈競爭中,提高數(shù)據(jù)的利用效率問題顯得日益重要,企業(yè)在激烈的市場競爭中要想結(jié)合數(shù)據(jù)挖掘技術(shù)的作用使得數(shù)據(jù)信息作為企業(yè)有利的競爭手段,只有充分利用數(shù)據(jù)挖掘的技術(shù)才能夠高效的為企業(yè)的良好發(fā)展打下一個堅固的基礎(chǔ)。面對社會競爭中的各種挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)是在傳統(tǒng)數(shù)據(jù)分析基礎(chǔ)上升級的一項高效技術(shù),其優(yōu)勢已經(jīng)適應(yīng)社會的競爭理念正在被完善利用。

1.2 數(shù)據(jù)挖掘的功能分析

數(shù)據(jù)挖掘的主要任務(wù)是對數(shù)據(jù)分類以及對信息的預(yù)處理數(shù)據(jù)預(yù)測進(jìn)行分析,其中信息預(yù)處理是以由兩個或兩個以上的變量值進(jìn)行分析,得出兩者之間存在的規(guī)律,稱之為信息預(yù)處理。數(shù)據(jù)預(yù)處理有簡單處理和復(fù)雜處理,的目的是對數(shù)據(jù)庫中的隱藏知識進(jìn)行研究分析,結(jié)合相關(guān)重要的參數(shù)使得挖掘出的數(shù)據(jù)更符合應(yīng)用的要求。數(shù)據(jù)的預(yù)測是結(jié)合歷史的數(shù)據(jù)總結(jié)出數(shù)據(jù)的規(guī)律,對同一類型的數(shù)據(jù)進(jìn)行比較,可以運(yùn)用數(shù)據(jù)的預(yù)測方式使得挖掘技術(shù)更好的展現(xiàn)。

1.3 數(shù)據(jù)挖掘的概念

數(shù)據(jù)挖掘技術(shù)是一門新的計算機(jī)應(yīng)用技術(shù)中的技術(shù),在近幾年的發(fā)展中逐漸吸引了大量相關(guān)工作者的關(guān)注,科學(xué)挖掘技術(shù)會給企業(yè)減少一些不必要的投資,使自身能夠獲得一定的利益回報。數(shù)據(jù)挖掘技術(shù)在企業(yè)中的利用會逐漸提高,由于新技術(shù)的使用會給企業(yè)帶來豐厚的利益,使得企業(yè)之間廣泛運(yùn)用數(shù)據(jù)挖掘技術(shù),隨著數(shù)據(jù)挖掘技術(shù)在運(yùn)用中的不不斷升級和挖掘技術(shù)的完善發(fā)展,促使數(shù)據(jù)挖掘技術(shù)在各個行業(yè)中被逐漸重視。結(jié)合數(shù)據(jù)庫技術(shù)和系統(tǒng)分析技術(shù)的運(yùn)用,保障相關(guān)工作人員對挖掘出的數(shù)據(jù)的透徹理解,挖掘技術(shù)的運(yùn)用要求保證數(shù)據(jù)的準(zhǔn)確有效性,對挖掘出的數(shù)據(jù)價值作出合理的分析,使挖掘數(shù)據(jù)具有一定的科學(xué)價值。

2 數(shù)據(jù)挖掘技術(shù)的流程展現(xiàn)

2.1 數(shù)據(jù)挖掘的應(yīng)用

數(shù)據(jù)挖掘技術(shù)能夠為企業(yè)的運(yùn)行帶來顯著的利益,使得很多企業(yè)都在利用數(shù)據(jù)挖掘技術(shù)為自身的經(jīng)濟(jì)利益作出保障。企業(yè)在發(fā)展中為了穩(wěn)定的長期發(fā)展,從而利用數(shù)據(jù)挖掘技術(shù)了解客戶的特點,從中得到一定的經(jīng)濟(jì)利益,結(jié)合數(shù)據(jù)的特點可以針對性的為客戶提供所需的服務(wù)。企業(yè)根據(jù)數(shù)據(jù)挖掘技術(shù)可以找到符合自己所需的客戶進(jìn)行產(chǎn)品銷售,增加更多的經(jīng)濟(jì)利益。數(shù)據(jù)挖掘技術(shù)運(yùn)用多個領(lǐng)域,可根據(jù)不同領(lǐng)域的特點采用數(shù)據(jù)挖掘減少利益的損失,開闊領(lǐng)域的發(fā)展前景。

2.2 數(shù)據(jù)挖掘的結(jié)構(gòu)

數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)庫到技術(shù)的運(yùn)用過程中有不同的運(yùn)行步驟,在確定業(yè)務(wù)對象問題方面可根據(jù)數(shù)據(jù)的準(zhǔn)備對所有業(yè)務(wù)對象進(jìn)行分析研究處理,保障數(shù)據(jù)的質(zhì)量從而為進(jìn)一步的分析工作做準(zhǔn)備。在數(shù)據(jù)的轉(zhuǎn)換方面應(yīng)建立一個針對性的分析模型,挖掘數(shù)據(jù)的成功關(guān)鍵因素,對所得的數(shù)據(jù)進(jìn)行預(yù)處理,完善挖掘技術(shù)的措施,使數(shù)據(jù)分析工作自動順利的運(yùn)行。在數(shù)據(jù)挖掘技術(shù)的結(jié)果分析上,應(yīng)對數(shù)據(jù)結(jié)果做出正確的評估,與知識理念共同分析,完善數(shù)據(jù)挖掘技術(shù)的每一步結(jié)構(gòu)。

3 結(jié)語

隨著信息的高速發(fā)展,使得數(shù)據(jù)系統(tǒng)越來越復(fù)雜,數(shù)據(jù)類型的要求也越來越多,使用合理有效的數(shù)據(jù)挖掘技術(shù)能夠?qū)鹘y(tǒng)數(shù)據(jù)的作用更好發(fā)揮。數(shù)據(jù)挖掘技術(shù)是一個有潛力的發(fā)展領(lǐng)域,在社會利益的競爭中被不斷完善運(yùn)用,每年都會有更高效的數(shù)據(jù)挖掘技術(shù)產(chǎn)生,市場中對數(shù)據(jù)挖掘技術(shù)的要求日益嚴(yán)格。數(shù)據(jù)挖掘技術(shù)在高速的社會發(fā)展下面臨著諸多挑戰(zhàn),對數(shù)據(jù)挖掘技術(shù)必須作出優(yōu)化處理措施,維護(hù)數(shù)據(jù)挖掘中的各種問題產(chǎn)生解決問題,完善數(shù)據(jù)挖掘技術(shù)的運(yùn)用,使數(shù)據(jù)挖掘能夠長久的在未來發(fā)展。

參考文獻(xiàn)

[1] 黃天航.面向數(shù)字城市規(guī)劃的數(shù)據(jù)倉庫構(gòu)建中主題信息的組織與提取研究――以大北京區(qū)域規(guī)劃為例[C]//規(guī)劃創(chuàng)新:2010中國城市規(guī)劃年會論文集,2010.

[2] 吳亮,符定紅.基于距離擴(kuò)散的審計信息系統(tǒng)異常數(shù)據(jù)挖掘算法研究[J].長春理工大學(xué)學(xué)報(社會科學(xué)版),2012(2).

[3] 楊靜,申艷光,邢麗莉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的研究與應(yīng)用[C]//2006北京地區(qū)高校研究生學(xué)術(shù)交流會――通信與信息技術(shù)會議論文集(下),2006.

第3篇

關(guān)鍵詞 Web數(shù)據(jù)挖掘;技術(shù)模型;具體解析

中圖分類號:TP393 文獻(xiàn)標(biāo)識碼:A 文章編號:1671-7597(2014)03-0055-01

Web框架下的數(shù)據(jù)挖掘,主要經(jīng)由對數(shù)據(jù)挖掘類技術(shù)的現(xiàn)實利用,從網(wǎng)絡(luò)供應(yīng)的服務(wù),以及現(xiàn)有的網(wǎng)絡(luò)文檔中,發(fā)覺并提煉信息。數(shù)據(jù)挖掘含有的對象不同,可以將現(xiàn)有的Web挖掘,分為三個類別:Web框架下的內(nèi)容挖掘、Web框架下的信息挖掘、Web帶有的結(jié)構(gòu)挖掘。

1 新穎的內(nèi)容挖掘

伴隨信息技術(shù)延展,Web框架下的數(shù)據(jù)類別也在遞增,從本源層級上來講,主要涵蓋了圖像類、文本類、聲音類、元數(shù)據(jù)類、視頻類等。在不同類別的數(shù)據(jù)以內(nèi)進(jìn)行挖掘,就構(gòu)造出了多媒體屬性的數(shù)據(jù)挖掘。

1) Web框架下的文本挖掘。數(shù)據(jù)挖掘,應(yīng)指代在很不完備的、數(shù)目偏多的、很含糊的、帶有雜聲的、帶有隨機(jī)特性的數(shù)據(jù)內(nèi),將其中潛藏著的各類別信息及關(guān)聯(lián)知識,予以提煉。若數(shù)據(jù)挖掘的目標(biāo)對象,只歸屬于文本,便構(gòu)造出文本屬性的數(shù)據(jù)挖掘。挖掘?qū)ο螅w著半結(jié)構(gòu)類、非結(jié)構(gòu)類、結(jié)構(gòu)化框架下的數(shù)據(jù);而非結(jié)構(gòu)化屬性的數(shù)據(jù),是側(cè)重的挖掘成分。

在IR這一領(lǐng)域中,文檔采納了空間向量模型這一獨有的形式,空間配有的向量,便歸屬于文檔。對文檔含有的特征集,予以提煉時,常常會多遍掃描,而獲取到特征向量,其現(xiàn)有維數(shù)非常高,這就增添了必備的處理時段。所以,在沒能影響到現(xiàn)有匹配結(jié)果及關(guān)聯(lián)分類的根基上,需要對原有的特征子集,予以選取。選取時,先對某個特有函數(shù),創(chuàng)設(shè)構(gòu)造,然后對這一子集中含有的特征進(jìn)行評判,將評判價值偏高的那些特征,選取出來,歸結(jié)成特征子集。常常見到的評價函數(shù),歸屬于交叉熵等。

對文本類別的數(shù)據(jù)去挖掘時,所接納的模型質(zhì)量類評價方法,和慣用的挖掘方法很近似,分類算法之內(nèi),樸素貝葉斯這一類別的算法,很常見。評判現(xiàn)有的模型質(zhì)量,主要涵蓋著分類帶有的準(zhǔn)確率、分類帶有的正確率、慣用的信息估值。

中文框架下的信息編碼,是偏復(fù)雜的,這一類別的編碼,在Web內(nèi),較為常見的,歸屬于BIG5屬性的編碼、GB類別的碼、HZ類別的碼等。對帶有中文類碼的HTML,采納數(shù)據(jù)挖掘,要對這一類別的編碼標(biāo)準(zhǔn)予以辨識,并更替成帶有統(tǒng)一性的慣用指標(biāo),然后才可挖掘。

2)對Web框架下多媒體挖掘,予以解析。在數(shù)據(jù)挖掘內(nèi),多媒體屬性的挖掘,是一個凸顯出來的挖掘領(lǐng)域,它從多媒體屬性的數(shù)據(jù)庫內(nèi),提煉出潛藏著的知識。多媒體屬性的數(shù)據(jù)挖掘,帶有廣義性,涵蓋著對聲音、多樣的視頻以及各類別圖像的挖掘,同時涵蓋著文本類數(shù)據(jù)挖掘。

進(jìn)行多媒體屬性的數(shù)據(jù)挖掘,要先凝練得來必備的信息,然后對慣用的挖掘方式,予以挖掘。對網(wǎng)頁中潛藏著的多媒體類別數(shù)據(jù),凝練屬性時,要對HTML類別的標(biāo)簽信息充分利用。

2 Web框架下的結(jié)構(gòu)挖掘

這種構(gòu)架,被當(dāng)成Web,因為它沒能由HTML類別的頁面,單純堆積而構(gòu)造出來,而是在Web含有的頁面間,有著各類別的關(guān)系,而能在現(xiàn)有的Web之間,架設(shè)出橋梁,因此歸屬于超鏈。超鏈能對現(xiàn)有的Web類頁面關(guān)聯(lián),選取出適宜的表征形式,如引用類的關(guān)系和繼承類的關(guān)系等。但是對于現(xiàn)有的Web框架下搜索工具,不會顧及到Web結(jié)構(gòu),仍然把這種Web,當(dāng)成獨立框架下文檔的集中。Web現(xiàn)有的結(jié)構(gòu)挖掘,是經(jīng)由對引用解析類技術(shù)與服務(wù)類技術(shù)的可行利用,對Web框架下的結(jié)構(gòu)銜接進(jìn)行分析,將其中可用的所有模式,予以提煉。進(jìn)行這一類別的結(jié)構(gòu)挖掘時,其潛藏著的結(jié)構(gòu)對象,既可以是現(xiàn)有的Web頁面構(gòu)架,也可以是現(xiàn)有Web頁面搭配的超鏈。前者含有針對性,帶有特定的應(yīng)用層級內(nèi)目的,而后者存在著普遍價值。

Web框架下的結(jié)構(gòu)挖掘,把Web當(dāng)成了獨有的有向圖,Web含有的頁面,當(dāng)成頂點,而圖含有的邊,歸屬于超鏈。然后經(jīng)由對圖論的現(xiàn)實利用,對Web框架下拓?fù)浣Y(jié)構(gòu)去解析。常常見到的算法,歸屬于發(fā)覺相似頁面、發(fā)覺虛擬社區(qū)、分出頁面類別、發(fā)覺地理位置。結(jié)構(gòu)挖掘算法,通常可分出兩類,一類歸屬于查詢無關(guān),一類歸屬于查詢相關(guān)。采用查詢相關(guān)這一算法時,需要對各類別的查詢,進(jìn)行超鏈解析,獲取到一次值的精準(zhǔn)指派;接納查詢獨立框架下的算法時,要對各類別的文檔,去進(jìn)行一次值的精準(zhǔn)指派。

3 Web框架下的信息挖掘

對現(xiàn)有的交易及關(guān)聯(lián)商務(wù),都是經(jīng)由Web去予以落實。因此,在各類別的服務(wù)器方,會產(chǎn)出數(shù)目偏多的數(shù)據(jù),它們由服務(wù)器所產(chǎn)出,并存留在服務(wù)器配有的日志文件內(nèi),另外,還會產(chǎn)出很多數(shù)目的用戶信息,如注冊類的信息。對這些數(shù)據(jù)解析以后,可以讓現(xiàn)有的商家,更好地明晰客戶信息,從而對現(xiàn)有市場以及現(xiàn)有商品,進(jìn)行更精準(zhǔn)的決策;對于供應(yīng)網(wǎng)絡(luò)類服務(wù)的人員,可以整合起總括的站點,以便供應(yīng)出帶有個性化的新服務(wù)。

Web框架下信息挖掘,帶有如下特性:當(dāng)用戶訪問到既有網(wǎng)絡(luò),可對用戶現(xiàn)有的活動及關(guān)聯(lián)行為,予以推測。挖掘方法可分出以下兩類:

原始數(shù)據(jù),經(jīng)由網(wǎng)絡(luò)服務(wù)器搭配的日志文件,選用獨有的處理方法,對其進(jìn)行歸整,然后再去挖掘。

把網(wǎng)絡(luò)服務(wù)類日志,現(xiàn)有的文件,經(jīng)由圖表去展示,然后去挖掘。通常情形之下,只要對原始屬性的數(shù)據(jù),予以處理后,便可對舊有的數(shù)據(jù)挖掘,予以采納,以便獲取到挖掘目的。

數(shù)據(jù)清除流程終結(jié)以后,制備出事務(wù)標(biāo)識類模塊,對登錄項含有的日志,分出邏輯類別。采用這樣的事務(wù)標(biāo)識,是為了讓各類別的用戶,都能產(chǎn)出帶有一定含義的聚類。因此,這種事務(wù)標(biāo)識含有的目的在于,將總括的大事務(wù)進(jìn)行歸整,以便分出幾個分支屬性的小事務(wù)。在這一過程中,可以分解出多樣步驟,或者是接納合并擴(kuò)展這樣的形式,從而產(chǎn)出最適宜的事務(wù)。

4 結(jié)束語

Web框架下的數(shù)據(jù)挖掘,是新產(chǎn)出的技術(shù),關(guān)涉到各類別的多樣技術(shù),正處于初始時段中。國內(nèi)對這一層級進(jìn)行的研究,數(shù)目還是偏少,對于Web含有的中文信息的關(guān)聯(lián)挖掘技術(shù),沒能制備出完善方案。但是,對Web框架下數(shù)據(jù)挖掘技術(shù)現(xiàn)有的研究,具有明顯的實用價值和商業(yè)價值。

參考文獻(xiàn)

[1]薛鴻民.Web數(shù)據(jù)挖掘技術(shù)研究[J].現(xiàn)代電子技術(shù),2006(08).

第4篇

關(guān)鍵詞:數(shù)據(jù)倉庫;數(shù)據(jù)挖掘

中圖分類號:TP392文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2007)15-30631-02

On Data Warehouse and Data Mine

SHENG Wei-xiang1,LONG Jia-li2

(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)

Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.

Key words:Data Warehouse;Data Mine

隨著信息時代的不斷進(jìn)步,社會正處于數(shù)據(jù)技術(shù)飛速發(fā)展的良好狀態(tài)。但是,在數(shù)據(jù)信息極度膨脹的同時,并非所有的數(shù)據(jù)都可被利用,大量的數(shù)據(jù)浪費,造成各種損失,所以有必要將這些數(shù)據(jù)轉(zhuǎn)化為有用的信息。而傳統(tǒng)的數(shù)據(jù)處理方法越來越不能滿足使用要求,迫切需要一種從大量數(shù)據(jù)中搜索集中并去偽存真的技術(shù)。20世紀(jì)80年代后期至今,高級數(shù)據(jù)分析――數(shù)據(jù)挖掘(Data Mining,簡稱DM)發(fā)展起來,是開發(fā)信息資源的一套科學(xué)方法、算法以及軟件工具和環(huán)境,是集統(tǒng)計學(xué)、人工智能、模式識別、并行運(yùn)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫等技術(shù)為一體的一個交叉性的研究領(lǐng)域[1]。

1 數(shù)據(jù)挖掘

1.1數(shù)據(jù)挖掘定義及實現(xiàn)過程

數(shù)據(jù)挖掘就是用來發(fā)現(xiàn)隱含的、事先未知的、潛在的有用知識,提取的知識可以表示成概念、規(guī)律、模式等形式。其挖掘?qū)ο蟛粌H可以是數(shù)據(jù)庫,也可以是文件系統(tǒng)或組織在一起的數(shù)據(jù)集合,更主要的是數(shù)據(jù)倉庫[2]。簡單的說,數(shù)據(jù)挖掘是提取或“挖掘”知識。目前,數(shù)據(jù)挖掘是可以從統(tǒng)計學(xué)、數(shù)據(jù)庫和機(jī)器學(xué)習(xí)等三個方面進(jìn)行定義。從統(tǒng)計學(xué)的角度,數(shù)據(jù)挖掘是指分析所觀察的數(shù)據(jù)集以發(fā)現(xiàn)可信的數(shù)據(jù)間的未知關(guān)系并提供給數(shù)據(jù)擁有者可理解的、新穎的和有用的歸納數(shù)據(jù)[1]。從數(shù)據(jù)庫的角度來看,數(shù)據(jù)挖掘是指從存儲在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息倉庫中的大量數(shù)據(jù)中發(fā)現(xiàn)有趣的知識的過程[1]。從機(jī)器學(xué)習(xí)的角度,數(shù)據(jù)挖掘定義為從數(shù)據(jù)中抽取隱含的、明顯未知的和潛在的有用的信息[1]。可以理解為,數(shù)據(jù)挖掘是一個從已知數(shù)據(jù)集合中發(fā)現(xiàn)各種模型、概要和導(dǎo)出值的過程。圖1表示的是典型的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)。

過程表述如下:從數(shù)據(jù)庫或數(shù)據(jù)倉庫等資源庫中收集數(shù)據(jù),并進(jìn)行信息的初步篩選;根據(jù)用戶對數(shù)據(jù)信息的要求,由服務(wù)器提取并傳輸有用的數(shù)據(jù);為了對已經(jīng)采集到的數(shù)據(jù)進(jìn)行更有效的分配,數(shù)據(jù)挖掘引擎對數(shù)據(jù)進(jìn)行特征化、關(guān)聯(lián)、分類等操作;然后將精確劃分的數(shù)據(jù)信息進(jìn)行模式評估,從而使搜索僅限制在感興趣的模式上,通過圖形用戶界面,用戶可以方便的與數(shù)據(jù)挖掘系統(tǒng)之間通信,實現(xiàn)對數(shù)據(jù)的使用。

1.2數(shù)據(jù)挖掘分類

數(shù)據(jù)挖掘是一個交叉性的學(xué)科領(lǐng)域,涉及數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)理論、機(jī)器學(xué)習(xí)技術(shù)、模式識別技術(shù)、克視化理論和技術(shù)等。由于所用的數(shù)據(jù)挖掘方法不同、所挖掘的數(shù)據(jù)類型與知識類型不同、數(shù)據(jù)挖掘應(yīng)用的不同,從而產(chǎn)生了大量的、各種不同類型的數(shù)據(jù)挖掘系統(tǒng)。掌握數(shù)據(jù)挖掘系統(tǒng)的不同非類,可以幫助用戶確定最適合的數(shù)據(jù)挖掘系統(tǒng)[1]。

圖1 典型的數(shù)據(jù)挖掘系統(tǒng)的結(jié)構(gòu)

(1)根據(jù)所挖掘數(shù)據(jù)庫類型的不同來分類:有關(guān)系型數(shù)據(jù)挖掘系統(tǒng)、對象型數(shù)據(jù)挖掘系統(tǒng)、對象-關(guān)系型數(shù)據(jù)挖掘系統(tǒng)、事務(wù)型數(shù)據(jù)挖掘系統(tǒng)、數(shù)據(jù)倉庫的數(shù)據(jù)挖掘系統(tǒng),等等。

(2)根據(jù)所挖掘的知識類型來分類:分為特征化、區(qū)分、關(guān)聯(lián)、分類、聚類、孤立點分析(異常數(shù)據(jù))和演變分析、偏差分析、相似性分析等分類。

(3)根據(jù)所采用技術(shù)的分類:有自動數(shù)據(jù)挖掘系統(tǒng)、證實驅(qū)動挖掘系統(tǒng)、發(fā)現(xiàn)挖掘系統(tǒng)和交互式數(shù)據(jù)挖掘系統(tǒng)。

(4)根據(jù)數(shù)據(jù)挖掘方法來分類:如面向數(shù)據(jù)庫的方法、面向數(shù)據(jù)倉庫的方法、機(jī)器學(xué)習(xí)方法、統(tǒng)計學(xué)方法、模式識別方法、神經(jīng)網(wǎng)絡(luò)方法等。

(5)根據(jù)數(shù)據(jù)挖掘應(yīng)用的分類:有金融數(shù)據(jù)的數(shù)據(jù)挖掘系統(tǒng)、電信行業(yè)的數(shù)據(jù)挖掘系統(tǒng)、DNA序列數(shù)據(jù)挖掘系統(tǒng)、股票市場數(shù)據(jù)挖掘系統(tǒng)、WWW數(shù)據(jù)挖掘系統(tǒng)等等,不同的應(yīng)用通常需要集成對于該應(yīng)用特別有效果的方法。因此,普通的、全功能的數(shù)據(jù)挖掘系統(tǒng)并不一定適合特定領(lǐng)域的數(shù)據(jù)挖掘任務(wù)。

1.3數(shù)據(jù)挖掘任務(wù)

數(shù)據(jù)挖掘任務(wù)有6項:關(guān)聯(lián)分析、時序模式、聚類、分類、偏差檢測、預(yù)測[3]。

關(guān)聯(lián)分析是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。若兩個或多個數(shù)據(jù)項的取值之間重復(fù)出現(xiàn)并且概率很高的時候,就存在某種管理,可以建立起這些數(shù)據(jù)項的關(guān)聯(lián)準(zhǔn)則。

通過時間序列搜索出重復(fù)發(fā)生概率較高的模式。這里強(qiáng)調(diào)時間序列的影響。

數(shù)據(jù)庫中的數(shù)據(jù)可以劃分為一系列有意義的子集,即類。在同一類別中,個體之間的距離較小,而不同類別的個體之間的距離偏大。聚類增強(qiáng)了人們對客觀現(xiàn)實的認(rèn)識,即通過聚類建立宏觀概念。

分類是數(shù)據(jù)挖掘中應(yīng)用最多的任務(wù)。分類是找出一個類別的概念描述,它代表了這類信息的整體,即該類的內(nèi)涵描述。一般用規(guī)則或決策樹模式表示。該模式能把數(shù)據(jù)庫中的元組影射到給定類別中的某一個。

數(shù)據(jù)庫中的數(shù)據(jù)存在很多異常情況。從數(shù)據(jù)分析中發(fā)現(xiàn)這些異常情況也是很重要的,應(yīng)該引起足夠的重視。偏差檢測的基本方法是尋找觀察結(jié)果與參照之間的差別。觀察常常是某一個領(lǐng)域的值或多個域值的總匯。參照是給定模型的預(yù)測、外界提供的標(biāo)準(zhǔn)或另一個觀察。

預(yù)測是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并用此模型來預(yù)測未來數(shù)據(jù)的種類、特征等。近年來,發(fā)展起來的神經(jīng)網(wǎng)絡(luò)方法,如BP模型,實現(xiàn)了非線性樣本的學(xué)習(xí),能進(jìn)行非線性函數(shù)的判別。分類也能進(jìn)行預(yù)測,但是分類一般用于離散數(shù)值;回歸預(yù)測用于連續(xù)數(shù)值;神經(jīng)網(wǎng)絡(luò)方法預(yù)測兩者都可用。

2 數(shù)據(jù)倉庫概述

數(shù)據(jù)倉庫對不同的使用者、不同的操作范圍,它有不同的意義。被譽(yù)為數(shù)據(jù)倉庫之父的W.H.Inmom將數(shù)據(jù)倉庫(Data Warehouse)定義為[4]:是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念可以從兩個層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。

數(shù)據(jù)倉庫具有以下特征:

(1)數(shù)據(jù)是面向主題的

傳統(tǒng)的數(shù)據(jù)倉庫只是單純的數(shù)據(jù)的集中,在處理不同事務(wù)時執(zhí)行不同的操作。而現(xiàn)今的數(shù)據(jù)倉庫是有較強(qiáng)主題組織性的,高層次地將數(shù)據(jù)歸類,去除無用的數(shù)據(jù)。

(2)數(shù)據(jù)的集成性

因為數(shù)據(jù)的來源是多方面的,必須根據(jù)一定的規(guī)則將所有的數(shù)據(jù)進(jìn)行重新構(gòu)造,即數(shù)據(jù)的集成。

(3)數(shù)據(jù)的相對穩(wěn)定性

數(shù)據(jù)倉庫中的數(shù)據(jù)是歷史數(shù)據(jù),具有一定的借鑒性,不會有大的變動。

(4)數(shù)據(jù)的不易失性(長期性)

數(shù)據(jù)倉庫只是物理式的、篩選式的存放數(shù)據(jù),不會改變數(shù)據(jù)本身的性質(zhì),那么其數(shù)據(jù)結(jié)構(gòu)必定包含有時間效果,這樣才能更好的體現(xiàn)歷史數(shù)據(jù)的趨勢預(yù)測性。

3 數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的關(guān)系

既然數(shù)據(jù)倉庫的唯一功能是向終端用戶提供信息以支持決策者,數(shù)據(jù)挖掘體現(xiàn)了數(shù)據(jù)倉庫的一個最重要的應(yīng)用。與其他查詢工具和應(yīng)用系統(tǒng)不同,數(shù)據(jù)挖掘過程向終端用戶提供提取隱藏的、非同等常的信息的能力。這種信息雖然很難提取,但能提供更大的商業(yè)和科學(xué)利益,也能使對“數(shù)據(jù)倉庫和數(shù)據(jù)挖掘”的投資產(chǎn)出更高的利潤[5]。

從數(shù)據(jù)倉庫的觀點,數(shù)據(jù)挖掘可以看作是聯(lián)機(jī)分析處理的高級階段。但是作為更高級的數(shù)據(jù)分析技術(shù),數(shù)據(jù)挖掘比數(shù)據(jù)倉庫的匯總分析要詳細(xì)和深入的多。數(shù)據(jù)倉庫技術(shù)的發(fā)展與數(shù)據(jù)挖掘有著密切的關(guān)系。數(shù)據(jù)倉庫的發(fā)展是促進(jìn)數(shù)據(jù)挖掘越來越熱門的原因之一。但是,數(shù)據(jù)挖掘并不一定要有數(shù)據(jù)倉庫的支持,即數(shù)據(jù)倉庫并不是數(shù)據(jù)挖掘的必要條件,因為有很多數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息,同時,數(shù)據(jù)挖掘仍然經(jīng)常被看做是數(shù)據(jù)倉庫的后期市場產(chǎn)品,因為那些努力建立起來的數(shù)據(jù)倉庫有最豐富的數(shù)據(jù)資源可供挖掘。顯然,數(shù)據(jù)倉庫被更為廣泛地接受將使人們對數(shù)據(jù)挖掘更感興趣。

從數(shù)據(jù)倉庫中直接得到進(jìn)行數(shù)據(jù)挖掘的數(shù)據(jù)有許多好處。數(shù)據(jù)倉庫的數(shù)據(jù)清理和數(shù)據(jù)挖掘的數(shù)據(jù)清理差不多,如果數(shù)據(jù)在導(dǎo)入數(shù)據(jù)倉庫時已經(jīng)清理過,很可能在做數(shù)據(jù)挖掘時就沒必要再清理一次了,而且所有的數(shù)據(jù)不一致的問題都已經(jīng)得到解決了。

數(shù)據(jù)挖掘庫可能是數(shù)據(jù)倉庫的一個邏輯子集,而不一定非得是物理上單獨的數(shù)據(jù)庫。但如果數(shù)據(jù)倉庫的集中資源已經(jīng)很緊張,那最好還是建立一個單獨的數(shù)據(jù)挖掘庫。

為了數(shù)據(jù)挖掘庫,也不是一定要建立一個數(shù)據(jù)庫。因為建立一個巨大的數(shù)據(jù)倉庫,要把各個不同資源的數(shù)據(jù)集中在一起,并解決所有的數(shù)據(jù)沖突問題,然后把所有的數(shù)據(jù)導(dǎo)入一個數(shù)據(jù)倉庫內(nèi),是一項非常巨大的工程,比較麻煩,需要時間和金錢的花費。如果只是為了數(shù)據(jù)挖掘,可以把一個或幾個數(shù)據(jù)庫導(dǎo)到一個只讀的數(shù)據(jù)庫中,就把它當(dāng)作數(shù)據(jù)集合,然后在這上面進(jìn)行數(shù)據(jù)挖掘。其中如何抽取、集成、篩選并準(zhǔn)備數(shù)據(jù)以解決其最為緊迫的業(yè)務(wù)問題,將是分析人員在進(jìn)行數(shù)據(jù)挖掘時所面臨的最大挑戰(zhàn)。解決這些問題,不僅是數(shù)據(jù)挖掘過程中的一個艱巨任務(wù),而且需要耗費大量的時間。盡管在數(shù)據(jù)挖掘中并非一定要有數(shù)據(jù)倉庫的支持,但數(shù)據(jù)倉庫的確為數(shù)據(jù)集成和準(zhǔn)備提供了一個好辦法。

4 總結(jié)

構(gòu)造在數(shù)據(jù)倉庫平臺的數(shù)據(jù)挖掘具有很強(qiáng)的實用性,效率很高,節(jié)省資源。目前,數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術(shù)在科學(xué)研究、市場流通、企業(yè)管理等應(yīng)用方面已經(jīng)達(dá)到了一定的水平。隨著信息化的加強(qiáng),數(shù)據(jù)倉庫的多維化和數(shù)據(jù)挖掘的效率化將更有效的結(jié)合起來,促進(jìn)整個信息產(chǎn)業(yè)的發(fā)展。

參考文獻(xiàn):

[1]焦李成.等.智能數(shù)據(jù)挖掘與知識發(fā)現(xiàn)[M].西安:西安電子科技大學(xué)出版社.2006.8:1-7.

[2]Dustin R Callaway.精通Servlets[M].北京:清華大學(xué)出版社.2002:20-45.

[3]陳文偉.等.數(shù)據(jù)挖掘技術(shù)[M].北京:北京工業(yè)大學(xué)出版社.2002.12:1-6.

[4]鐘飆等.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)概述[J].計算機(jī)與網(wǎng)絡(luò).2003.2:11-15.

第5篇

當(dāng)今是一個信息技術(shù)飛速發(fā)展的時代,人們在日常的生活和工作中產(chǎn)生的數(shù)據(jù)量越來越大,要讓人們理解和接受這些錯綜復(fù)雜的數(shù)據(jù),數(shù)據(jù)研究工作者需要采用數(shù)據(jù)挖掘技術(shù)來解決這一難題。本研究就對數(shù)據(jù)挖掘技術(shù)進(jìn)行分析,并對當(dāng)前運(yùn)用較多的關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行探討。

【關(guān)鍵詞】數(shù)據(jù)挖掘 關(guān)聯(lián)規(guī)則算法

數(shù)據(jù)挖掘是對數(shù)據(jù)進(jìn)行理解分析,對數(shù)據(jù)中隱藏的知識進(jìn)行挖掘發(fā)現(xiàn)的技術(shù),所以也稱為數(shù)據(jù)庫中的知識發(fā)現(xiàn)(KDD)。數(shù)據(jù)挖掘技術(shù)在近幾年來的研究越來越深入,這是數(shù)據(jù)研究工作者經(jīng)過長期在大量的應(yīng)用過程中探索研究的成果。在數(shù)據(jù)挖掘技術(shù)中的關(guān)聯(lián)規(guī)則是應(yīng)用較為廣泛的一種算法,數(shù)據(jù)研究工作者在大量數(shù)據(jù)中獲取微量信息時,關(guān)聯(lián)規(guī)則能發(fā)揮其重要的價值。本研究在對數(shù)據(jù)挖掘技術(shù)相關(guān)概念進(jìn)行分析的基礎(chǔ)上,對關(guān)聯(lián)規(guī)則中的集中常用算法進(jìn)行探討,以期為數(shù)據(jù)研究工作這提供可靠參考。

1 數(shù)據(jù)挖掘技術(shù)介紹

1.1 數(shù)據(jù)挖掘技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)是一門包容性以及開放性較強(qiáng)的跨領(lǐng)域數(shù)據(jù)信息揭示學(xué)科,這項技術(shù)能從大量含有噪聲,且模糊不確定的實際業(yè)務(wù)數(shù)據(jù)中進(jìn)行計算,在這些數(shù)據(jù)中對當(dāng)前尚未發(fā)現(xiàn),或者沒有被明確認(rèn)知的具有一定價值的知識信息進(jìn)行揭示。在進(jìn)行數(shù)據(jù)挖掘中的業(yè)務(wù)數(shù)據(jù)形式不是單一固定的,是復(fù)雜多樣的,所以數(shù)據(jù)挖掘得出的分析結(jié)果形式能以多種形式表現(xiàn)出來,可以是具有較強(qiáng)邏輯性的數(shù)學(xué)表達(dá)式,也可以是容易被一般用戶理解的結(jié)果。且數(shù)據(jù)挖掘技術(shù)在科學(xué)研究、市場分析等領(lǐng)域均得到了廣泛的應(yīng)用。

1.2 數(shù)據(jù)挖掘技術(shù)分類

數(shù)據(jù)挖掘功能的分類主要是根據(jù)數(shù)據(jù)挖掘功能的不同進(jìn)行的,當(dāng)前的數(shù)據(jù)挖掘技術(shù)主要有關(guān)聯(lián)規(guī)則挖掘技術(shù)、分類挖掘技術(shù)、孤立點挖掘技術(shù)以及聚類挖掘技術(shù)等。本研究主要對關(guān)聯(lián)規(guī)則挖掘算法進(jìn)行詳細(xì)探討。

2 關(guān)聯(lián)規(guī)則挖掘算法

2.1 關(guān)聯(lián)規(guī)則種類介紹

關(guān)聯(lián)規(guī)則按照不同的標(biāo)準(zhǔn),能用各種不同的方法分成不同類型。將關(guān)聯(lián)規(guī)則分為挖掘頻繁項集、閉頻繁項集、被約束頻繁項集、極大頻繁項集,是根據(jù)挖掘模式的完全性分類的;將關(guān)聯(lián)規(guī)則分為多層和單層關(guān)聯(lián)規(guī)則,以及單位和多維關(guān)聯(lián)規(guī)則是根據(jù)規(guī)則所涉及的數(shù)據(jù)進(jìn)行分類的;將關(guān)聯(lián)規(guī)則分為量化關(guān)聯(lián)規(guī)則和挖掘布爾型規(guī)則是根據(jù)規(guī)則處理值類型分類的;將關(guān)聯(lián)規(guī)則分為序列模式挖掘、頻繁項集挖掘以及結(jié)構(gòu)模式挖掘是根據(jù)俄關(guān)聯(lián)規(guī)則挖掘模式進(jìn)行分類的;將關(guān)聯(lián)規(guī)則分為興趣度約束、知識類型約束、數(shù)據(jù)約束,是根據(jù)規(guī)則所挖掘的約束類型分類的。

2.2 P聯(lián)規(guī)則挖掘算法分析

2.2.1 Apriori算法分析

關(guān)聯(lián)規(guī)則算法中的挖掘完全頻繁項集中,Apriori算法該類型中最具有應(yīng)用價值,影響力最大的算法。Apriori算法主要有兩個步驟:

(1)發(fā)現(xiàn)所有的頻繁集;

(2)生成強(qiáng)關(guān)聯(lián)規(guī)則。

在Apriori算法中的第一步是最為重要的步驟,該算法的核心思路是,給定一個數(shù)據(jù)庫,在第一次數(shù)據(jù)庫掃描中找出所有支持度大于等于最小支持度的項目組成頻繁1―項集,也就是L1,1―項集C1,由L1進(jìn)行連接得到;接著進(jìn)行第二次數(shù)據(jù)庫掃描,將C1中所有支持度大于等于最小支持度的項集組成頻繁2―項集,也就是L2,候選2―項集C2由L2連接得到。以此類推,直到找出最大項頻繁集。即在進(jìn)行第N次數(shù)據(jù)庫掃描時,找出CN-1中所有支持度大于等于最小支持度的項集組成頻繁N―項集,即是LN,N―項集CN要由LN連接得出,一直到找不出新的選集為止。在這里還要用到Apriori算法性質(zhì),即是頻繁項集是頻繁項集的子集,非頻繁項集是非頻繁項集的超集。在Apriori算法中對數(shù)據(jù)庫的掃描次數(shù)需要大于最大頻繁項集的項數(shù)。

Apriori算法的操作具有兩個明顯的缺點。(1)該算法的使用需要對數(shù)據(jù)庫進(jìn)行多次掃描,因此在讀寫操作上會花費很多的時間,從而增加挖掘算法的時間成本,這種成本的增加不可小覷,因為它是有數(shù)據(jù)庫存儲數(shù)據(jù)的增加,以幾何級數(shù)上升的成本;

(2)Apriori算法會出現(xiàn)眾多的候選頻繁集,頻發(fā)集的產(chǎn)生量在每一步都很大,這會使算法在廣泛度和深入度上的適應(yīng)性較差。

2.2.2 FP―growth算法分析

FP―growth算法是關(guān)聯(lián)規(guī)則算法中屬于深度優(yōu)化的一種算法,這種算法是深度優(yōu)化算法中較新且具有較高成效的,不同于Apriori算法本質(zhì)的常用算法。FP?―growth算法的基本基本步驟有兩個:

(1)先將頻繁模式樹FP―tree生成;

(2)在生成的FP―tree頻繁模式樹中搜索頻繁項集。

(1)需要將項集關(guān)聯(lián)信息保留住,并采用一棵頻繁模式樹(FP―tree)用來容納壓縮后的數(shù)據(jù)庫;

(2)再將壓縮后的FP―tree再分散為幾個小的條件數(shù)據(jù)庫,再分別對這些數(shù)據(jù)庫進(jìn)行信息挖掘。FP―growth算法相較于Apriori算法,只需要對數(shù)據(jù)庫進(jìn)行兩次掃描,不需要多次掃描,大幅度減少了挖掘算法的時間成本;也不會出現(xiàn)大量的候選項集,大幅度減少了頻繁集的搜索空間。也就是說FP―growth算法能明顯提高時間和空間效率。但是該算法也有缺點,在對龐大且松散的數(shù)據(jù)庫進(jìn)行挖掘處理過程中,不管是遞歸計算還是信息挖掘都需要占據(jù)大量的空間。

3 總結(jié)

綜上所述,本研究對對數(shù)據(jù)挖掘技術(shù)概念和分類進(jìn)行了簡單的介紹,并對關(guān)聯(lián)規(guī)則的種類進(jìn)行了詳細(xì)的分析,對關(guān)聯(lián)規(guī)則中常用的兩種算法FP―growth算法和Apriori算法進(jìn)行了詳細(xì)的分析。兩種算法都還存在各自需要改進(jìn)缺點,怎樣在挖掘過程中提高挖掘效率,滿足人們對挖掘系統(tǒng)的需求,這將是數(shù)據(jù)研究工作者仍然需要突破的重難點。

參考文獻(xiàn)

[1]毛國君.數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法研究[D].北京:北京工業(yè)大學(xué),2015.

[2]張弛,王本德,李偉等.數(shù)據(jù)挖掘技術(shù)在水文預(yù)報中的應(yīng)用及水文預(yù)報發(fā)展趨勢研究[J].水文,2015,27(02):74-77,85.

[3]魏陵博,付先軍.基于Aprio關(guān)聯(lián)規(guī)則挖掘技術(shù)分析歸心經(jīng)中藥與抗心律失常藥理作用的相關(guān)因素[J].中西醫(yī)結(jié)合心腦血管病雜志,2014(05):517-518.

[4]付先軍,周永紅,王中琳等.基于頻繁項集與關(guān)聯(lián)規(guī)則挖掘技術(shù)探索王新陸臨床用藥及處方配伍規(guī)律的初步研究[J].中國中醫(yī)藥信息雜志,2015,17(09):92-94.

[5]郭濤,門瑞.關(guān)于數(shù)據(jù)挖掘技術(shù)與關(guān)聯(lián)規(guī)則挖掘算法的研究[J].無線互聯(lián)科技,2014(10):150-150,264.

第6篇

【關(guān)鍵詞】數(shù)據(jù)挖掘 數(shù)據(jù)分類算法

在當(dāng)前的時代背景下,很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念,這既給計算機(jī)產(chǎn)業(yè)帶來了發(fā)展機(jī)遇,也帶來了挑戰(zhàn)。因為想要做好大數(shù)據(jù)挖掘的相關(guān)工作,就一定要掌握數(shù)據(jù)分類算法,而數(shù)據(jù)分類算法可稱得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入,人們開發(fā)了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數(shù)據(jù)分類器為基準(zhǔn),進(jìn)行相應(yīng)的數(shù)據(jù)分類,包括決策樹類、Bayes類、基于關(guān)聯(lián)規(guī)則類以及利用數(shù)據(jù)庫技術(shù)類,本文將對它們進(jìn)行簡單的闡述。

1 決策樹分類算法

1.1 傳統(tǒng)算法

C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類算法,有著很明顯的優(yōu)點,如規(guī)則簡單易懂,實際操作易于上手。但是隨著計算機(jī)的不斷普及,數(shù)據(jù)的規(guī)模變的越來越龐大,其復(fù)雜程度也是日漸增長。C4.5已經(jīng)逐漸無法滿足新時期的數(shù)據(jù)分類處理工作了。并且由于決策樹分類算法的規(guī)則,決定了在數(shù)據(jù)分類的過程中,要對數(shù)據(jù)進(jìn)行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹的時候,這種缺點更加明顯。這不僅會影響數(shù)據(jù)分析的速度,也浪費了更多的系統(tǒng)資源。對于大數(shù)據(jù)挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù),對于內(nèi)存無法保留的過于龐大的數(shù)據(jù)集,C4.5甚至?xí)霈F(xiàn)無法運(yùn)行的情況。

1.2 衍生算法

(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎(chǔ)上做了一些技術(shù)性的完善,例如增強(qiáng)了數(shù)據(jù)的排序技術(shù),并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個數(shù),并具有相當(dāng)優(yōu)秀的可擴(kuò)展性,為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎(chǔ)的,因此在進(jìn)行數(shù)據(jù)處理時,仍需要將數(shù)據(jù)集保留在內(nèi)存中,這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長度一旦超過了排序的預(yù)定長度,SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。

(2)SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問題而開發(fā)出來的。SPRINT 算法重新定義了決策樹算法的數(shù)據(jù)分析結(jié)構(gòu),改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數(shù)據(jù)列表存儲在內(nèi)存當(dāng)中,而是將其融合到了每個數(shù)據(jù)集的屬性列表中,這樣既避免了數(shù)據(jù)查詢時重復(fù)掃描造成的速度緩慢,又釋放了內(nèi)存的壓力。特別是在進(jìn)行大數(shù)據(jù)挖掘時,由于數(shù)據(jù)的基數(shù)過大,在每個數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時間,對數(shù)據(jù)進(jìn)行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數(shù)據(jù)列表,由于它只能在數(shù)據(jù)集內(nèi)進(jìn)行分析,結(jié)果可能不是十分準(zhǔn)確,導(dǎo)致其拓展性受到了限制。

2 其他分類算法

2.1 Bayes分類算法

Bayes分類算法是利用概率統(tǒng)計學(xué)而開發(fā)出來的一種算法,在目前數(shù)據(jù)分類中應(yīng)用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數(shù)據(jù)的特性做出一定的假設(shè),而這種假設(shè)往往缺少實際數(shù)據(jù)的理論支持,因此在數(shù)據(jù)分析過程中就很難做到準(zhǔn)確有效。在此之上,TAN算法又被開發(fā)出來,它是為了提高Bayes分類算法的假設(shè)命題的準(zhǔn)確率,也就是降低了NB任意屬性之間獨立的假設(shè)。

2.2 CBA分類數(shù)據(jù)算法

基于關(guān)聯(lián)規(guī)則的分類算法就是CBA分類數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類器,在數(shù)據(jù)分析的過程中,先搜索到所有的右部為類別的類別關(guān)聯(lián)規(guī)則,這被稱為CAR;然后再從CAR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù),它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面,方便進(jìn)行歸納整理。但是由于其在進(jìn)行數(shù)據(jù)分類時容易出現(xiàn)疏漏,因此經(jīng)常采用設(shè)置最小支持度為0的辦法來減少遺漏的數(shù)據(jù),這就造成了算法的優(yōu)化作用不能完全發(fā)揮,降低了運(yùn)行效率。

2.3 MIND和GAC-RDB算法分類算法

在大數(shù)據(jù)挖掘的背景下,未來數(shù)據(jù)分類算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的的分類算法。盡管很久之前就已經(jīng)有一些專門研究數(shù)據(jù)庫的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫技術(shù)的分類算法,但是并沒有得到實際運(yùn)用。因為在進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時候,很難將其與數(shù)據(jù)庫的系統(tǒng)集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。

2.3.1 MIND算法

MIND算法與決策樹算法有些相似,都是通過構(gòu)造數(shù)據(jù)分類器來進(jìn)行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語句來與數(shù)據(jù)庫系統(tǒng)實現(xiàn)關(guān)聯(lián)。在進(jìn)行數(shù)據(jù)分析時,UDF方法能夠大大縮短對每個節(jié)點的數(shù)據(jù)特性進(jìn)行分析的時間,這樣就在為數(shù)據(jù)庫的集成提供了理論基礎(chǔ)。SQL語句是通過對數(shù)據(jù)集的屬性進(jìn)行分析,以便從中選擇出最合適的分裂屬性,然后給數(shù)據(jù)排序,這樣就節(jié)省了數(shù)據(jù)分類的時間。但是MIND算法還不能直接在數(shù)據(jù)庫系統(tǒng)中實現(xiàn)查詢功能,更重要的是,該算法的維護(hù)成本過高,不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基礎(chǔ)上進(jìn)行了更多的改進(jìn),能夠充分利用數(shù)據(jù)庫系統(tǒng)進(jìn)行聚集運(yùn)算,也就是實現(xiàn)了數(shù)據(jù)庫系統(tǒng)的集成。該算法擁有分類準(zhǔn)確,分析迅速,執(zhí)行更快的優(yōu)點,同時可拓展性也比較出色。更重要的是,它可以充分利用數(shù)據(jù)庫提供的查詢功能,從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象,縮短了分析的時間,節(jié)約了系統(tǒng)資源。只要在自動確定參數(shù)取值的技術(shù)上進(jìn)行一些改進(jìn),該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。

3 總結(jié)

大數(shù)據(jù)挖掘是時展的潮流,因此數(shù)據(jù)分類算法的重要性也將隨著顯現(xiàn)。通過分析幾種不同的算法,能夠在數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性上進(jìn)行比較,從而選擇最適合的數(shù)據(jù)分類算法。它們都在不同程度上有著各自的優(yōu)缺點,因此要繼續(xù)深入研究以開發(fā)出更好的分類算法。

參考文獻(xiàn)

[1]錢雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法的綜述,2014(13).

[2]劉紅巖.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述,2002(06).

第7篇

關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;預(yù)處理技術(shù)

中圖分類號:TP311.131

隨著計算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,由于其能夠提高工作的效率,非常受到人們的重視,一些企業(yè)甚至在計算機(jī)應(yīng)用的基礎(chǔ)上,提出了無紙化辦公的理念,在實際應(yīng)用的過程中,計算機(jī)需要存儲大量的數(shù)據(jù),對于企業(yè)用戶來說,很多數(shù)據(jù)具有私密性,如果這些數(shù)據(jù)泄露出去,將會給企業(yè)的發(fā)展帶來嚴(yán)重的影響,甚至造成巨大的經(jīng)濟(jì)損失。受到特殊的歷史因素影響,我國的經(jīng)濟(jì)和科技起步較晚,與西方發(fā)達(dá)國家相比,存在較大的差距,雖然經(jīng)過了多年改革開放的發(fā)展,我國已經(jīng)成為了世界第二大經(jīng)濟(jì)體,計算機(jī)的應(yīng)用水平也有了很大的提高,但是在尖端的數(shù)據(jù)挖掘等領(lǐng)域中,研究的還比較少,而數(shù)據(jù)挖掘等技術(shù),能夠在很大程度上影響數(shù)據(jù)的利用效率,對于實際的工作來說,具有非常重要的作用。

1 數(shù)據(jù)挖掘的預(yù)處理技術(shù)簡析

1.1 數(shù)據(jù)挖掘預(yù)處理技術(shù)的概念

數(shù)據(jù)挖掘技術(shù)是隨著數(shù)據(jù)庫的發(fā)展,逐漸形成的一門學(xué)科,在計算機(jī)出現(xiàn)的早期,受到其性能和體積的限制,能夠存儲的數(shù)據(jù)很少,不需要考慮數(shù)據(jù)的利用效率,但是隨著晶體管和集成電路的使用,計算機(jī)的性能得到了極大的提高,相應(yīng)的存儲設(shè)備也有了很大的進(jìn)步,計算機(jī)能夠處理的任務(wù)越來越復(fù)雜,存儲的數(shù)據(jù)越來越多,現(xiàn)在我國建成了多個大型數(shù)據(jù)存儲中心,存儲的數(shù)據(jù)量非常巨大。對于如此多的數(shù)據(jù),如何篩選出自己想要的,成為了很大專家和學(xué)者研究的問題,在傳統(tǒng)的數(shù)據(jù)應(yīng)用中,通常都是利用檢索技術(shù),根據(jù)輸入的關(guān)鍵詞,在數(shù)據(jù)庫中進(jìn)行逐個的匹配,如果數(shù)據(jù)庫的存儲量較小,檢索的效率就比較高,而對于現(xiàn)在的海量存儲來說,逐個匹配顯然需要很長的等待時間。數(shù)據(jù)挖掘的預(yù)處理技術(shù),正是在這種背景下出現(xiàn)的,所謂預(yù)處理技術(shù),就是在數(shù)據(jù)挖掘之前,對數(shù)據(jù)進(jìn)行一定的整理,通常情況下,數(shù)據(jù)挖掘主要面對現(xiàn)有的數(shù)據(jù)庫或者互聯(lián)網(wǎng)上海量的數(shù)據(jù),如果在數(shù)據(jù)庫中進(jìn)行挖掘,那么可以對數(shù)據(jù)庫進(jìn)行一定的修改,如完善數(shù)據(jù)分類的方式等,而在互聯(lián)網(wǎng)上進(jìn)行數(shù)據(jù)挖掘,顯然就需要優(yōu)化挖掘的方式,或者縮小數(shù)據(jù)挖掘的范圍等。

1.2 數(shù)據(jù)挖掘預(yù)處理技術(shù)的特點

與正常的數(shù)據(jù)挖掘技術(shù)相比,如何增加相應(yīng)的預(yù)處理環(huán)節(jié),無疑可以極大的提高數(shù)據(jù)挖掘的效率,如在數(shù)據(jù)庫中進(jìn)行數(shù)據(jù)的挖掘,傳統(tǒng)的挖掘方式下,通常都是利用檢索技術(shù),輸入指定的關(guān)鍵詞后,與數(shù)據(jù)庫中的信息進(jìn)行對比,這樣逐條的進(jìn)行檢索,就可以找到自己想要的數(shù)據(jù),如果數(shù)據(jù)庫存儲的信息量較大,那么利用這樣的挖掘方式,顯然需要很長的等待時間。如果增加相應(yīng)的預(yù)處理環(huán)節(jié),如在數(shù)據(jù)庫中添加索引,對數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行分類,那么在輸入相應(yīng)的關(guān)鍵詞后,首先與索引進(jìn)行匹配,然后在指定類別的數(shù)據(jù)中進(jìn)行對比,這樣的方式,顯然極大的提高了數(shù)據(jù)挖掘的效率,目前使用的數(shù)據(jù)庫中,大多采用了這樣的預(yù)處理技術(shù),取得了很好的應(yīng)用效果。受到特殊歷史因素的影響,我國數(shù)據(jù)庫相關(guān)技術(shù)水平較低,目前我國建設(shè)的大型數(shù)據(jù)庫,都是與國外的技術(shù)公司合建的,通過實際的調(diào)查發(fā)現(xiàn),現(xiàn)在我國還無法自主生產(chǎn)外部存儲設(shè)備,市面上的存儲設(shè)備,都是從外國引進(jìn)的,但是在實際數(shù)據(jù)庫的建設(shè)中,在外國存儲設(shè)備的基礎(chǔ)上,我國也進(jìn)行了大量數(shù)據(jù)挖掘等技術(shù)的研究。

1.3 數(shù)據(jù)挖掘預(yù)處理技術(shù)的發(fā)展

從某種意義上來說,數(shù)據(jù)挖掘技術(shù)是隨著互聯(lián)網(wǎng)和數(shù)據(jù)庫的應(yīng)用,根據(jù)實際使用的需要,逐漸形成的一門技術(shù),在互聯(lián)網(wǎng)發(fā)展的初期,網(wǎng)絡(luò)上的資源有限,而且受到計算機(jī)性能的限制,沒有太多的娛樂項目,只能瀏覽一些商業(yè)網(wǎng)站等,隨著計算機(jī)的普及應(yīng)用,互聯(lián)網(wǎng)有了很大的發(fā)展,現(xiàn)在已經(jīng)建成了覆蓋世界范圍的因特網(wǎng)。據(jù)最新的統(tǒng)計調(diào)查表明,我國的網(wǎng)民數(shù)量已經(jīng)超過了6億,如果龐大的用戶群體,為我國互聯(lián)網(wǎng)的發(fā)展,提供了堅實的基礎(chǔ),但是通過實際的調(diào)查發(fā)現(xiàn),我國的實際網(wǎng)絡(luò)帶寬,還沒有達(dá)到世界平均水平,即使實際使用的網(wǎng)絡(luò)帶寬較低,我國互聯(lián)網(wǎng)內(nèi)容的發(fā)展速度依然很快,現(xiàn)在網(wǎng)絡(luò)上出現(xiàn)了各種各樣的網(wǎng)站,極大的提高了網(wǎng)絡(luò)建設(shè)水平。在實際的網(wǎng)絡(luò)瀏覽中,面對如此大的信息量,如何找到自己想要的信息,成為了一個實際問題,為了解決這個問題,出現(xiàn)了搜索引擎,只要輸入相應(yīng)的關(guān)鍵詞,搜索引擎就可以很快的找到大量相關(guān)內(nèi)容,然后進(jìn)行必要的篩選,就能夠得到相應(yīng)的數(shù)據(jù),但是隨著互聯(lián)網(wǎng)內(nèi)容的豐富,除了傳統(tǒng)的文字信息外,還有視頻和音頻等數(shù)據(jù),如何在這些數(shù)據(jù)中,進(jìn)行相應(yīng)的挖掘工作,具有較大的難度。

2 影響數(shù)據(jù)挖掘預(yù)處理技術(shù)的因素

2.1 預(yù)處理的方式

在實際的數(shù)據(jù)挖掘過程中,能夠影響挖掘效果的因素有很多,如數(shù)據(jù)量的大小、挖掘方式等,從某種意義上來說,數(shù)據(jù)挖掘就是數(shù)據(jù)的查找,從指定范圍或者未知范圍內(nèi),找到指定的數(shù)據(jù),通常情況下,數(shù)據(jù)挖掘都具有很強(qiáng)的目的性,但是對于找到數(shù)據(jù)的量,并沒有明確的要求,尤其是隨著互聯(lián)網(wǎng)內(nèi)容的增加,現(xiàn)在的數(shù)據(jù)挖掘中,都會附帶大量的相關(guān)信息。對于數(shù)據(jù)挖掘的預(yù)處理技術(shù)來說,預(yù)處理的方式,能夠在很大程度上影響挖掘的效率,例如在一個一百條數(shù)據(jù)庫中進(jìn)行挖掘,為了提高實際的效率,通常情況下會采用檢索的方式,根據(jù)輸入的關(guān)鍵詞,逐條的與數(shù)據(jù)庫的信息進(jìn)行比對,這樣挖掘的效率具有很大的不確定性,如果要查找的數(shù)據(jù)排列比較考前,那么就需要很短的檢索時間,如果要查找的數(shù)據(jù)剛好在第一百條的位置,顯然就需要進(jìn)行一百次匹配。如果采用索引的方式進(jìn)行預(yù)處理,將這一百條數(shù)據(jù)根據(jù)自身的特點,分成十個類別,每個類別建立一個索引,那么在實際的匹配中,無論要查找的數(shù)據(jù)處于哪個位置,最多只需要十次匹配,就可以找到相應(yīng)的數(shù)據(jù),由此可以看出,預(yù)處理方式對于數(shù)據(jù)挖掘效率具有非常重要的影響。

2.2 數(shù)據(jù)量的大小

計算機(jī)經(jīng)過了多年的發(fā)展,其自身的性能有了很大的提高,在實際的數(shù)據(jù)挖掘中,如果檢索的數(shù)據(jù)較少,即使不經(jīng)過任何的預(yù)處理,仍然可以具有很高的挖掘效率,但是隨著數(shù)據(jù)庫自身的發(fā)展,企業(yè)用戶的數(shù)據(jù)庫容量越來越大,在數(shù)據(jù)庫中查找指定的數(shù)據(jù),需要較長的時間,要想很好的解決這個問題,必須對數(shù)據(jù)挖掘的方式等,進(jìn)行相應(yīng)的優(yōu)化。通過實際的調(diào)查發(fā)現(xiàn),目前我國使用的數(shù)據(jù)庫,大多都是國外的技術(shù)公司設(shè)計的,為了方便數(shù)據(jù)庫的使用,大多采用了整體的外包,即軟件和硬件都是由同一家公司提供,采用這樣的方式,不但能夠很好的解決軟件和硬件之間不兼容的問題,同時可以提供優(yōu)質(zhì)的軟件服務(wù)。目前市面上的數(shù)據(jù)庫,大多對數(shù)據(jù)挖掘技術(shù)進(jìn)行一定的優(yōu)化,如增加索引環(huán)節(jié)等,通過這些技術(shù)的使用,很好的提高了實際的挖掘效率,但是這些預(yù)處理技術(shù),并沒有考慮到數(shù)據(jù)量的大小,如一些大型的數(shù)據(jù)庫中,要想建立索引機(jī)制,本身就需要很長的時間,雖然在建立索引后,就可以直接的使用,即使數(shù)據(jù)庫中發(fā)生變化,也不需要重新建立,只要根據(jù)數(shù)據(jù)的情況,將其存儲到指定的分類中即可。

2.3 操作人員自身的素質(zhì)

對于實際的數(shù)據(jù)挖掘工作來說,操作人員自身的素質(zhì),也可以在很大程度上影響挖掘的效率,經(jīng)過了多年的完善,數(shù)據(jù)挖掘技術(shù)已經(jīng)成為了一門單獨的學(xué)科,計算機(jī)專業(yè)的學(xué)生,要進(jìn)行相應(yīng)知識的學(xué)習(xí),但是通過實際的調(diào)查發(fā)現(xiàn),現(xiàn)在的數(shù)據(jù)挖掘主要針對互聯(lián)網(wǎng)上的內(nèi)容,而互聯(lián)網(wǎng)日新月異的發(fā)展,給數(shù)據(jù)挖掘帶來了很大的難度。在這種背景下,如果沒有足夠的工作經(jīng)驗,顯然很難完成相應(yīng)的數(shù)據(jù)挖掘工作,因此剛畢業(yè)的大學(xué)生,數(shù)據(jù)挖掘的效果較差,即使能夠完成相應(yīng)的工作,也需要較長的時間,雖然這些學(xué)生在學(xué)校中,能夠?qū)W習(xí)到大量的數(shù)據(jù)挖掘知識,為了提高教學(xué)的效果,老師還會講解一些數(shù)據(jù)挖掘的實例,但是實際挖掘中,具有很多的不可控因素。如果操作人員具有豐富的數(shù)據(jù)挖掘經(jīng)驗,在實際的工作中,必然會總結(jié)一些相應(yīng)的技巧,這些技巧的使用,可以在一定程度上縮短挖掘的時間,提高數(shù)據(jù)挖掘的準(zhǔn)確性,對于數(shù)據(jù)挖掘工作來說,具有非常重要的作用,從某種意義上來說,數(shù)據(jù)挖掘的預(yù)處理技術(shù),指的就是這些從實踐中總結(jié)出來的技巧,然后進(jìn)行科學(xué)、系統(tǒng)的分析,應(yīng)用到實際的挖掘中。

3 我國數(shù)據(jù)挖掘預(yù)處理技術(shù)應(yīng)用中存在的問題

3.1 沒有意識到預(yù)處理技術(shù)的重要性

在傳統(tǒng)的數(shù)據(jù)挖掘中,由于數(shù)據(jù)庫自身的容量較少,采用檢索的方式,就可以輕松的找到想要的數(shù)據(jù),因此不需要預(yù)處理技術(shù),隨著數(shù)據(jù)庫自身的發(fā)展,計算機(jī)的性能也有了很大的提高,在很長一段時間內(nèi),硬件的發(fā)展速度都要領(lǐng)先于軟件,因此數(shù)據(jù)檢索具有很高的效率,近些年互聯(lián)網(wǎng)的普及應(yīng)用,在很大程度上改變了這種現(xiàn)象,尤其是云計算等理念的出現(xiàn)。在互聯(lián)網(wǎng)海量數(shù)據(jù)中進(jìn)行挖掘,依靠單獨的計算機(jī),很難具有較高的效率,在這種背景下,如何優(yōu)化數(shù)據(jù)挖掘技術(shù),成為了很多專家和學(xué)者研究的問題,預(yù)處理技術(shù)就是根據(jù)實際工作的需要出現(xiàn)的,受到特殊的歷史因素影響,在數(shù)據(jù)庫的建設(shè)等方面,我國要落后西方國家很多,雖然近年來我國投入了大量的人力和物力,研究數(shù)據(jù)挖掘等技術(shù),但是并沒有取得明顯的效果。正是受到自身技術(shù)水平的限制,使得我國數(shù)據(jù)建設(shè)中,對數(shù)據(jù)挖掘的預(yù)處理技術(shù),沒有足夠的重視,導(dǎo)致很大數(shù)據(jù)庫中,還采用傳統(tǒng)的檢索等方式,沒有任何的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,雖然一些數(shù)據(jù)庫中集成了相應(yīng)的功能,但是通過實際的調(diào)查發(fā)現(xiàn),在實際使用的過程中,并沒有啟用相應(yīng)的功能。

3.2 沒有針對性的預(yù)處理方式

由于現(xiàn)在的數(shù)據(jù)挖掘,主要針對互聯(lián)網(wǎng)上海量的數(shù)據(jù),而互聯(lián)網(wǎng)上的數(shù)據(jù)非常復(fù)雜,尤其是近些年網(wǎng)絡(luò)的發(fā)展,出現(xiàn)了文本、視頻、音頻等各種各樣的信息,在這些信息中進(jìn)行數(shù)據(jù)的挖掘,顯然具有較大的難度,而且互聯(lián)網(wǎng)的數(shù)據(jù)量較大,即使借助相應(yīng)的搜索引擎,依然需要很長的挖掘時間,對于現(xiàn)在使用的一些數(shù)據(jù)挖掘預(yù)處理技術(shù),只有在一些特定的情況下,才能夠發(fā)揮出一定的作用。數(shù)據(jù)挖掘預(yù)處理技術(shù)出現(xiàn)的時間較短,目前還沒有形成統(tǒng)一的認(rèn)識,不同學(xué)者根據(jù)實際工作的需要,提出了不同的預(yù)處理方式,通過實際的調(diào)查發(fā)現(xiàn),這些預(yù)處理方式的應(yīng)用,都具有一定的局限性,在特定的數(shù)據(jù)挖掘中,可以明顯的提高挖掘的效率,但是對于其他數(shù)據(jù)的挖掘,就無法起到相應(yīng)的作用。受到我國數(shù)據(jù)挖掘技術(shù)水平的限制,并沒有意識到這點,在實際數(shù)據(jù)挖掘的工作中,通常都是隨意的采用預(yù)處理方式,這樣顯然無法最大成都上提高數(shù)據(jù)挖掘的效率,有時候反而會降低工作的效率,目前西方發(fā)達(dá)國家的數(shù)據(jù)挖掘預(yù)處理中,都會根據(jù)每次工作的實際情況,針對性的設(shè)計一個預(yù)處理的方式。

4 數(shù)據(jù)挖掘的預(yù)處理技術(shù)應(yīng)用措施

4.1 重視數(shù)據(jù)挖掘的預(yù)處理技術(shù)

考慮到我國的數(shù)據(jù)庫建設(shè)中,很多都沒有采用相應(yīng)的預(yù)處理技術(shù),在很大程度上影響了數(shù)據(jù)挖掘的效率,要想很好的解決這個問題,必須對預(yù)處理技術(shù)給予足夠的重視,在數(shù)據(jù)庫的設(shè)計時,就對預(yù)處理的方式等進(jìn)行考慮,如果是購買的數(shù)據(jù)庫服務(wù),那么就要根據(jù)自身的實際情況,對預(yù)處理技術(shù)提供一定的要求,這樣可以極大的提高挖掘的效率。通過實際的調(diào)查發(fā)現(xiàn),西方國家的預(yù)處理技術(shù)水平之所以比較高,主要就是由于其重視,在實際的挖掘工作中,對于能夠提高工作效率的所有細(xì)節(jié)進(jìn)行完善,并總結(jié)相關(guān)的經(jīng)驗,方便下次的使用,正是這種供求雙方的重視,使得西方發(fā)達(dá)國家的預(yù)處理技術(shù)快速的發(fā)展。我國要想提高自身的數(shù)據(jù)挖掘預(yù)處理技術(shù),必須根據(jù)自身的實際情況,借鑒外國一些先進(jìn)的經(jīng)驗,最大程度上完善預(yù)處理技術(shù),要想達(dá)到這個目的,首先應(yīng)該提高對預(yù)處理技術(shù)的重視程度,無論是實際的操作人員,還是管理人員和開發(fā)人員,都應(yīng)該重視預(yù)處理技術(shù)的應(yīng)用,然后從自身的工作角度出發(fā),對其進(jìn)行一定的完善。

4.2 提高工作人員自身的素質(zhì)

數(shù)據(jù)挖掘預(yù)處理技術(shù)的應(yīng)用,需要實際的操作人員,而不同工作人員,由于自身經(jīng)驗等不同,工作的效率會有一定的差距,如剛畢業(yè)的大學(xué)生,即使在學(xué)校中的成績較好,掌握了足夠的預(yù)處理知識,還是無法很好的完成相應(yīng)的工作,尤其是近些年信息技術(shù)的發(fā)展,互聯(lián)網(wǎng)上海量數(shù)據(jù)的挖掘,具有很大的難度。而且不同數(shù)據(jù)的挖掘,預(yù)處理方式等也應(yīng)該具有一定的差異,通過實際的調(diào)查發(fā)現(xiàn),目前我國的數(shù)據(jù)挖掘工作人員自身的素質(zhì)普遍較低,無法根據(jù)實際的工作情況,針對性的選擇一種預(yù)處理方式,在很大程度上影響了挖掘的效率,要想很好的解決這個問題,必須提高工作人員自身的素質(zhì),在實際的招聘過程中,盡量聘請一些具有豐富經(jīng)驗的人員。對于現(xiàn)有的工作人員,可以通過定期培訓(xùn)等方式,讓其了解到最新的數(shù)據(jù)挖掘理念,以及預(yù)處理技術(shù)的重要性等,如果條件允許,還可以與一些先進(jìn)的企業(yè)進(jìn)行交流,學(xué)習(xí)先進(jìn)的預(yù)處理技術(shù),這樣在提高預(yù)處理技術(shù)水平的同時,還可以對數(shù)據(jù)庫的其他的技術(shù),進(jìn)行一定的優(yōu)化。

4.3 采用針對性的預(yù)處理方式

經(jīng)過了多年的發(fā)展和完善,數(shù)據(jù)挖掘的預(yù)處理技術(shù)已經(jīng)非常普遍,目前的很大數(shù)據(jù)庫建設(shè)中,都會采用預(yù)處理技術(shù),甚至在日常的數(shù)據(jù)搜索中,也開始使用預(yù)處理技術(shù),但是通過實際的調(diào)查發(fā)現(xiàn),根據(jù)實際需要數(shù)據(jù)的不同,數(shù)據(jù)挖掘的環(huán)境、方式等會具有較大的差異,而這些條件的變化,必然需要不同的預(yù)處理方式。而目前我國的數(shù)據(jù)挖掘中,顯然還沒有意識到這點,為了提高實際的工作效率,雖然會采用一定的預(yù)處理方式,但是預(yù)處理的方式,并不會根據(jù)數(shù)據(jù)挖掘的不同,進(jìn)行針對性的變化,沒有真正的達(dá)到預(yù)處理的目的,在一些特殊的數(shù)據(jù)挖掘中,由于預(yù)處理方式的不當(dāng),甚至?xí)档凸ぷ鞯男省S纱丝梢钥闯觯趯嶋H的數(shù)據(jù)挖掘中,預(yù)處理方式的重要性,要想最大程度上提高工作的效率,必須采用針對性的預(yù)處理方式,對目前已有的預(yù)處理方式進(jìn)行總結(jié)、分類,根據(jù)需要數(shù)據(jù)的情況,針對性的選擇,如果人員的自身素質(zhì)較高,還可以設(shè)計一個新的預(yù)處理方式,以此來最大程度上提高數(shù)據(jù)挖掘的效率。

5 結(jié)束語

通過全文的分析可以知道,隨著近些年計算機(jī)和互聯(lián)網(wǎng)的普及應(yīng)用,數(shù)據(jù)的挖掘、存儲、調(diào)用等技術(shù)越來越重要,受到特殊的歷史因素影響,我國科技起步較晚,與西方發(fā)達(dá)國家相比,在數(shù)據(jù)挖掘等領(lǐng)域中,具有明顯的差異,雖然經(jīng)過了多年改革開放的發(fā)展,這種差距在逐漸的減小,但是很難在短時間內(nèi)趕上發(fā)達(dá)國家的技術(shù)水平,在這種背景下,要想快速的提高我國數(shù)據(jù)挖掘預(yù)處理技術(shù),必須結(jié)合我國數(shù)據(jù)挖掘的實際情況,借鑒西方國家先進(jìn)的經(jīng)驗,完善目前的預(yù)處理技術(shù)。

參考文獻(xiàn):

[1]鄭繼剛,謝芳.多媒體圖像挖掘的關(guān)聯(lián)規(guī)則挖掘[J].紅河學(xué)院學(xué)報,2009(05):44-47.

[2]謝邦昌,李揚(yáng).數(shù)據(jù)挖掘與商業(yè)智能的現(xiàn)況及未來發(fā)展[J].統(tǒng)計與信息論壇,2008(05):94-96.

[3]林建勤.數(shù)據(jù)挖掘主要問題的對策研究[J].貴陽學(xué)院學(xué)報(自然科學(xué)版),2007(02):1-4.

[4]陳娜.數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向[J].電腦與信息技術(shù),2006(01):46-49.

[5]李菁菁,邵培基,黃亦瀟.數(shù)據(jù)挖掘在中國的現(xiàn)狀和發(fā)展研究[J].管理工程學(xué)報,2004(03):10-15.

[6]鄭斌祥,杜秀華,席裕庚.一種時序數(shù)據(jù)的離群數(shù)據(jù)挖掘新算法[J].控制與決策,2002(03):324-327.

[7]臧洌.人工神經(jīng)網(wǎng)絡(luò)在混沌觀測時序數(shù)據(jù)處理中的應(yīng)用[J].數(shù)據(jù)采集與處理,2001(04):486-489.

第8篇

關(guān)鍵詞:web網(wǎng)絡(luò)數(shù)據(jù);挖掘技術(shù);實現(xiàn)

中圖分類號:TP393.09

時間就是金錢,效率就是生命。在當(dāng)今這個競爭日趨激烈的社會中,誰能快速有效的找到并掌握信息誰就能夠在激烈的環(huán)境中占據(jù)強(qiáng)大優(yōu)勢。互聯(lián)網(wǎng)作為一個我們?nèi)魏螣岖@取知識和有效信息的重要工具,在我們?nèi)粘5纳詈凸ぷ髦芯哂蟹浅V匾淖饔谩N覀冊谌粘5纳詈凸ぷ髦校没ヂ?lián)網(wǎng)挖掘?qū)ξ覀冇行У臄?shù)據(jù)的時候,必須掌握一定的技術(shù)和技巧,這樣我們既可以得到我們所需要的資料和信息,又能在激烈的競爭環(huán)境中占得先機(jī)。

1 網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)簡介

當(dāng)今社會是一個網(wǎng)絡(luò)蔓延的社會,我們的日常生活和工作學(xué)習(xí)都離不開網(wǎng)絡(luò)的大力支持,在網(wǎng)上我們可以找到我們所需的相關(guān)信息,網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)是一門在網(wǎng)上快速的提取我們所需的有效信息的一種技術(shù)手段,通過網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)我們可以節(jié)約我們獲取信息的時間,提高我們的日常工作效率。對于我們的日常生活來講,利用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)在網(wǎng)上獲取我們所需的有效信息,可以為我們節(jié)約非常多的生活時間,讓我們有更多的時間和精力去處理個人生活問題,有效的幫助提高我們的生活質(zhì)量。在工作中,我們利用網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)可以為我們節(jié)約大量的時間,有效的提高我們的工作效率,對于一些特殊的行業(yè)來說,獲取信息的準(zhǔn)確與否會直接影響企業(yè)的未來發(fā)展甚至是命運(yùn),對于這些行業(yè)來講,他們必須保證自己在第一時間獲取信息,提前進(jìn)行準(zhǔn)備或者直接下手,為以后面對激烈的行業(yè)競爭打下堅實的基礎(chǔ)。

Web數(shù)據(jù)挖掘技術(shù)是一項非常綜合性的技術(shù),我們可以把它認(rèn)為是一項計算機(jī)技術(shù),也可以把它理解為一項數(shù)據(jù)處理技術(shù),之所以這樣是因為這項技術(shù)在應(yīng)用的過程中,既要有一定的計算機(jī)應(yīng)用技術(shù)作為基礎(chǔ),又要熟練掌握一些相關(guān)的數(shù)據(jù)處理技術(shù)。在web數(shù)據(jù)挖掘技術(shù)應(yīng)用的過程中,人們需要對一些挖掘算法進(jìn)行反反復(fù)復(fù)的利用,建立一定的數(shù)據(jù)模型,最終按照建立的數(shù)據(jù)模型在網(wǎng)絡(luò)上準(zhǔn)確獲取我們所需要的有效信息。Web數(shù)據(jù)挖掘技術(shù)是一項在互聯(lián)網(wǎng)中獲取自己需要的有效信息的一種技術(shù)手段,我們可以從數(shù)學(xué)的角度來理解這項技術(shù),我們把我們現(xiàn)在掌握的有效信息作為一個信息集合P,把我們想要得到的有效信息作為另一個集合C,這樣我們就得到一個映射:P--C,而從P-C的這個過程就需要我們利用web挖掘技術(shù)進(jìn)行信息的挖掘和篩選。Web數(shù)據(jù)挖掘技術(shù)從本質(zhì)上講是一門數(shù)據(jù)獲取技術(shù),是由我們在日常生活和工作中的數(shù)據(jù)挖掘技術(shù)發(fā)展而來的,以前我們在獲取數(shù)據(jù)進(jìn)行有效數(shù)據(jù)挖掘的時候是建立在紙質(zhì)的文件上的,而web數(shù)據(jù)挖掘技術(shù)是建立在網(wǎng)絡(luò)技術(shù)和計算機(jī)技術(shù)的基礎(chǔ)之上,是計算機(jī)技術(shù)和網(wǎng)絡(luò)技術(shù)高度發(fā)展形成的一個產(chǎn)物。我們在利用web數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)挖掘時,首先要對現(xiàn)有的信息進(jìn)行總結(jié)歸納,得出其中所蘊(yùn)含的關(guān)鍵信息,然后利用數(shù)據(jù)挖掘這種技術(shù)手段對我們所需信息進(jìn)行深度挖掘的一個過程。利用web數(shù)據(jù)挖掘技術(shù)可以很好的解決我們?nèi)粘9ぷ髦兴枰母鞣N數(shù)據(jù)問題,幫助我們提高工作效率。

2 web數(shù)據(jù)挖掘技術(shù)的基本原理

我們把要得到的有效數(shù)據(jù)看做是一個集合,把我們目前掌握的已知數(shù)據(jù)也看作是一個集合,WEB數(shù)據(jù)挖掘技術(shù)的作用就是將這兩個信息有機(jī)的聯(lián)系在一起,我們首先在WEB網(wǎng)站中輸入我們所需信息的關(guān)鍵詞,首次輸入的時候力求做到全方位輸入,也就是說我們輸入的關(guān)鍵詞要盡可能的囊括我們所需信息的各個方面,如果在搜索后我們發(fā)現(xiàn),在WEB網(wǎng)站中沒有與我們所需信息完全吻合的數(shù)據(jù)信息,我們就將我們所要得到的信息進(jìn)行簡化,所謂簡化不是一味的刪除關(guān)鍵詞,而是對各個關(guān)鍵詞進(jìn)行逐字分析,弄懂其包含的意義,然后結(jié)合我們實際的工作需要,將關(guān)鍵詞進(jìn)行有效的排序,排在前面的將作為我們首先要輸入的關(guān)鍵詞,直至出現(xiàn)與我們所需信息一致的信息為止,對于我們在首次的搜索過程中沒有體現(xiàn)出來的關(guān)鍵詞,我們要進(jìn)行單獨的處理,然后將他們有機(jī)的融合在一起即可。在數(shù)據(jù)挖掘完成后,我們還需要進(jìn)行數(shù)據(jù)整理,將得到的信息進(jìn)行有機(jī)的整理也是數(shù)據(jù)挖掘技術(shù)的一個重要組成部分,根據(jù)我們工作的性質(zhì)和目的,結(jié)合我們的實際工作過程,將我們挖掘到的信息整理成我們所需的那種形式表達(dá)出來,這就是整個WEB數(shù)據(jù)挖掘技術(shù)的過程。

3 web數(shù)據(jù)挖掘的分類

每個概念每項技術(shù)都有其歸屬,網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)也有不同的分類標(biāo)準(zhǔn),按照挖掘?qū)ο筮M(jìn)行分類我們可以將web數(shù)據(jù)挖掘分為web內(nèi)容的挖掘、web結(jié)構(gòu)的挖掘、wab使用記錄的挖掘三類,下面對這三類web數(shù)據(jù)挖掘技術(shù)進(jìn)行簡要介紹。

3.1 web數(shù)據(jù)內(nèi)容挖掘

Web數(shù)據(jù)內(nèi)容挖掘我們從其字面意思上就可以對這種挖掘有個大致的了解。所謂web數(shù)據(jù)內(nèi)容挖掘的針對對象就是對web網(wǎng)站中實際數(shù)據(jù)內(nèi)容進(jìn)行深度挖掘,我們可以進(jìn)行網(wǎng)頁信息的深度挖掘,也可以根據(jù)我們的需要進(jìn)行網(wǎng)頁數(shù)據(jù)格式的挖掘,從網(wǎng)頁信息的角度考慮,我們可以在網(wǎng)頁上實際的選擇我們真正需要的數(shù)據(jù)內(nèi)容,或者將幾個網(wǎng)頁的數(shù)據(jù)內(nèi)容進(jìn)行有機(jī)的結(jié)合;從網(wǎng)頁數(shù)據(jù)格式的角度考慮,我們可以挖掘我們需要的那種數(shù)據(jù)格式,網(wǎng)頁格式包括音頻、視頻、文本、圖片等等,以提高我們工作效率和工作質(zhì)量為原則,我們可以根據(jù)我們的實際需要選擇最理想的web數(shù)據(jù)挖掘內(nèi)容。

3.2 web數(shù)據(jù)結(jié)構(gòu)挖掘

Web結(jié)構(gòu)挖掘是另一種web數(shù)據(jù)挖掘的分類,所謂web結(jié)構(gòu)挖掘?qū)嶋H上是一種鏈接數(shù)據(jù)挖掘,我們可以利用鏈接分析來達(dá)到我們數(shù)據(jù)挖掘的目的,也就是說我們在web中輸入我們所需要的信息的關(guān)鍵詞,在網(wǎng)頁上就會自動的彈出很多的鏈接供我們進(jìn)行自由選擇,我們根據(jù)我們的世界需要進(jìn)行鏈接的點擊和數(shù)據(jù)的獲取。我們對所得到的網(wǎng)頁進(jìn)行有效的分類通過分類來達(dá)到網(wǎng)頁之間數(shù)據(jù)對比和相似度分析的目的。在我們的日常工作中利用web結(jié)構(gòu)挖掘進(jìn)行工作的地方有很多。例如無論我們是大學(xué)畢業(yè)還是在評職稱的過程中,都是我們每個人的必經(jīng)之路,我們所寫的論文在發(fā)表之前都要進(jìn)行,以達(dá)到檢測相似度的目的,這個就是對web數(shù)據(jù)結(jié)構(gòu)挖掘的一個很好的利用。

3.3 web使用記錄挖掘

Web使用記錄挖掘是除了web數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結(jié)構(gòu)挖掘以外的另一種非常重要的數(shù)據(jù)挖掘形式。Web數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結(jié)構(gòu)挖掘都是對web網(wǎng)頁進(jìn)行挖掘的一個形式,web使用記錄挖掘與他們不同,web使用記錄挖掘是建立在web數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結(jié)構(gòu)挖掘基礎(chǔ)上的一種挖掘形式,是用戶與網(wǎng)路服務(wù)器在進(jìn)行交互的過程中形成的一種數(shù)據(jù)挖掘形式,web使用記錄挖掘的對象包括很多,它包括計算機(jī)注冊的信息、服務(wù)器的登錄次數(shù)和日志等等。Web使用記錄挖掘從本質(zhì)上講是對wab數(shù)據(jù)內(nèi)容挖掘和web數(shù)據(jù)結(jié)構(gòu)挖掘的二次挖掘,是對它們所蘊(yùn)含的數(shù)據(jù)的又一次過濾,幫助我們過去更加有效的數(shù)據(jù)信息。

Web數(shù)據(jù)內(nèi)容挖掘、web數(shù)據(jù)結(jié)構(gòu)挖掘、web使用記錄挖掘是我們在日常的數(shù)據(jù)挖掘中經(jīng)常用到的三種挖掘形式,在它們之間也有一定的聯(lián)系,他們?nèi)呦噍o相成,我們可以根據(jù)自己的實際工作需要選擇合適的方法進(jìn)行數(shù)據(jù)挖掘,也可以綜合利用三種挖掘形式進(jìn)行數(shù)據(jù)挖掘。

4 web數(shù)據(jù)挖掘技術(shù)的實現(xiàn)

在我們的互聯(lián)網(wǎng)上蘊(yùn)藏著大量的信息供我們選擇,在互聯(lián)網(wǎng)上找到真正適合我們的有效信息目前已經(jīng)成為了一個難題,通過網(wǎng)絡(luò)開發(fā)人員的不斷努力,目前XML是我們解決這個問題的一個重要的技術(shù)。XML可以將不同位置、不同結(jié)構(gòu)形式、不同內(nèi)容的數(shù)據(jù)有機(jī)的結(jié)合在一起,幫助我們進(jìn)行web數(shù)據(jù)挖掘的實現(xiàn)。Web數(shù)據(jù)難以整理主要是有web數(shù)據(jù)的特點造成的,其中異構(gòu)數(shù)據(jù)庫環(huán)境、半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)、是web數(shù)據(jù)兩個最重要的特點,web數(shù)據(jù)的這兩個特點,導(dǎo)致在不同位置、不同結(jié)構(gòu)的數(shù)據(jù)很難有機(jī)的集合在一起,而XML很好的為我們解決了這一點,XML形象的被我們稱作是數(shù)據(jù)的中介機(jī)構(gòu),它的出現(xiàn)可以有機(jī)的將不同形式、不同格式的數(shù)據(jù)內(nèi)容建立一一對應(yīng)的關(guān)系,幫助我們把不同的數(shù)據(jù)有機(jī)的柔和在一起,供我們方便使用。隨著web數(shù)據(jù)挖掘的應(yīng)用日趨廣泛,這種XML技術(shù)被逐漸完善,通過軟件開發(fā)人員的不斷努力,目前,XML技術(shù)已經(jīng)具有操作簡單、高效率、通用率高等諸多優(yōu)點,而且,XML還實現(xiàn)了國際化,我們可以在世界網(wǎng)絡(luò)范圍內(nèi)進(jìn)行web數(shù)據(jù)的挖掘,擴(kuò)大了我們的知識范圍,為方便我們?nèi)粘9ぷ鳎岣呶覀儷@取有效信息的效率做出了巨大的貢獻(xiàn)。下面對web數(shù)據(jù)挖掘技術(shù)的實現(xiàn)步驟進(jìn)行簡要描述:第一,用戶輸入已知的樣本,作為獲取數(shù)據(jù)的已知條件;第二,根據(jù)數(shù)據(jù)內(nèi)容,歸納數(shù)據(jù)特征,并利用一定的數(shù)據(jù)統(tǒng)計方法準(zhǔn)確的計算他們的權(quán)值。第三,獲取大量的網(wǎng)絡(luò)信息,也就是在搜索引擎中輸入我們要查找信息的關(guān)鍵詞,在網(wǎng)頁中顯示出很多的信息供我們選擇,這些信息包含不同的數(shù)據(jù)特點,數(shù)據(jù)格式;最后,利用事先計算好的數(shù)據(jù)特征,對現(xiàn)在獲取的大量信息進(jìn)行匹配,并要求計算機(jī)將最吻合的信息反饋給用戶。這就是web數(shù)據(jù)挖掘技術(shù)的實現(xiàn)過程。

5 結(jié)語

Web數(shù)據(jù)挖掘技術(shù)是目前數(shù)據(jù)處理行業(yè)的一個重要的技術(shù),我國任何行業(yè)的發(fā)展與進(jìn)步都需要大量的數(shù)據(jù),我們在日常生活和工作中也都需要從web中獲取大量的有價值數(shù)據(jù),web數(shù)據(jù)挖掘技術(shù)可以有效的幫助我們進(jìn)行數(shù)據(jù)獲取,在為我們節(jié)約時間的同時獲取大量有價值的數(shù)據(jù)供我們?nèi)粘I詈凸ぷ魉谩eb數(shù)據(jù)挖掘技術(shù)是一項由計算機(jī)技術(shù)和數(shù)據(jù)挖掘技術(shù)共同組成的復(fù)雜技術(shù),這項技術(shù)的出現(xiàn)和不斷完善,對我們的日常生活起到了非常重要的作用,為提高我們的生活質(zhì)量和工作效率做出了巨大的貢獻(xiàn)。

參考文獻(xiàn):

[1]高燕,胡景濤.web數(shù)據(jù)挖掘原理、方法及應(yīng)用[J].現(xiàn)代圖書情報技術(shù),2012(03):51-53.

[2]王玉珍.web數(shù)據(jù)挖掘分析與探索[J].計算機(jī)發(fā)展與應(yīng)用,2009(6):73-76.

[3]范亞芹,劉穎.web數(shù)據(jù)挖掘的原理與實現(xiàn)技術(shù)[J].吉林大學(xué)學(xué)報,2006(8):370-373.

[4]高月,梁本亮.淺談網(wǎng)絡(luò)信息挖掘[J].通信電源技術(shù),2005(2):30-33.

第9篇

1、數(shù)據(jù)挖掘技術(shù)的應(yīng)用及特點

數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲以及測量技術(shù)的迅猛發(fā)展過程中,人們可以進(jìn)行信息的大量測量并進(jìn)行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術(shù)進(jìn)行直觀的表達(dá)和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對目前大數(shù)據(jù)時代的一種應(yīng)急手段,使得有關(guān)計算機(jī)數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機(jī)器學(xué)習(xí)的概念中而產(chǎn)生的,在對機(jī)器的學(xué)習(xí)過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機(jī)械的操作辦法。而沒有指導(dǎo)性學(xué)習(xí)的辦法一般不從這些環(huán)境得出反饋,而是通過沒有干預(yù)的情況下進(jìn)行歸納和學(xué)習(xí),并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習(xí)的一種方式,這種從例子中進(jìn)行歸納學(xué)習(xí)的方式是介于上述無指導(dǎo)性學(xué)習(xí)以及較少使用歸納學(xué)習(xí)這兩種方式之間的一種方式。因此,可以說,數(shù)據(jù)挖掘技術(shù)的特征在出自于機(jī)器學(xué)習(xí)的背景下,與其相比機(jī)器主要關(guān)心的是如何才能有效提高機(jī)器的學(xué)習(xí)能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價值的信息。其第二個特征是,與機(jī)器學(xué)習(xí)特點相比較而言,機(jī)器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對象則是現(xiàn)實中海量規(guī)模的數(shù)據(jù)庫,其作用主要是用來處理一些異常現(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項,甚至是一些不同類型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來進(jìn)行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運(yùn)用啟發(fā)式的歸納學(xué)習(xí)進(jìn)行理論以及假設(shè)來處理的。

2、數(shù)據(jù)挖掘技術(shù)主要步驟

數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉庫,要根據(jù)實際情況而定,在易出現(xiàn)問題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫。主要是用來把數(shù)據(jù)庫中的所有的存儲數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫雖然可以進(jìn)行大量的存儲數(shù)據(jù),同時也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對手工方式進(jìn)行數(shù)據(jù)測試并建模。其次,在數(shù)據(jù)庫中存儲的數(shù)據(jù)選一數(shù)據(jù)集,作為對數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實的需要,對數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測性的模型、數(shù)據(jù)的摘要等。隨后再決定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗,在處理過程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗時,要注意幾個問題,要充分利用結(jié)論對照其他的信息進(jìn)行校核,可對圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來決定結(jié)論有用的程度。最后一項步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實際,要對數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗,重點是解決好以前的觀點和看法有無差錯,使目前的結(jié)論和原先看法的矛盾有效解除。

3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營銷系統(tǒng)中的應(yīng)用和發(fā)展

數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測性建模方法,也就是對歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對象屬于連續(xù)型的變量,那么此類的推斷問題可屬回歸問題。根據(jù)歷史數(shù)據(jù)來進(jìn)行分析和檢測,再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問題得到解決。電力營銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測出未來情況。把關(guān)聯(lián)規(guī)則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統(tǒng)的應(yīng)用中,時間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測方法。這種方法的應(yīng)用中,對神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實中應(yīng)用主要把時間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對錯誤模型的分析精度達(dá)到一定的精確度。

4、結(jié)語

目前,對數(shù)據(jù)挖掘技術(shù)在整個電力營銷系統(tǒng)中的應(yīng)用還處于較低水平上,其挖掘算法的單一并不能有效地滿足實際決策需要。但是,由于數(shù)據(jù)挖掘技術(shù)對一些潛在的問題預(yù)測能力較強(qiáng),特別是對電力營銷系統(tǒng)中較大規(guī)模的非線性問題,具有較強(qiáng)的處理能力,在未來的發(fā)展中會成為營銷領(lǐng)域中重要的應(yīng)用工具。

作者:許敏 單位:國網(wǎng)福建省電力有限公司電力科學(xué)研究院客戶服務(wù)中心

第10篇

關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);銀行客戶關(guān)系管理系統(tǒng);決策樹

中圖分類號:TP311.13

隨著社會的不斷發(fā)展和進(jìn)步,企業(yè)逐漸轉(zhuǎn)變以往“以產(chǎn)品為導(dǎo)向”的做法,開始注重發(fā)掘客戶資源,通過分析客戶信息和把握客戶需求,提供方便便捷的服務(wù)渠道和售后服務(wù),建立持久的客戶關(guān)系等措施,來加強(qiáng)對客戶關(guān)系的有效管理。客戶關(guān)系管理CRM的概念最早被美國GartnerGroup最早提了出來,目的在于建立一個系統(tǒng),使企業(yè)在客戶服務(wù)、市場競爭、營銷等方面形成一個協(xié)調(diào)的關(guān)系實體,為企業(yè)贏得競爭的優(yōu)勢。

1 銀行客戶關(guān)系管理系統(tǒng)

客戶關(guān)系管理(Customer Relationship Management,簡稱CRM)作為一種改善企業(yè)與客戶關(guān)系的管理模式,主要對業(yè)務(wù)處理流程及服務(wù)環(huán)節(jié)進(jìn)行有效的整合和管理,使企業(yè)以較低的成本獲得較高的收益,最大限度地滿足客戶需求,提高企業(yè)的經(jīng)濟(jì)效益和收益。隨著各領(lǐng)域?qū)蛻絷P(guān)系管理理念認(rèn)同的不斷擴(kuò)大,CRM在銀行領(lǐng)域的實施也逐漸被一些大型銀行列入工作日程。銀行作為客戶密集型行業(yè),日常的業(yè)務(wù)處理中積累了大量的客戶數(shù)據(jù)信息,但是缺乏數(shù)據(jù)管理與分析工具,很難有效地為決策提供幫助,建立CRM系統(tǒng)能夠有效地解決這些問題[1]。

基于數(shù)據(jù)挖掘技術(shù)的CRM系統(tǒng)能幫助銀行準(zhǔn)確地發(fā)現(xiàn)目前具有潛在經(jīng)濟(jì)效益的客戶,幫助銀行開拓符合消費者需求的新產(chǎn)品,為銀行留住原有客戶提供有效的方法和手段。利用數(shù)據(jù)挖掘技術(shù)對客戶數(shù)據(jù)信息進(jìn)行挖掘和分析,能夠充分利用積累的數(shù)據(jù)資源,挖掘出其中的模式和規(guī)則,進(jìn)一步深化和客戶的關(guān)系,發(fā)現(xiàn)潛在的客戶群體,提高競爭能力,降低投資風(fēng)險,提高投資經(jīng)濟(jì)效益。

2 數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取有用的信息和知識,用來指導(dǎo)實際決策的制定。數(shù)據(jù)挖掘通過對數(shù)據(jù)的綜合分析處理過程,發(fā)現(xiàn)潛藏在數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從數(shù)據(jù)信息中推導(dǎo)并揭示出模式與未來趨勢。數(shù)據(jù)挖掘技術(shù)是銀行CRM系統(tǒng)采用的關(guān)鍵技術(shù),通過數(shù)據(jù)挖掘和分析,了解把握客戶的消費偏好和行為模式,有助于決策者商業(yè)策略的制定和參考,使銀行最大限度地獲取利潤[2]。

數(shù)據(jù)挖掘技術(shù)從功能上主要包括分類分析、關(guān)聯(lián)分析、聚類分析等分析技術(shù),廣泛應(yīng)用于客戶分類和預(yù)測等。數(shù)據(jù)挖掘主要有以下功能:(1)分類分析。以訓(xùn)練數(shù)據(jù)集的某一屬性為類別進(jìn)行分類劃分,建立描述數(shù)據(jù)分類的模型,對其它數(shù)據(jù)集進(jìn)行劃分。分類的方法有決策樹分類、貝葉斯分類、遺傳算法分類等,其中決策樹算法是數(shù)據(jù)挖掘分類的一種重要方法;(2)關(guān)聯(lián)分析。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫的數(shù)據(jù)之間中存在的―類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫數(shù)據(jù)中隱藏的關(guān)聯(lián)關(guān)系;(3)聚類分析。聚類是將數(shù)據(jù)庫中的記錄劃分為一系列有意義的子集。

3 數(shù)據(jù)挖掘技術(shù)在銀行CRM系統(tǒng)中的應(yīng)用

近年來,數(shù)據(jù)挖掘作為一種發(fā)現(xiàn)大量數(shù)據(jù)中潛在信息的數(shù)據(jù)分析方法和技術(shù),受到各界的廣泛關(guān)注。數(shù)據(jù)挖掘主要包括決策樹算法、神經(jīng)元網(wǎng)絡(luò)算法、遺傳算法以及關(guān)聯(lián)規(guī)則挖掘方法等。其中,決策樹以其出色的數(shù)據(jù)分析效率高、形象直觀易懂等特點,廣泛應(yīng)用在機(jī)器學(xué)習(xí)、知識發(fā)現(xiàn)等各領(lǐng)域。構(gòu)建決策樹有多種算法,ID3和C4.5算法最具有代表性,都是基于信息熵的決策樹分類算法。ID3算法采用信息熵作為節(jié)點屬性的選擇標(biāo)準(zhǔn),易偏向于具有較多取值的候選屬性。C4.5算法用信息增益率來選擇節(jié)點屬性標(biāo)準(zhǔn),它繼承ID3算法的優(yōu)點的基礎(chǔ)上增加了對連續(xù)屬性的離散化、對未知屬性的處理等功能,C4.5算法在商業(yè)、金融、醫(yī)療等各領(lǐng)域得到了成功的應(yīng)用[3]。

3.1 決策樹C4.5算法描述

決策樹數(shù)據(jù)挖掘算法作為數(shù)據(jù)挖掘分類的一種重要方法,具有數(shù)據(jù)分析準(zhǔn)確率高、穩(wěn)定性好等特點。決策樹生成算法的輸入是一組帶有類別標(biāo)記的實例,構(gòu)造的輸出結(jié)果是一棵二叉或多叉的樹。C4.5算法構(gòu)造決策樹的過程:計算數(shù)據(jù)集中每個屬性的信息增益率,選擇最大信息增益率的屬性作為當(dāng)前的屬性節(jié)點,依據(jù)屬性的每一個取值構(gòu)建一個分支,對該子節(jié)點所包含的樣本子集遞歸地執(zhí)行上述過程,直到子集中的數(shù)據(jù)記錄的類別取值都相同,或沒有屬性可劃分,由此構(gòu)造一棵決策樹。通過決策樹提取分類規(guī)則,對從根到葉子節(jié)點的每一條路徑獲取一個規(guī)則,形成規(guī)則集。將規(guī)則集顯示給用戶,把經(jīng)過篩選過的認(rèn)為可行的規(guī)則存入規(guī)則數(shù)據(jù)庫。

3.2 決策樹C4.5算法的應(yīng)用

銀行在信貸業(yè)務(wù)中,積累了大量客戶信息和還貸情況等數(shù)據(jù),在這些客戶數(shù)據(jù)的基礎(chǔ)上運(yùn)用決策樹算法構(gòu)造的簡單決策樹如下。當(dāng)新客戶在銀行進(jìn)行信貸業(yè)務(wù)時,系統(tǒng)運(yùn)用決策樹所得到規(guī)則對新客戶進(jìn)行分析,預(yù)測該客戶的行為屬于哪一等級,從而幫助銀行判斷是否允許該客戶貸款。

4 結(jié)束語

隨著時代的進(jìn)步和發(fā)展,人們觀念的轉(zhuǎn)變以及我國銀行經(jīng)營壟斷的局面逐漸被打破,銀行經(jīng)營觀念開始從傳統(tǒng)的“以產(chǎn)品為中心”向“以客戶為中心”轉(zhuǎn)變。CRM作為一種改善企業(yè)與客戶之間關(guān)系的新型管理機(jī)制,能夠幫助銀行建立完善的客戶服務(wù)體系,優(yōu)化銀行的業(yè)務(wù)流程,為客戶提供高質(zhì)量服務(wù)。在銀行CRM系統(tǒng)中有效利用數(shù)據(jù)挖掘技術(shù),通過對大量的客戶信息進(jìn)行分析,找出各種數(shù)據(jù)之間的關(guān)聯(lián)性,為銀行高層決策者提供準(zhǔn)確的客戶分類、盈利能力及潛在用戶等有用信息,指導(dǎo)他們制定最優(yōu)的銀行營銷策略、降低運(yùn)營成本、增加利潤及加速銀行的發(fā)展[4]。

參考文獻(xiàn):

[1]陳建成.數(shù)據(jù)挖掘技術(shù)在客戶關(guān)系管理系統(tǒng)中的應(yīng)用[J].電腦與電信,2007(02):41-43.

[2]左愛群,杜波.數(shù)據(jù)挖掘在銀行客戶關(guān)系管理系統(tǒng)中的應(yīng)用[J].武漢工業(yè)學(xué)院學(xué)報,2006(25):52-55.

[3]劉耀南.C4.5算法的分析及應(yīng)用[J].東莞理工學(xué)院學(xué)報,2012(19):47-52.

[4]孔德漢.數(shù)據(jù)挖掘技術(shù)在銀行業(yè)客戶關(guān)系管理中的應(yīng)用[J].合作經(jīng)濟(jì)與科技,2010(20):60-62.

作者簡介:杜麗英(1969-),女,吉林長春人,講師,碩士,研究方向:計算機(jī)應(yīng)用。

第11篇

1.1錄入正確的信息

由于數(shù)據(jù)挖掘技術(shù)的運(yùn)算功能較強(qiáng),常規(guī)的數(shù)據(jù)信息系統(tǒng)在實際的運(yùn)算過程中,會消耗掉大量的時間,甚至由于數(shù)據(jù)龐大會對運(yùn)算系統(tǒng)造成一定影響,在數(shù)據(jù)挖掘技術(shù)的作用下,不會出現(xiàn)這種問題,還能節(jié)省運(yùn)算時間。另外,在對數(shù)據(jù)進(jìn)行運(yùn)算的過程中,不會出現(xiàn)數(shù)據(jù)丟失的現(xiàn)象。在大規(guī)模數(shù)據(jù)中,有些數(shù)據(jù)的應(yīng)用價值不大,屬于垃圾數(shù)據(jù),會影響系統(tǒng)的整體效率,利用數(shù)據(jù)挖掘技術(shù),能夠保留精準(zhǔn)的數(shù)據(jù),摒除垃圾數(shù)據(jù),為數(shù)據(jù)質(zhì)量提供相應(yīng)的保證。

1.2縮減數(shù)據(jù)處理時間

利用挖掘數(shù)據(jù)技術(shù)能夠進(jìn)行數(shù)據(jù)的轉(zhuǎn)換,將雜亂的數(shù)據(jù)進(jìn)行整合與處理,轉(zhuǎn)變?yōu)樵囉眯问健倪@些數(shù)據(jù)的角度進(jìn)行分析,能夠進(jìn)行科學(xué)化的調(diào)用,在進(jìn)行數(shù)據(jù)的挖掘過程中,會對于不清楚的數(shù)據(jù)進(jìn)行清理,保證得到數(shù)據(jù)的科學(xué)性。從各個不同的角度,對于數(shù)據(jù)的真實性進(jìn)行考核,并將數(shù)據(jù)進(jìn)行整合。也就是說,將分析的結(jié)果提供給管理人員,合理的運(yùn)用到軟件工程中,進(jìn)而縮減數(shù)據(jù)處理時間。

2數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用路徑

2.1數(shù)據(jù)挖掘技術(shù)在軟件工程中的發(fā)展

首先,由于數(shù)據(jù)挖掘技術(shù)是立足于數(shù)據(jù)庫進(jìn)行發(fā)展的,隨著技術(shù)的不斷發(fā)展與進(jìn)步,已經(jīng)從理論轉(zhuǎn)換為實踐應(yīng)用,并且在實際應(yīng)用中發(fā)揮著重大作用。另外,軟件工程是工程化的學(xué)科,能夠根據(jù)項目任務(wù)的差異、資金及客戶需求進(jìn)行產(chǎn)品的研發(fā)。由于原有的工程軟件開發(fā)較為復(fù)雜,但經(jīng)過發(fā)展迅速壯大,實際的應(yīng)用性較強(qiáng),會更多的被應(yīng)用于項目當(dāng)中,與此同時,利用數(shù)據(jù)挖掘技術(shù)主要就是對軟件工程的數(shù)據(jù)庫信息進(jìn)行挖局,對于軟件工程的可持續(xù)發(fā)展有著重大的意義。

2.2挖掘信息

其次,軟件工程能夠?qū)π畔⒌耐诰蜻M(jìn)行掌控,實際的應(yīng)用范圍較廣,軟件工程能夠?qū)④浖_發(fā)時的信息進(jìn)行統(tǒng)一,進(jìn)而保證在進(jìn)行軟件開發(fā)的過程中,能夠?qū)?shù)據(jù)進(jìn)行及時更新,進(jìn)而從根本上保證開發(fā)的質(zhì)量,保證項目任務(wù)的順利實施。就目前實際情況進(jìn)行分析,在數(shù)據(jù)挖掘中還包含著軟件開發(fā)更改的數(shù)據(jù)信息,能夠更加直觀的看出軟件內(nèi)部的差異,還能夠利用這一特點及時發(fā)現(xiàn)運(yùn)用過程中產(chǎn)生的問題,并結(jié)合實際情況,及時作出有效的解決措施,保證項目目標(biāo)任務(wù)能夠順利完成。

2.3挖掘軟件漏洞

再次,數(shù)據(jù)挖掘技術(shù)中,最重要的一點就是對軟件漏洞進(jìn)行檢測,在實際的運(yùn)用過程中,能夠及時發(fā)現(xiàn)軟件開發(fā)中產(chǎn)生的錯誤,并進(jìn)行修整與優(yōu)化,及時找到處理的方法,在一定程度上保證軟件工程的安全等級與質(zhì)量。另外,在利用數(shù)據(jù)挖掘技術(shù)對漏洞進(jìn)行檢測的過程中,相關(guān)的技術(shù)人員要明確檢測的內(nèi)容,還要立足于客戶基本需求,進(jìn)一步找到相對應(yīng)的測試內(nèi)容,利用合理的方式對軟件進(jìn)行測試,進(jìn)而得到各方面都完美的方案。與此同時,由軟件工程對數(shù)據(jù)信息進(jìn)行處理,在找到漏洞信息后,對多余的信息進(jìn)行及時處理,進(jìn)而從根本上保證數(shù)據(jù)信息的科學(xué)性與完整性。在實際的運(yùn)用過程中,相關(guān)的工作人員要根據(jù)科學(xué)化的方案,合理的將數(shù)據(jù)挖掘技術(shù)運(yùn)用到軟件工程中,利用合理化的方式對于軟件工程中的漏洞問題進(jìn)行分析,及時找出錯誤根源,使操作者能夠更加容易進(jìn)進(jìn)行漏洞的挖掘與修復(fù)工作。就目前實際情況進(jìn)行分析,數(shù)據(jù)庫挖掘技術(shù)主要就是將數(shù)據(jù)信息進(jìn)行轉(zhuǎn)化,并進(jìn)行整合存到信息庫中,再由相關(guān)的工作人員結(jié)合實際需求,對于軟件進(jìn)行測試,查看是否存在漏洞,利用這種方式保證后續(xù)工作的順利開展,促進(jìn)軟件工程的健康發(fā)展。

2.4挖掘軟件執(zhí)行記錄

在數(shù)據(jù)挖掘技術(shù)的應(yīng)用過程中,軟件執(zhí)行記錄尤為重要,在進(jìn)行數(shù)據(jù)挖掘的過程中,相關(guān)的技術(shù)工作人員要對數(shù)量進(jìn)行合理分析,對于不同代碼之間的關(guān)系進(jìn)行探究。使相關(guān)的工作人員能夠利用軟件系統(tǒng)的行蹤進(jìn)行管理與探究,進(jìn)而在一定程度上促進(jìn)軟件工程的穩(wěn)步發(fā)展。

2.5挖掘開源軟件代碼

最后,對于開源軟件代碼進(jìn)行挖掘,能夠?qū)⑵湟?guī)劃到軟件工程中挖掘技術(shù)要運(yùn)用的對象挖掘類型房中,由于開源軟件代碼技術(shù)通常都被應(yīng)用到代碼克隆的檢測過程中,能夠更加簡單的對于代碼漏洞進(jìn)行處理,通過這種方式在一定程度上提高了工作的高效性。

3結(jié)束語

綜上所述,在軟件工程項目中,合理化的運(yùn)營數(shù)據(jù)挖掘技術(shù),能夠有效促進(jìn)軟件工程的發(fā)展,結(jié)合實際應(yīng)用狀況進(jìn)行分析,可以了解到數(shù)據(jù)挖局技術(shù)的發(fā)展空間廣闊,相關(guān)的技術(shù)人員要認(rèn)識到其重要程度,并進(jìn)行不斷改進(jìn),將內(nèi)在的理論與外在價值進(jìn)行充分挖掘。通過這種方式從根本上強(qiáng)化專業(yè)素質(zhì),將數(shù)據(jù)挖掘技術(shù)的作用發(fā)揮到最大化,促進(jìn)軟件工程的健康長遠(yuǎn)發(fā)展。

參考文獻(xiàn)

[1]龍艷.分析數(shù)據(jù)挖掘技術(shù)在軟件工程中的應(yīng)用[J].科技風(fēng),2019(02):83.

第12篇

[關(guān)鍵詞]電子商務(wù);數(shù)據(jù)挖掘;路徑分析

隨著Internet的普及,電子商務(wù)的興起,人們的商務(wù)理念正在改變,電子商務(wù)的廣泛應(yīng)用使企業(yè)產(chǎn)生了大量的業(yè)務(wù)數(shù)據(jù),如何更快、更好地利用各種有效的數(shù)據(jù)更好地開展電子商務(wù),這是目前電子商務(wù)急需解決的問題。

一、數(shù)據(jù)挖掘技術(shù)

20世紀(jì)90年代以來,隨著信息技術(shù)和數(shù)據(jù)庫技術(shù)的迅猛發(fā)展,人們可以非常方便地獲取和存儲大量的數(shù)據(jù)。面對大規(guī)模的海量的數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)分析工具(如管理信息系統(tǒng))只能進(jìn)行一些表層的處理(如查詢、統(tǒng)計等),而不能獲得數(shù)據(jù)之間的內(nèi)在關(guān)系和隱含的信息。為了擺脫“數(shù)據(jù)豐富,知識貧乏”的困境,人們迫切需要一種能夠智能地自動地把數(shù)據(jù)轉(zhuǎn)換成有用信息和知識的技術(shù)和工具,這種對強(qiáng)有力數(shù)據(jù)分析工具的迫切需求使得數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。人們認(rèn)識到數(shù)據(jù)庫中存儲的數(shù)據(jù)量急劇增大,在大量的數(shù)據(jù)背后隱藏著許多重要的信息,如果能把這些信息從數(shù)據(jù)庫中抽取出來,將為公司創(chuàng)造很多潛在的利潤。這種從海量數(shù)據(jù)庫中挖掘信息的技術(shù),就稱之為數(shù)據(jù)挖掘。數(shù)據(jù)挖掘一般有以下四類主要任務(wù):

(一)數(shù)據(jù)總結(jié)

數(shù)據(jù)挖掘能夠?qū)?shù)據(jù)庫中的有關(guān)數(shù)據(jù)從較低的個體層次抽象總結(jié)到較高的總體層次上,從而實現(xiàn)對原始基本數(shù)據(jù)的總體把握。

(二)分類

分析數(shù)據(jù)的各種屬性,并找出數(shù)據(jù)的屬性模型,確定哪些數(shù)據(jù)屬于哪些組。這樣我們就可以利用該模型來分析已有數(shù)據(jù),并預(yù)測新數(shù)據(jù)將屬于哪一個組。

(三)關(guān)聯(lián)分析

數(shù)據(jù)庫中的數(shù)據(jù)一般都存在著關(guān)聯(lián)關(guān)系,也就是說,兩個或多個變量的取值之間存在某種規(guī)律性。通過挖掘數(shù)據(jù)派生關(guān)聯(lián)規(guī)則,可以了解客戶的行為。

(四)聚類

聚類分析是按照某種相近程度度量方法,將用戶數(shù)據(jù)分成一系列有意義的子集合。每一個集合中的數(shù)據(jù)性質(zhì)相近,不同集合之間的數(shù)據(jù)性質(zhì)相差較大。

數(shù)據(jù)挖掘的特點和性質(zhì)對于企業(yè)而言,有助于發(fā)現(xiàn)其企業(yè)業(yè)務(wù)發(fā)展的趨勢,揭示已知的事實,預(yù)測未知的結(jié)果,并幫助企業(yè)分析出完成任務(wù)所需的關(guān)鍵因素,以達(dá)到增加收入,降低成本,使企業(yè)處于更有利的競爭位置的目的。

二、數(shù)據(jù)挖掘在電子商務(wù)中的作用

數(shù)據(jù)挖掘技術(shù)源于商業(yè)的直接需求,因此它在各種商業(yè)領(lǐng)域都存在廣泛的使用價值。電子商務(wù)是商業(yè)領(lǐng)域的一種新興商務(wù)模式,是指利用電子信息技術(shù)開展一切商務(wù)活動。當(dāng)電子商務(wù)在企業(yè)中得到應(yīng)用時,企業(yè)信息系統(tǒng)將產(chǎn)生大量數(shù)據(jù),這些海量數(shù)據(jù)使數(shù)據(jù)挖掘有了豐富的數(shù)據(jù)基礎(chǔ),同時高性能計算機(jī)和高傳輸速率網(wǎng)絡(luò)的使用也給數(shù)據(jù)挖掘技術(shù)提供了堅實的保障。因此數(shù)據(jù)挖掘技術(shù)在電子商務(wù)活動中有了更大的用武之地。下面介紹數(shù)據(jù)挖掘在以下電子商務(wù)幾個方面的作用:

(一)客戶細(xì)分

隨著“以客戶為中心”的經(jīng)營理念的不斷深入人心,分析客戶、了解客戶并引導(dǎo)客戶的需求已成為企業(yè)經(jīng)營的重要課題。通過對電子商務(wù)系統(tǒng)收集的交易數(shù)據(jù)進(jìn)行分析,可以按各種客戶指標(biāo)(如自然屬性、收入貢獻(xiàn)、交易額、價值度等)對客戶分類,然后確定不同類型客戶的行為模式,以便采取相應(yīng)的營銷措施,促使企業(yè)利潤的最大化。

(二)客戶獲得

利用數(shù)據(jù)挖掘可以有效地獲得客戶。比如通過數(shù)據(jù)挖掘可以發(fā)現(xiàn)購買某種商品的消費者是男性還是女性,學(xué)歷、收入如何,有什么愛好,是什么職業(yè)等等。甚至可以發(fā)現(xiàn)不同的人在購買該種商品的相關(guān)商品后多長時間有可能購買該種商品,以及什么樣的人會購買什么型號的該種商品等等。也許很多因素表面上看起來和購買該種商品不存在任何聯(lián)系,但數(shù)據(jù)挖掘的結(jié)果卻證明它們之間有聯(lián)系。在采用了數(shù)據(jù)挖掘后,針對目標(biāo)客戶發(fā)送的廣告的有效性和回應(yīng)率將得到大幅度的提高,推銷的成本將大大降低。

(三)客戶保持

數(shù)據(jù)挖掘可以把你大量的客戶分成不同的類,在每個類里的客戶擁有相似的屬性,而不同類里的客戶的屬性也不同。你完全可以做到給不同類的客戶提供完全不同的服務(wù)來提高客戶的滿意度。數(shù)據(jù)挖掘還可以發(fā)現(xiàn)具有哪些特征的客戶有可能流失,這樣挽留客戶的措施將具有針對性,挽留客戶的費用將下降。

(四)交叉銷售

交叉銷售可以使企業(yè)比較容易地得到關(guān)于客戶的豐富的信息,而這些大量的數(shù)據(jù)對于數(shù)據(jù)挖掘的準(zhǔn)確性來說是有很大幫助的。在企業(yè)所掌握的客戶信息,尤其是以前購買行為的信息中,可能正包含著這個客戶決定他下一個購買行為的關(guān)鍵,甚至決定因素。這個時候數(shù)據(jù)挖掘的作用就會體現(xiàn)出來,它可以幫助企業(yè)尋找到這些影響他購買行為的因素。

(五)個

當(dāng)客戶在電子商務(wù)網(wǎng)站注冊時,客戶將會看到帶有客戶姓名的歡迎詞。根據(jù)客戶的訂單紀(jì)錄,系統(tǒng)可以向客戶顯示那些可能引起客戶特殊興趣的新商品。當(dāng)客戶注意到一件特殊的商品時,系統(tǒng)會建議一些在購買中可以增加的其他商品。普通的產(chǎn)品目錄手冊常常簡單地按類型對商品進(jìn)行分組,以簡化客戶挑選商品的步驟。然而對于在線商店,商品分組可能是完全不同的,它常常以針對客戶的商品補(bǔ)充條目為基礎(chǔ)。不僅考慮客戶看到的條目,而且還考慮客戶購物籃中的商品。使用數(shù)據(jù)挖掘技術(shù)可以使推薦更加個性化。

(六)資源優(yōu)化

節(jié)約成本是企業(yè)盈利的關(guān)鍵。通過分析歷史的財務(wù)數(shù)據(jù)、庫存數(shù)據(jù)和交易數(shù)據(jù),可以發(fā)現(xiàn)企業(yè)資源消耗的關(guān)鍵點和主要活動的投入產(chǎn)出比例,從而為企業(yè)資源優(yōu)化配置提供決策依據(jù),例如降低庫存、提高庫存周轉(zhuǎn)率、提高資金使用率等。

(七)異常事件的確定

在許多商業(yè)領(lǐng)域中,異常事件具有顯著的商業(yè)價值,如客戶流失、銀行的信用卡欺詐、電信中移動話費拖欠等。通過數(shù)據(jù)挖掘中的奇異點分析可以迅速準(zhǔn)確地甄別這些異常事件。

由此可見數(shù)據(jù)挖掘在電子商務(wù)中有著重要的作用。在生活中采用數(shù)據(jù)挖掘的成功的例子很多。例如總部位于美國阿肯色州的WalMart零售商的“尿布與啤酒”的故事。WalMart擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng),它利用數(shù)據(jù)挖掘工具對數(shù)據(jù)倉庫中的原始交易數(shù)據(jù)進(jìn)行分析,得到了一個意外發(fā)現(xiàn):跟尿布一起購買最多的商品竟然是啤酒。如果不是借助于數(shù)據(jù)倉庫和數(shù)據(jù)挖掘,商家決不可能發(fā)現(xiàn)這個隱藏在背后的事實:在美國,一些年輕的父親下班后經(jīng)常要到超市去買嬰兒尿布,而他們中有30%~40%的人同時也為自己買一些啤酒。有了這個發(fā)現(xiàn)后,超市調(diào)整了貨架的擺放,把尿布和啤酒放在一起,明顯增加了銷售額。

三、電子商務(wù)中如何應(yīng)用數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘在電子商務(wù)中有廣泛的應(yīng)用。那么在電子商務(wù)中是如何應(yīng)用數(shù)據(jù)挖掘技術(shù)的?

首先,從挖掘過程說,對在線訪問客戶數(shù)據(jù)的挖掘主要有兩部分:一部分是客戶訪問信息的挖掘,另一部分是客戶登記信息的挖掘。面對大量的訪問日志,首先要做的就是對數(shù)據(jù)進(jìn)行清洗,即預(yù)處理,把無關(guān)的數(shù)據(jù),不重要的數(shù)據(jù)等處理掉;接著對數(shù)據(jù)進(jìn)行事務(wù)識別,通過對事務(wù)進(jìn)行劃分后,就可以根據(jù)具體的分析需求選擇模式發(fā)現(xiàn)的技術(shù),如路徑分析、興趣關(guān)聯(lián)規(guī)則、聚類等。通過模式分析,找到有用的信息,再通過聯(lián)機(jī)分析(OLAP)的驗證,結(jié)合客戶登記信息,找出有價值的市場信息,或發(fā)現(xiàn)潛在的市場。

其次,挖掘方法主要有以下幾種:

1.路徑分析

路徑分析是一種找尋頻繁訪問路徑的方法,它通過對Web服務(wù)器的日志文件中客戶訪問站點的訪問次數(shù)分析,挖掘出頻繁訪問路徑。例如:一客戶從某一站點訪問到某一感興趣的頁面后就會經(jīng)常訪問該頁面,通過路徑分析確定頻繁訪問路徑,可以了解客戶對哪些頁面感興趣,(下轉(zhuǎn)第78頁)(上接第80頁)從而更好地改進(jìn)設(shè)計,為客戶服務(wù)。

2.興趣關(guān)聯(lián)規(guī)則

當(dāng)客戶訪問某一網(wǎng)頁時,一般會通過興趣詞條找出相關(guān)的興趣網(wǎng)頁通過鏈接繼續(xù)訪問,這種關(guān)聯(lián)產(chǎn)生的數(shù)據(jù)如果能夠按照某種策略進(jìn)行挖掘分析,統(tǒng)計出客戶訪問某些頁面及興趣關(guān)聯(lián)頁面的比率,就可以很好地組織站點,實施有效的市場策略。

3.聚類分析

聚類分析是電子商務(wù)中很重要的一個方面,通過分組聚類出具有相似瀏覽行為的客戶,并分析客戶的共同特征,更好地幫助電子商務(wù)的用戶了解自己的客戶,向客戶提供更合適的服務(wù)。如通過對眾多的瀏覽“camera”網(wǎng)頁的客戶分析,發(fā)現(xiàn)在該網(wǎng)頁上經(jīng)常花一段時間瀏覽的客戶,再通過對這部分客戶的登記資料分析,知道這些客戶是潛在要買相機(jī)的客戶群體。就可以調(diào)整“camera”網(wǎng)頁的內(nèi)容和風(fēng)格,以適應(yīng)客戶的需要。

通過以上幾種數(shù)據(jù)分析的方法可以有效地對電子商務(wù)中的信息進(jìn)行分析,從而更有效地開展電子商務(wù)。

目前,數(shù)據(jù)挖掘技術(shù)正以前所未有的速度發(fā)展,并且擴(kuò)大著用戶群體,在未來越來越激烈的市場競爭中,擁有數(shù)據(jù)挖掘技術(shù)必將比別人獲得更快速的反應(yīng),贏得更多的商業(yè)機(jī)會。現(xiàn)在世界上的主要數(shù)據(jù)庫廠商紛紛開始把數(shù)據(jù)挖掘功能集成到自己的產(chǎn)品中,加快數(shù)據(jù)挖掘技術(shù)的發(fā)展。我國在這一領(lǐng)域正處在研究開發(fā)階段,加快研究數(shù)據(jù)挖掘技術(shù),并把它應(yīng)用于電子商務(wù)中,應(yīng)用到更多行業(yè)中,勢必會有更好的商業(yè)機(jī)會和更光明的前景。

[參考文獻(xiàn)]

主站蜘蛛池模板: 综合在线一区| 成年人性生活免费看| 亚洲国产精品国自产拍av| 国产69精品久久99不卡解锁版| 97欧美精品| 国产vsv精品一区二区62| 欧美午夜羞羞羞免费视频app | 欧美日韩卡一卡二| 国产精品18久久久久白浆| 伊人欧美一区| 国产精品一二三区视频网站| 国产视频一区二区视频| 亚洲精品久久久久久久久久久久久久| 日韩欧美一区精品| 91精品啪在线观看国产手机| 国产精品久久久久久久久久不蜜月| 久久久精品观看| 精品无码久久久久国产| 久久精品国语| 国产欧美一区二区精品久久久| 精品国产一区二区三区高潮视| 日本一区二区高清| 日韩免费一级视频| 国产欧美精品久久| 久久夜色精品亚洲噜噜国产mv| 正在播放国产一区二区| 国产91综合一区在线观看| a级片一区| 日韩电影在线一区二区三区| 欧美日韩中文不卡| 国产精品亚发布| 欧美在线视频二区| 国产在线干| 国产一区免费在线观看| 国产视频精品久久| 91精品一二区| 国产一区日韩在线| 国产在线卡一卡二| 欧美在线视频精品| 国产一区不卡视频| 国产日产欧美一区| 日本一区二区免费电影| 6080日韩午夜伦伦午夜伦| 精品一区二区超碰久久久| 美国三级日本三级久久99| 国产精品96久久久久久久| 91香蕉一区二区三区在线观看| 欧美极品少妇xxxxⅹ| 大bbw大bbw巨大bbw看看| 国产第一区在线观看| 国产一二区精品| 欧美3p激情一区二区三区猛视频 | 欧美日韩激情在线| 猛男大粗猛爽h男人味| 欧美性受xxxx狂喷水| 色一情一乱一乱一区免费网站| 欧美极品少妇xxxxⅹ| 日韩中文字幕在线一区| 99视频一区| 久久久久亚洲精品| 搡少妇在线视频中文字幕| 国产欧美一区二区精品性| 国产一区二区在线观看免费| 香港三日三级少妇三级99| 国产激情视频一区二区| 国产精品视频久久久久久久| 国产一区二区免费电影| 久久精品国产亚洲7777| 91精品啪在线观看国产手机 | 国产特级淫片免费看| 国产一区二区三区伦理| 精品久久久久久久久亚洲| 久精品国产| 午夜黄色一级电影| 午夜伦情电午夜伦情电影| 国产亚洲欧美日韩电影网| 日韩av在线播| 免费久久99精品国产婷婷六月| 国产乱一乱二乱三| 97国产精品久久| 国产999久久久| 欧美一区久久|