99精品在线视频观看,久久久久久久久久久爱,揉胸吃奶动态图,高清日韩一区二区,主人~别揉了~屁股~啊~嗯,亚洲黄色在线观看视频,欧美亚洲视频在线观看,国产黄色在线
0
首頁 精品范文 數(shù)據(jù)挖掘論文

數(shù)據(jù)挖掘論文

時(shí)間:2022-08-16 10:32:01

開篇:寫作不僅是一種記錄,更是一種創(chuàng)造,它讓我們能夠捕捉那些稍縱即逝的靈感,將它們永久地定格在紙上。下面是小編精心整理的12篇數(shù)據(jù)挖掘論文,希望這些內(nèi)容能成為您創(chuàng)作過程中的良師益友,陪伴您不斷探索和進(jìn)步。

數(shù)據(jù)挖掘論文

第1篇

數(shù)據(jù)挖掘技術(shù)是延伸和擴(kuò)展了傳統(tǒng)分析方法,可以發(fā)現(xiàn)傳統(tǒng)分析方法不能發(fā)現(xiàn)的內(nèi)容和規(guī)律,并且它將人們從單調(diào)、枯燥的閱讀專利文獻(xiàn)的工作中解放出來,使用計(jì)算機(jī)代替了人類勞動(dòng),這樣不僅提高了效率,而且提升了準(zhǔn)確度。因此,數(shù)據(jù)挖掘作為一個(gè)專利分析的強(qiáng)有力工具被引入到專利分析中來,并且得到快速的發(fā)展應(yīng)用。專利數(shù)據(jù)挖掘流程應(yīng)考慮的問題:一是用數(shù)據(jù)挖掘解決什么樣的問題;二是為進(jìn)行數(shù)據(jù)挖掘所做的數(shù)據(jù)準(zhǔn)備;三是數(shù)據(jù)挖掘的各種分析算法。故專利數(shù)據(jù)挖掘的一般過程通常按照以下步驟來完成:領(lǐng)會(huì)數(shù)據(jù)挖掘的目的,獲取分析所用的數(shù)據(jù)集合,探索、清理和預(yù)處理數(shù)據(jù),選擇要使用的數(shù)據(jù)挖掘技術(shù),使用算法解決問題,解釋算法的結(jié)果。而其一般流程可簡(jiǎn)化為三個(gè)階段:數(shù)據(jù)準(zhǔn)備數(shù)據(jù)挖掘結(jié)果解釋和評(píng)價(jià)。本文采用簡(jiǎn)化的流程進(jìn)行實(shí)證分析。

二、石家莊地區(qū)制藥企業(yè)專利數(shù)據(jù)挖掘

本文對(duì)石家莊地區(qū)制藥企業(yè)的專利數(shù)據(jù)進(jìn)行挖掘分析,挖掘?qū)ο笫侨A北制藥集團(tuán)公司、石家莊制藥集團(tuán)有限公司、石家莊神威藥業(yè)股份有限公司、石家莊四藥股份、河北以嶺藥業(yè)股份有限公司、石家莊市華曙制藥集團(tuán)、河北醫(yī)科大學(xué)制藥廠、河北圣雪大成制藥有限責(zé)任公司等地址在石家莊且具有一定代表性的藥企,希望通過這些藥企數(shù)據(jù)能夠找到石家莊地區(qū)制藥領(lǐng)域的核心組成,并能為藥企更好地發(fā)展提供有力的信息支持。IPC號(hào)是目前權(quán)威的專利技術(shù)主題的標(biāo)識(shí)編碼之一,基本包含了各行各業(yè)的專利信息,是一個(gè)龐大的專利信息體系。目前國(guó)內(nèi)外很多分析方法及技術(shù)大部分是基于專利的IPC分類號(hào)來分析專利技術(shù)主題的,此分析方法有一定的參考價(jià)值和科學(xué)性,而且對(duì)于具有大量專利信息的分析具有很好的總結(jié)概括效果。本文以專利全部IPC號(hào)為分析對(duì)象,并且構(gòu)建IPC號(hào)之間的關(guān)聯(lián)規(guī)則,在最大程度上揭示隱含的專利技術(shù)關(guān)聯(lián)性,從而為石家莊地區(qū)制藥企業(yè)專利技術(shù)的發(fā)展提供參考。

1.數(shù)據(jù)準(zhǔn)備。數(shù)據(jù)來源的準(zhǔn)確與否是數(shù)據(jù)分析與挖掘的基礎(chǔ),是數(shù)據(jù)分析與挖掘的根本。本文所使用的石家莊地區(qū)制藥領(lǐng)域?qū)@麛?shù)據(jù)由萬方數(shù)據(jù)公司提供,以制藥企業(yè)地址為石家莊為檢索條件,搜索出了包括從1985—2014年間石家莊地區(qū)制藥領(lǐng)域?qū)@?44條,分別分布在A、B、C、D、E、F、G、H八個(gè)大部。對(duì)專利數(shù)據(jù)庫(kù)中的644條專利進(jìn)行篩選,根據(jù)“分類號(hào)”字段限制,它涉及專利信息的分類,有些IPC所涉及的范圍與石家莊地區(qū)制藥領(lǐng)域沒有聯(lián)系或聯(lián)系很小,不宜保留。根據(jù)“申請(qǐng)人(專利權(quán)人)”字段的限制,剔除與石家莊地區(qū)制藥不相關(guān)或制藥企業(yè)地址不在石家莊地區(qū)的專利。最后篩選出590條最符合該領(lǐng)域特點(diǎn)的專利。由于IPC號(hào)在幾乎所有現(xiàn)存數(shù)據(jù)庫(kù)中均是以一個(gè)字段存儲(chǔ)一個(gè)專利的所有IPC分類號(hào)的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每個(gè)專利一般都有好幾個(gè)分類號(hào),而每個(gè)企業(yè)又研究大量的專利,所以在進(jìn)行專利分析之前,需要對(duì)專利IPC號(hào)進(jìn)行數(shù)據(jù)整理。由于過于細(xì)致的IPC分類號(hào)并不利于專利主題的分析與揭示,所以本文中采用專利小類分析,就是取IPC號(hào)的前4位。并將申請(qǐng)人與其對(duì)應(yīng)的多條IPC號(hào)進(jìn)行拆分,拆分后的數(shù)據(jù)項(xiàng)有773條,即顯示每個(gè)申請(qǐng)人對(duì)應(yīng)的一條IPC分類號(hào)。

2.數(shù)據(jù)挖掘。本文數(shù)據(jù)挖掘過程將采用Excel和SQLsever2005軟件,首先對(duì)所得到的數(shù)據(jù)導(dǎo)入SQLserver2005進(jìn)行挖掘,利用SQLserver2005可以直接進(jìn)行IPC號(hào)的關(guān)聯(lián)規(guī)則挖掘,然后對(duì)專利信息進(jìn)行分析。

3.數(shù)據(jù)挖掘結(jié)果與分析。基于關(guān)聯(lián)規(guī)則制作依賴關(guān)系網(wǎng)絡(luò)圖,可以更加直觀地看到各個(gè)IPC號(hào)之間的關(guān)聯(lián)和依賴狀態(tài)。

(1)以A61K、C12N、C12P、C07D、C07C為中心的核心專利技術(shù)群。這些專利的IPC分類號(hào)是關(guān)鍵部分藥物組成的各種化合物即藥物主要成分的重要聚集組。A61K(醫(yī)用、牙科用等的配置品)是項(xiàng)集次數(shù)最多的,即支持度較高的,C12P(發(fā)酵或使用酶的方法合成目標(biāo)化合物或組合物或從外消旋混合物中分離旋光異構(gòu)體)、C12N(微生物或酶;其組合物)、C07D(雜環(huán)環(huán)合物,例如鄰氯芐星青霉素的合成)、C07C(無環(huán)和碳環(huán)化合物)通過專利相關(guān)知識(shí)我們已經(jīng)知道這些都是藥物的合成成分,即土霉素、鏈霉素、青霉素等多種抗生素和維生素的主要成分組成,是制藥領(lǐng)域的核心。這也是和石家莊地區(qū)制藥企業(yè)的核心領(lǐng)域相符合的。另外這些專利主題的相互關(guān)聯(lián)、依賴說明了石家莊地區(qū)制藥企業(yè)在該領(lǐng)域具有很好的布局網(wǎng)絡(luò),在研發(fā)數(shù)量上也占有一定優(yōu)勢(shì),所以說是石家莊地區(qū)制藥企業(yè)的主要研究領(lǐng)域。

(2)以B65G、C12M為中心的輔助設(shè)備專利技術(shù)群。藥品的生產(chǎn)離不開設(shè)備的支持,所以設(shè)備方面的專利也能體現(xiàn)制藥企業(yè)的技術(shù)水平。在圖1中也能體現(xiàn)出來,專利間有著很強(qiáng)的依賴性和關(guān)聯(lián)性,在核心專利周邊有B65G(運(yùn)輸或貯存裝置,例如裝載或傾斜用輸送機(jī)、車間輸送機(jī)系統(tǒng)、氣動(dòng)管道輸送機(jī))、C12M(酶學(xué)或微生物學(xué)裝置),這些是制藥的輔助技術(shù)手段,與中心專利是相互聯(lián)系的,也是制藥過程中必不可少的,在這些方面的提高有利于制藥核心領(lǐng)域的發(fā)展。先進(jìn)藥品的研制離不開先進(jìn)制藥設(shè)備支持,所以設(shè)備水平的提高也是關(guān)鍵的。如圖3所示,石家莊地區(qū)制藥企業(yè)在這一方面的技術(shù)依賴網(wǎng)絡(luò)也已經(jīng)形成,說明在此技術(shù)領(lǐng)域也已經(jīng)擁有較強(qiáng)實(shí)力。但與中心主要專利相比,輔助設(shè)備專利技術(shù)還是需要不斷提高的。

三、總結(jié)

第2篇

1.1數(shù)據(jù)挖掘技術(shù)

關(guān)聯(lián)分析即找出兩個(gè)或以上變量之間同時(shí)出現(xiàn)的規(guī)律、因果結(jié)構(gòu),即通過其他事物可對(duì)某個(gè)與之相關(guān)的事物做出預(yù)測(cè)。數(shù)據(jù)挖掘關(guān)聯(lián)分析的主要作用就是分析海量數(shù)據(jù)中潛在的關(guān)聯(lián)規(guī)則,對(duì)于高校圖書館個(gè)性化服務(wù)而言,即從圖書館數(shù)據(jù)庫(kù)中發(fā)現(xiàn)相關(guān)的關(guān)聯(lián)規(guī)則,針對(duì)用戶的信息需求做出準(zhǔn)確預(yù)測(cè),提高信息推送的針對(duì)性,便于用戶獲取所需的信息。聚類即將數(shù)據(jù)庫(kù)中的一組個(gè)體按照相似性歸結(jié)為若干類型,應(yīng)用于圖書館系統(tǒng)中,就是將相似的文獻(xiàn)集中在一起,用戶在搜索相關(guān)文獻(xiàn)時(shí)可以查閱更多其他相關(guān)內(nèi)容,便于其總結(jié)、歸納;在個(gè)性化服務(wù)中還可以通過聚類匯總用戶所需的特定信息。分類與聚類相似,是按照分析對(duì)象的屬性建立類組,用戶查閱資料的過程中,每種信息的重要程度有所不同,通過分類可以將用戶所需求的知識(shí)分為高度需求、中度需求及低度需求。在高校圖書館個(gè)性化服務(wù)中要對(duì)用戶的使用規(guī)律做出預(yù)測(cè),即根據(jù)用戶歷史查閱記錄對(duì)用戶所需的文獻(xiàn)種類、特征等做出預(yù)測(cè)。時(shí)序模式主要是通過時(shí)間段對(duì)用戶的訪問記錄、檢索過程做出標(biāo)志,再通過時(shí)間序列將重復(fù)率較高的內(nèi)容挖掘出來,以預(yù)測(cè)其下個(gè)信息需求,提高用戶查閱資料的便利性。

1.2圖書館中應(yīng)用數(shù)據(jù)挖掘的必要性與可行性分析

圖書館應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要性體現(xiàn)在以下幾個(gè)方面:首先,信息化需求。用戶的借閱記錄、檢索記錄均存儲(chǔ)于圖書館數(shù)據(jù)庫(kù)中,需要利用數(shù)據(jù)挖掘技術(shù)將這些海量數(shù)據(jù)轉(zhuǎn)換為有用的知識(shí)信息,以便于館員做出決策。其次,圖書館的管理需求。傳統(tǒng)圖書館系統(tǒng)僅能為用戶提供簡(jiǎn)單的訪問、檢索等功能,這些功能無法滿足圖書館個(gè)性化的技術(shù)要求,因此要利用數(shù)據(jù)挖掘技術(shù)將用戶借閱數(shù)據(jù)中隱含的關(guān)聯(lián)性發(fā)掘出來,從中發(fā)現(xiàn)有用的知識(shí)信息。最后,用戶服務(wù)的需求。數(shù)字化圖書館的發(fā)展越來越迅速,用戶通過圖書館獲得的資源也越來越豐富,如何從海量的信息資源中發(fā)掘出對(duì)用戶有用的知識(shí)信息,僅依靠傳統(tǒng)的圖書館管理系統(tǒng)無法解決這一問題,因此要利用數(shù)據(jù)挖掘技術(shù)對(duì)用戶的借閱記錄進(jìn)行分析,從中獲得更多有價(jià)值的信息,以提高圖書館的服務(wù)質(zhì)量及館藏利用率。而在圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)也是可行的,一方面很多圖書館已具備比較好的物質(zhì)條件及人才條件,這些均是圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)的必要條件,而且政府在經(jīng)濟(jì)方面、政策方面也為數(shù)據(jù)挖掘的應(yīng)用提供了更多保障;另一方面,近年來數(shù)據(jù)挖掘技術(shù)也有了長(zhǎng)足的發(fā)展,其足以為圖書館的個(gè)性化服務(wù)提供必要的技術(shù)支持。圖書館數(shù)字化發(fā)展過程中需要采集、購(gòu)置更多的數(shù)據(jù)資源,而利用數(shù)據(jù)挖掘技術(shù)可以為圖書館資源建設(shè)提供指導(dǎo)作用,挖掘圖書館的歷史借閱記錄,可進(jìn)一步了解用戶的借閱習(xí)慣、閱讀興趣及信息需求,并且可以對(duì)不同圖書之間的關(guān)聯(lián)性進(jìn)行深入分析,圖書館員根據(jù)這些信息記錄、分析結(jié)果等提供指導(dǎo),可以提高圖書資源分配的合理性,對(duì)館藏布局進(jìn)行優(yōu)化。由此可見,數(shù)字化圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù)十分必要。

2圖書館個(gè)性化服務(wù)的具體體現(xiàn)

高校圖書館個(gè)性化服務(wù)是指根據(jù)每個(gè)用戶的專業(yè)、愛好、研究方向、探索領(lǐng)域及特殊服務(wù)為其提供更具針對(duì)性的信息服務(wù),幫助用戶查閱更加完整的信息資料,便于其學(xué)習(xí)、研究。高校圖書館個(gè)性化服務(wù)具體體現(xiàn)在以下3個(gè)方面:

①用戶可根據(jù)自己的需求定制相關(guān)信息,以保證其在圖書館中能夠查閱到相關(guān)資料;圖書館利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)用戶的興趣愛好,為其定制個(gè)性化的訪問空間。用戶訪問圖書館數(shù)據(jù)庫(kù)時(shí)會(huì)將其興趣愛好間接地反映出來,如果用戶不感興趣,在頁面停留的時(shí)間會(huì)較短,停留時(shí)間較長(zhǎng)則說明比較感興趣;利用用戶的瀏覽路徑信息時(shí)間即可將用戶對(duì)信息資源的感興趣程度發(fā)掘出來。

②提高圖書館資源利用率。利用數(shù)據(jù)挖掘技術(shù)可以識(shí)別圖書館網(wǎng)站內(nèi)頻繁訪問的路徑及用戶訪問次數(shù)較多的頁面,可以將新書信息、重要的分類信息放在這些路徑上,從而向用戶主動(dòng)推送其所需要的信息資源,提高圖書的利用率。

③優(yōu)化鏈接結(jié)構(gòu),提高用戶應(yīng)用的便利性。對(duì)Weblog進(jìn)行挖掘,可以發(fā)現(xiàn)用戶訪問頁面的相關(guān)性,增加聯(lián)系比較密切的網(wǎng)頁之間的關(guān)聯(lián)性;發(fā)現(xiàn)用戶的期望位置,如果用戶訪問期望位置的頻率高于對(duì)實(shí)際位置的訪問頻率,則可在二者之間建立導(dǎo)航鏈接,優(yōu)化站點(diǎn)。

④查新服務(wù)與定題服務(wù)。傳統(tǒng)圖書館主要通過查詢光盤數(shù)據(jù)庫(kù)、文獻(xiàn)數(shù)據(jù)庫(kù)等進(jìn)行查新服務(wù),而隨著網(wǎng)絡(luò)技術(shù)的不斷發(fā)展與應(yīng)用,外部網(wǎng)絡(luò)信息及更新的速度遠(yuǎn)遠(yuǎn)超過圖書館內(nèi)部網(wǎng)絡(luò),因此要加強(qiáng)網(wǎng)絡(luò)平臺(tái)的建設(shè),以保證服務(wù)結(jié)果的真實(shí)性與可靠性。數(shù)字圖書館在進(jìn)行查新與定題服務(wù)過程中,可以利用可視化技術(shù)為用戶提供在線即時(shí)信息分析。

3圖書館個(gè)性化服務(wù)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用

圖書館個(gè)性化服務(wù)數(shù)據(jù)挖掘技術(shù)的應(yīng)用流程如下:建立讀者數(shù)據(jù)倉(cāng)庫(kù)——數(shù)據(jù)收集——挖掘算法的選擇——挖掘結(jié)果的顯示——對(duì)結(jié)果的評(píng)價(jià)。

3.1建立讀者數(shù)據(jù)倉(cāng)庫(kù)

數(shù)據(jù)挖掘過程中,在確定了挖掘目標(biāo)后,即開始進(jìn)行數(shù)據(jù)準(zhǔn)備,從大量數(shù)據(jù)中選擇一個(gè)與需挖掘目標(biāo)相關(guān)的樣板數(shù)據(jù)子集。此時(shí)需要建立一個(gè)數(shù)據(jù)倉(cāng)庫(kù),其主要作用是將所有挖掘目標(biāo)所需的數(shù)據(jù)保存其中,如果未建立數(shù)據(jù)倉(cāng)庫(kù)直接進(jìn)行數(shù)據(jù)挖掘,可能會(huì)導(dǎo)致挖掘失敗,因此數(shù)據(jù)挖掘的前期工作大部分用于準(zhǔn)備數(shù)據(jù),因此建立數(shù)據(jù)倉(cāng)庫(kù)是一個(gè)至關(guān)重要的準(zhǔn)備工作。高校圖書館個(gè)性化服務(wù)中應(yīng)用數(shù)據(jù)挖掘技術(shù),第一步就是建立用戶的興趣庫(kù)及圖書館自身的特色資源數(shù)據(jù)庫(kù)。用戶使用圖書館的過程中,必然會(huì)產(chǎn)生大量的借閱記錄,訪問圖書館網(wǎng)站會(huì)留下訪問記錄,這其中均潛藏了大量有意義的信息。

3.2數(shù)據(jù)收集

在建立用戶興趣庫(kù)及特色資源數(shù)據(jù)庫(kù)后,必須對(duì)這兩個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行分析、調(diào)整,以保證原始數(shù)據(jù)的質(zhì)量,從而保證數(shù)據(jù)挖掘結(jié)果的質(zhì)量。數(shù)據(jù)收集即數(shù)據(jù)的分析與調(diào)整可以分為數(shù)據(jù)抽取、數(shù)據(jù)清洗及數(shù)據(jù)轉(zhuǎn)換等3個(gè)步驟。其中數(shù)據(jù)抽取的主要作用是將與挖掘目標(biāo)相關(guān)的數(shù)據(jù)信息搜索出來;數(shù)據(jù)清洗則是對(duì)數(shù)據(jù)進(jìn)行噪聲消除、重復(fù)記錄的消除及推導(dǎo)計(jì)算缺值數(shù)據(jù)等。圖書館每天會(huì)產(chǎn)生大量的用戶相關(guān)的數(shù)據(jù),并非所有的數(shù)據(jù)均對(duì)整個(gè)挖掘處理過程有正面作用,有些數(shù)據(jù)可能會(huì)對(duì)挖掘效果產(chǎn)生負(fù)面影響,因此剔除這些無用的數(shù)據(jù)十分必要。數(shù)據(jù)轉(zhuǎn)換的主要作用是精減數(shù)據(jù)維數(shù),從初始特征中分析出真正有用的特征,通過數(shù)據(jù)轉(zhuǎn)換可有效減少數(shù)據(jù)挖掘時(shí)需要考慮的變量數(shù)。

3.3選擇算法及建立模型

數(shù)據(jù)挖掘過程中不同的算法可能會(huì)實(shí)現(xiàn)同一個(gè)任務(wù),但過程卻大相徑庭,因此要根據(jù)數(shù)據(jù)的特點(diǎn)、實(shí)際運(yùn)行系統(tǒng)的要求選擇適用的算法。有些用戶比較傾向于獲取描述型的、容易理解的知識(shí),有些用戶則希望獲取預(yù)測(cè)型知識(shí),因此要針對(duì)不同的用戶選擇對(duì)應(yīng)的算法,之后就要進(jìn)行數(shù)據(jù)挖掘模型的建立。通過對(duì)用戶分類、聚類及時(shí)間序列的分析,將每類用戶的普遍性需求及個(gè)性化需求抽象出來,從而建立一系列的關(guān)聯(lián)規(guī)則模型。一個(gè)模型完成后不一定可以立刻解決問題,需要對(duì)其進(jìn)行反復(fù)驗(yàn)證,如果可以解決問題證明模型有效;如模型存在缺陷,則要通過反饋對(duì)模型進(jìn)行修改、調(diào)整,或者選擇新算法,建立新模型,對(duì)不同的模型進(jìn)行全面考察。

3.4結(jié)果解釋與知識(shí)表示

在建立數(shù)據(jù)挖掘模型后,可利用建立挖掘模型時(shí)所用的算法規(guī)則進(jìn)行運(yùn)算,即可產(chǎn)生數(shù)據(jù)挖掘結(jié)果,圖書館只需對(duì)挖掘結(jié)果進(jìn)行可視化、可理解化處理即可。要將抽象的數(shù)據(jù)解釋成易讀、易懂的結(jié)果,圖書館決策者及管理者即可根據(jù)可視化的挖掘結(jié)果進(jìn)行決策。比如圖書館新引進(jìn)了一批考古專業(yè)的學(xué)術(shù)論文,由數(shù)據(jù)挖掘模型分析結(jié)果可知,該批論文的查閱者90%均為考古專業(yè)的老師與學(xué)生,其他專業(yè)的師生查閱率不到10%,根據(jù)這一結(jié)果,即可將論文信息傳遞給考古專業(yè)的相關(guān)用戶,以提高信息推送的針對(duì)性。

3.5結(jié)果的驗(yàn)證、應(yīng)用及評(píng)價(jià)

產(chǎn)生挖掘結(jié)果后需要進(jìn)一步實(shí)踐,以驗(yàn)證結(jié)果的有效性與可用性,及對(duì)模型的實(shí)用性進(jìn)行評(píng)價(jià),并且挖掘結(jié)果還具備預(yù)測(cè)未來數(shù)據(jù)的功能。上一步的結(jié)果解釋經(jīng)過實(shí)踐后,可對(duì)應(yīng)用過程進(jìn)行跟蹤了解,獲得用戶的反饋信息,對(duì)結(jié)果的實(shí)用性進(jìn)行驗(yàn)證。需要注意一點(diǎn),即一個(gè)數(shù)據(jù)挖掘的模型與已有數(shù)據(jù)完全相符比較困難,且并非所有的環(huán)境、每個(gè)時(shí)間節(jié)點(diǎn)均適用于同一個(gè)數(shù)據(jù)挖掘模型,因此要對(duì)挖掘結(jié)果做出評(píng)價(jià),如經(jīng)過用戶的反饋,數(shù)據(jù)挖掘出來的結(jié)果可以解決問題,實(shí)現(xiàn)了最初的挖掘目標(biāo),滿足了用戶需求,則可判定該模型是合理的。挖掘結(jié)果可以滿足用戶的要求,用戶就會(huì)做出滿意的反饋,將這一反饋信息提供給決策者即可做下一步的實(shí)施,完成該階段后,圖書館就基本上實(shí)現(xiàn)了以用戶為中心的個(gè)性化服務(wù)的數(shù)據(jù)挖掘過程。不過某些情況下模型的評(píng)價(jià)結(jié)果可能不盡如人意,即數(shù)據(jù)挖掘的結(jié)果無法滿足用戶的要求,這種情況就要由系統(tǒng)進(jìn)行重新處理,重復(fù)上述步驟,重新抽取數(shù)據(jù)、選擇另外一種數(shù)據(jù)轉(zhuǎn)換方法、設(shè)定新的數(shù)據(jù)挖掘參數(shù)值、選擇另外的挖掘算法等。由此可見,數(shù)據(jù)挖掘的過程是一個(gè)不斷反饋的過程,體現(xiàn)出反復(fù)性的特點(diǎn)。

4結(jié)語

第3篇

在熔煉機(jī)組優(yōu)化運(yùn)行的過程中,機(jī)組的運(yùn)行性能指標(biāo)與人員的操作水平、負(fù)荷及運(yùn)行參數(shù)之間有著復(fù)雜的相互關(guān)系,這種關(guān)系在大量的生產(chǎn)歷史數(shù)據(jù)中與機(jī)組各數(shù)據(jù)項(xiàng)之間關(guān)聯(lián),因此可以通過數(shù)據(jù)挖掘的方式把其中的關(guān)聯(lián)關(guān)系定量的反映出來,最終反饋到實(shí)際運(yùn)行中。本文結(jié)合工廠的實(shí)際情況,分析由工廠的DCS系統(tǒng)采集的實(shí)時(shí)運(yùn)行數(shù)據(jù),來得到用戶期望的相關(guān)參數(shù)間定量的關(guān)聯(lián)規(guī)則。

2交互式關(guān)聯(lián)規(guī)則挖掘算法

關(guān)聯(lián)規(guī)則挖掘算法在數(shù)據(jù)庫(kù)的記錄或?qū)ο笾谐槿£P(guān)聯(lián)性,展示了數(shù)據(jù)間位置依賴關(guān)系,其目的是尋找在大量的數(shù)據(jù)項(xiàng)中隱藏著的聯(lián)系或相關(guān)性。其優(yōu)越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。

2.1目標(biāo)數(shù)據(jù)庫(kù)的確定

數(shù)據(jù)挖掘應(yīng)熟悉對(duì)象的背景知識(shí),明確挖掘的目標(biāo),根據(jù)目標(biāo)確定相關(guān)數(shù)據(jù),以此作為目標(biāo)數(shù)據(jù)庫(kù),來完成對(duì)數(shù)據(jù)的預(yù)處理、挖掘和規(guī)則評(píng)價(jià)。

2.2交互式關(guān)聯(lián)規(guī)則挖掘算法

表示A成立則B成立,其中給出了可信度C和支持度S。可信度C是對(duì)關(guān)聯(lián)規(guī)則準(zhǔn)確度的衡量,即在出現(xiàn)A的情況下出現(xiàn)B的概率;支持度S是對(duì)關(guān)聯(lián)規(guī)則重要性的衡量,即A和B同時(shí)出現(xiàn)的概率。

3熔煉機(jī)組數(shù)據(jù)挖掘的實(shí)現(xiàn)

本文采用的是冀某工廠于2013年5月運(yùn)行的數(shù)據(jù),采樣頻率為2~3秒/次,采樣模式為實(shí)時(shí)監(jiān)測(cè)值,得到7595組數(shù)據(jù)。在分析階段,對(duì)影響機(jī)組的主要可控參數(shù)進(jìn)行了提取及預(yù)處理,參數(shù)主要包括:轉(zhuǎn)速、有功功率、主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力。以機(jī)組轉(zhuǎn)速設(shè)計(jì)值為3600r/min為例來分析。對(duì)各個(gè)可控參數(shù)數(shù)據(jù)進(jìn)行曲線化處理,作為分析它們之間的關(guān)聯(lián)規(guī)則的數(shù)據(jù)表。上述關(guān)聯(lián)規(guī)則表示,在三種負(fù)荷工況下,工廠熔煉機(jī)組有功功率與主蒸汽壓力、調(diào)節(jié)級(jí)壓力、中壓缸排汽壓力三者之間最優(yōu)變化區(qū)間的關(guān)聯(lián)。經(jīng)分析,在機(jī)組中應(yīng)用關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)方法相比,優(yōu)點(diǎn)是其可以對(duì)不同的可測(cè)參數(shù)進(jìn)行挖掘,方法簡(jiǎn)單有效、可操作性強(qiáng);運(yùn)用關(guān)聯(lián)規(guī)則進(jìn)行挖掘,對(duì)過程能夠較靈活控制,處理后的目標(biāo)值直觀,便于操作指導(dǎo)和提高運(yùn)行效率。

4結(jié)論

第4篇

1網(wǎng)上銀行促銷渠道分析系統(tǒng)的設(shè)計(jì)

網(wǎng)上銀行促銷渠道分析系統(tǒng)采用C/S架構(gòu)或者B/S架構(gòu),充分考慮系統(tǒng)易用性和投入產(chǎn)出。從維護(hù)網(wǎng)上銀行的C/S架構(gòu)和B/S架構(gòu)角度來分析,使用網(wǎng)上銀行促銷渠道分析系統(tǒng)的多是管理人員,并且在未來的發(fā)展過程中,系統(tǒng)用戶數(shù)量也不會(huì)大幅度上漲,綜合網(wǎng)上銀行系統(tǒng)的維護(hù)成本和開發(fā)成本,盡量選擇C/S架構(gòu)。從使用者和系統(tǒng)數(shù)據(jù)傳輸?shù)慕嵌葋矸治觯挥秀y行工作人員才能使用這個(gè)系統(tǒng),而C/S架構(gòu)具有良好的靈活性。綜上所述,網(wǎng)上銀行促銷渠道分析系統(tǒng)可以使用C/S架構(gòu)來部署軟件模塊。由于網(wǎng)上銀行系統(tǒng)包含大量的客戶信息數(shù)據(jù),因此網(wǎng)上銀行系統(tǒng)必須具有更高的安全性和保密性,相關(guān)操作人員必須強(qiáng)化風(fēng)險(xiǎn)防范意識(shí),規(guī)范網(wǎng)上銀行系統(tǒng)操作,嚴(yán)格控制系統(tǒng)的數(shù)據(jù)傳輸。網(wǎng)上銀行系統(tǒng)必須具有良好的擴(kuò)展性,為數(shù)據(jù)表和數(shù)據(jù)查詢算法留出充足的軟硬件資源。同時(shí),網(wǎng)上銀行渠道分析系統(tǒng)要支持工作人員擴(kuò)展數(shù)據(jù)查詢、數(shù)據(jù)字典和數(shù)據(jù)表之前的交叉查詢,將用戶的查詢記錄保存在本地網(wǎng)絡(luò)服務(wù)器上,盡量避免重復(fù)查詢,提高網(wǎng)上銀行渠道分析系統(tǒng)的查詢速度。

2數(shù)據(jù)挖掘技術(shù)在網(wǎng)上銀行促銷活動(dòng)中的運(yùn)用

隨著商業(yè)銀行的快速發(fā)展,網(wǎng)上銀行受到人們的廣泛關(guān)注。網(wǎng)上銀行系統(tǒng)以計(jì)算機(jī)網(wǎng)絡(luò)為交易平臺(tái),各種新型的促銷策略,使網(wǎng)上銀行業(yè)務(wù)得到迅速拓展。但是,和四大行相比,一些商業(yè)銀行的網(wǎng)上銀行業(yè)務(wù)仍然存在很大的差距。同時(shí),近年來,網(wǎng)上銀行市場(chǎng)競(jìng)爭(zhēng)日益激烈,某些網(wǎng)上銀行業(yè)務(wù)在應(yīng)用過程中出現(xiàn)了促銷成本不斷增加,而促銷效果不理想的狀況,數(shù)據(jù)挖掘技術(shù)在網(wǎng)上銀行促銷活動(dòng)中的運(yùn)用,要積極解決這些問題。

2.1提高營(yíng)銷質(zhì)量當(dāng)前,很多銀行都逐漸加大了網(wǎng)上銀行促銷力度,但是促銷活動(dòng)的效果卻不明顯,單純的依靠贈(zèng)送禮品或者各種優(yōu)惠措施,在很大程度上會(huì)提升促銷成本,并且難以真正地吸引客戶。在網(wǎng)上銀行促銷活動(dòng)中應(yīng)用數(shù)據(jù)挖掘技術(shù),分析不同促銷活動(dòng)的特點(diǎn),根據(jù)網(wǎng)上銀行系統(tǒng)自身的特點(diǎn)和優(yōu)化,對(duì)不同客戶進(jìn)行組合促銷,將不同的網(wǎng)上銀行業(yè)務(wù)或者產(chǎn)品聯(lián)系起來,有針對(duì)性地對(duì)有意向的客戶進(jìn)行促銷,合理安排網(wǎng)上銀行促銷活動(dòng)內(nèi)容和時(shí)間,盡量在電子商務(wù)交易高峰時(shí)段之前,實(shí)現(xiàn)網(wǎng)上銀行促銷活動(dòng)的目標(biāo)。

2.2優(yōu)化客戶結(jié)構(gòu)一些商業(yè)銀行不了解客戶的真實(shí)需求,在發(fā)展?jié)撛诳蛻魰r(shí),缺乏針對(duì)性,網(wǎng)上銀行促銷活動(dòng)的交易需求較弱。因此要應(yīng)用數(shù)據(jù)挖掘技術(shù)挖掘一些隱含的信息,明確哪些客戶對(duì)網(wǎng)上銀行的哪些產(chǎn)品或者業(yè)務(wù)有需求,挖掘潛在的、有實(shí)力的客戶,將這些客戶作為網(wǎng)上銀行促銷活動(dòng)的重點(diǎn)客戶。

2.3優(yōu)化促銷活動(dòng)流程在網(wǎng)上銀行促銷活動(dòng)中運(yùn)用數(shù)據(jù)挖掘技術(shù),采用運(yùn)用關(guān)聯(lián)分析,挖掘傳統(tǒng)銀行渠道重點(diǎn)產(chǎn)品和網(wǎng)上銀行系統(tǒng)重點(diǎn)產(chǎn)品的業(yè)務(wù)數(shù)據(jù),挖掘非網(wǎng)絡(luò)銀行系統(tǒng)和網(wǎng)絡(luò)銀行系統(tǒng)業(yè)務(wù)以及網(wǎng)絡(luò)銀行系統(tǒng)不同業(yè)務(wù)或者產(chǎn)品之間的關(guān)聯(lián)關(guān)系,通過數(shù)據(jù)挖掘技術(shù)尋找符合網(wǎng)上銀行系統(tǒng)運(yùn)營(yíng)條件的關(guān)聯(lián)關(guān)系,探索網(wǎng)上銀行系統(tǒng)不同產(chǎn)品和業(yè)務(wù)之間的依存性或者相似性[2],由此將網(wǎng)上銀行系統(tǒng)的某一項(xiàng)業(yè)務(wù)或者產(chǎn)品作為重點(diǎn)促銷產(chǎn)品來拉動(dòng)其他業(yè)務(wù)和產(chǎn)品的銷售,并且可以將一些業(yè)務(wù)或者產(chǎn)品組合起來進(jìn)行有針對(duì)性的促銷,提高網(wǎng)上銀行促銷活動(dòng)效果。另外,挖掘優(yōu)質(zhì)、有潛力客戶特征,優(yōu)質(zhì)客戶可以銀行提供大量的業(yè)務(wù)收入和交易量,因此可以通過數(shù)據(jù)挖掘技術(shù)的聚類方法分析銀行系統(tǒng)的客戶構(gòu)成,挖掘優(yōu)質(zhì)客戶的共同特征,為網(wǎng)上銀行促銷活動(dòng)提供重要的依據(jù)。

3結(jié)束語

數(shù)據(jù)挖掘技術(shù)在網(wǎng)上銀行促銷活動(dòng)中的運(yùn)用,可以極大地提高網(wǎng)上銀行促銷活動(dòng)的效果和效率,利用數(shù)據(jù)挖掘技術(shù)幫助銀行系統(tǒng)挖掘一些隱含、有價(jià)值的信息數(shù)據(jù),結(jié)合網(wǎng)上銀行系統(tǒng)的特點(diǎn)和優(yōu)勢(shì),幫助銀行系統(tǒng)有針對(duì)性開展網(wǎng)上銀行促銷活動(dòng),深入挖掘優(yōu)質(zhì)客戶,增加網(wǎng)上銀行業(yè)務(wù)交易量,提高網(wǎng)上銀行系統(tǒng)的經(jīng)濟(jì)效益,推動(dòng)網(wǎng)上銀行系統(tǒng)的快速發(fā)展。

作者:周駿單位:上海浦東發(fā)展銀行

第5篇

1數(shù)據(jù)挖掘及其關(guān)鍵技術(shù)

數(shù)據(jù)挖掘技術(shù)是當(dāng)前數(shù)據(jù)分析和處理領(lǐng)域一項(xiàng)十分重要的技術(shù),具體而言數(shù)據(jù)挖掘技術(shù)可以看成是信息技術(shù)不斷發(fā)展和演進(jìn)的結(jié)果,是在人們對(duì)于數(shù)據(jù)庫(kù)技術(shù)不斷發(fā)展和創(chuàng)新的基礎(chǔ)上發(fā)展而來的。在初期階段,商業(yè)數(shù)據(jù)往往只是簡(jiǎn)單的進(jìn)行存儲(chǔ),然后有了對(duì)相關(guān)數(shù)據(jù)的查詢功能,再繼續(xù)發(fā)展為對(duì)相關(guān)數(shù)據(jù)的即時(shí)遍歷。數(shù)據(jù)挖掘技術(shù)使得數(shù)據(jù)查詢已經(jīng)不僅僅局限于數(shù)據(jù)本身,同時(shí)還可以通過相關(guān)的算法和技術(shù)發(fā)現(xiàn)數(shù)據(jù)之間潛在的關(guān)聯(lián)性,從而在很大程度上增加了數(shù)據(jù)利用的深度和層次。隨著當(dāng)前大數(shù)據(jù)時(shí)代的到來以及高性能計(jì)算機(jī)和數(shù)據(jù)挖掘算法的成熟,數(shù)據(jù)挖掘技術(shù)開始在商業(yè)領(lǐng)域進(jìn)行應(yīng)用,并且取得了快速的發(fā)展。在目前的醫(yī)院信息管理系統(tǒng)中已經(jīng)積累了大量的數(shù)據(jù)信息,因此如何實(shí)現(xiàn)對(duì)這一部分信息的深層次數(shù)據(jù)挖掘是至關(guān)重要的,這也將直接決定著醫(yī)院將來的發(fā)展和命運(yùn)。在醫(yī)院信息管理系統(tǒng)中應(yīng)用數(shù)據(jù)挖掘技術(shù)可以在更深層次上對(duì)醫(yī)院的管理數(shù)據(jù)進(jìn)行分析,從而可以為醫(yī)院從業(yè)人員的相關(guān)決策、管理以及研究提供更加有力的技術(shù)支持。因此數(shù)據(jù)挖掘技術(shù)在醫(yī)院信息管理系統(tǒng)中的應(yīng)用具有十分重要的意義。在目前的數(shù)據(jù)挖掘技術(shù)中,其關(guān)鍵技術(shù)是數(shù)據(jù)的預(yù)處理。當(dāng)需要進(jìn)行分析的數(shù)據(jù)庫(kù)包含大量的噪聲或者存在數(shù)據(jù)不一致性時(shí),數(shù)據(jù)預(yù)處理就顯得更加有必要。根據(jù)對(duì)相關(guān)數(shù)據(jù)挖掘過程的統(tǒng)計(jì)顯示,超過一半的時(shí)間用于進(jìn)行數(shù)據(jù)預(yù)處理,而真正用于數(shù)據(jù)信息挖掘的時(shí)間則僅占到10%左右。目前的數(shù)據(jù)預(yù)處理技術(shù)主要分析對(duì)數(shù)據(jù)的清洗、集成、轉(zhuǎn)換以及消減等。另一關(guān)鍵技術(shù)是匿名化以及轉(zhuǎn)換技術(shù),這主要是由于在目前的醫(yī)院信息管理中涉及到病人的隱私問題,因此在進(jìn)行數(shù)據(jù)處理的同時(shí)需要對(duì)患者的相關(guān)記錄進(jìn)行匿名化處理,以更好的保護(hù)患者的個(gè)人隱私。

2基于數(shù)據(jù)挖掘技術(shù)的醫(yī)院信息管理系統(tǒng)

2.1基于數(shù)據(jù)挖掘技術(shù)的醫(yī)院信息管理系統(tǒng)

關(guān)聯(lián)規(guī)則是目前進(jìn)行數(shù)據(jù)挖掘的重要手段,在醫(yī)院信息管理系統(tǒng)中引入關(guān)聯(lián)規(guī)則可以進(jìn)一步發(fā)現(xiàn)數(shù)據(jù)之間的相互關(guān)聯(lián),并且在對(duì)病人的相關(guān)數(shù)據(jù)的分析和進(jìn)一步挖掘過程中,嘗試分析患者年齡與醫(yī)療費(fèi)用之間潛在的關(guān)聯(lián),并且進(jìn)一步通過這種關(guān)聯(lián)關(guān)系加強(qiáng)對(duì)醫(yī)院資源的合理優(yōu)化配置,實(shí)現(xiàn)對(duì)不同年齡段患者的醫(yī)療費(fèi)用的有效控制,進(jìn)而實(shí)現(xiàn)醫(yī)院效益的最大化。具體而言,將關(guān)聯(lián)數(shù)據(jù)集合記為D{=t1,t2,...tn},tk={i1,i2,im..ip},tk為數(shù)據(jù)庫(kù)中的事務(wù),im為數(shù)據(jù)庫(kù)中的項(xiàng)。在數(shù)據(jù)集合D中,其包含的集X的項(xiàng)數(shù)為集的支持?jǐn)?shù),將其記為σx,支持度為suppor(tX),則有suppor(tX)=σx/|D|×100%。假設(shè)X和Y為數(shù)據(jù)庫(kù)集合D中的項(xiàng)集,則有:假如XY,則有X項(xiàng)的支持度大于Y項(xiàng)的支持度,同時(shí)假如X是非頻繁項(xiàng),則此時(shí)Y項(xiàng)也是非頻繁;則假如Y項(xiàng)是頻繁的,則X項(xiàng)也是頻繁的。在數(shù)據(jù)挖掘的關(guān)聯(lián)規(guī)則中有兩個(gè)至關(guān)重要的概念,即支持度與置信度。通常而言,支持度只要用于衡量采用的關(guān)聯(lián)規(guī)則的可信度,而置信度則用于表示在生成數(shù)據(jù)集中關(guān)聯(lián)規(guī)則的統(tǒng)計(jì)角色。在實(shí)際的應(yīng)用過程中,假如support(XY)大于支持集,并且置信度大于最小置信度,此時(shí)XY可以稱之為強(qiáng)規(guī)則,否則將其稱之為弱規(guī)則。在數(shù)據(jù)挖掘的過程中,尋找強(qiáng)規(guī)則是整個(gè)數(shù)據(jù)挖掘過程的關(guān)鍵。在強(qiáng)規(guī)則XY所對(duì)應(yīng)的項(xiàng)集中,必定存在著頻集。基于關(guān)聯(lián)規(guī)則的數(shù)據(jù)挖掘模型如圖1所示,其中主要包括數(shù)據(jù)集D、關(guān)聯(lián)規(guī)則搜索算法、數(shù)據(jù)挖掘結(jié)果R以及用戶與數(shù)據(jù)挖掘之間的交互,對(duì)相關(guān)的數(shù)據(jù)挖掘結(jié)果信息結(jié)果進(jìn)行合理的評(píng)價(jià)。在實(shí)際的關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘過程中還需要考慮到以下兩個(gè)方面的問題:其一,盡量減少I/O操作的次數(shù),這主要是由于數(shù)據(jù)挖掘過程中的數(shù)據(jù)量是非常大的,因此頻繁的進(jìn)行I/O操作將會(huì)對(duì)數(shù)據(jù)挖掘的效率產(chǎn)生很大的影響,其根本的方法就是減少對(duì)于數(shù)據(jù)庫(kù)集的掃描頻率和次數(shù);其二,避免候選集中項(xiàng)的數(shù)量過大,這主要是由于過多的項(xiàng)數(shù)將會(huì)使得存儲(chǔ)空間被大量占用,從而對(duì)數(shù)據(jù)挖掘的效率產(chǎn)生影響。

2.2基于數(shù)據(jù)挖掘技術(shù)的醫(yī)院信息管理系統(tǒng)的實(shí)現(xiàn)

數(shù)據(jù)準(zhǔn)備階段。在研究過程中采用某醫(yī)院信息管理系統(tǒng)中的口腔潰瘍數(shù)據(jù)進(jìn)行挖掘分析,其中數(shù)據(jù)準(zhǔn)備階段主要包括集成、清洗以及轉(zhuǎn)換三個(gè)階段。具體而言,數(shù)據(jù)集成主要是將不同的患者數(shù)據(jù)表格及其費(fèi)用數(shù)據(jù)整合到一起,并且對(duì)這些原始數(shù)據(jù)進(jìn)行集成,將其集成到統(tǒng)一的數(shù)據(jù)表格中,其中主要包含患者的性別、年齡以及編號(hào)等信息。數(shù)據(jù)清洗指的是對(duì)原始數(shù)據(jù)進(jìn)行進(jìn)一步的處理,其目的是去除原始數(shù)據(jù)中的噪聲以及不相關(guān)信息、補(bǔ)充遺漏數(shù)據(jù)、去除白噪聲等,并且根據(jù)實(shí)際情況完成對(duì)原始數(shù)據(jù)的轉(zhuǎn)換。同時(shí),由于醫(yī)院信息數(shù)據(jù)存在著其特殊性,醫(yī)院的數(shù)據(jù)往往產(chǎn)生于不同的場(chǎng)所,因此其產(chǎn)生的過程較為復(fù)雜,這就極易導(dǎo)致數(shù)據(jù)產(chǎn)生的過程中出現(xiàn)遺失或者出現(xiàn)數(shù)據(jù)錯(cuò)誤的情況,因此數(shù)據(jù)清洗階段對(duì)于醫(yī)院數(shù)據(jù)挖掘工作是至關(guān)重要的,同時(shí)為了更好的保證數(shù)據(jù)清洗階段的準(zhǔn)確性可以實(shí)行專業(yè)醫(yī)護(hù)人員監(jiān)督的模式,此種模式可以有效的降低數(shù)據(jù)清洗過程中的差錯(cuò)。數(shù)據(jù)轉(zhuǎn)換是針對(duì)數(shù)據(jù)的不同特征對(duì)數(shù)據(jù)進(jìn)行有效的轉(zhuǎn)換,其中主要的手段包括對(duì)數(shù)據(jù)的規(guī)格化處理、數(shù)據(jù)信息歸納、旋轉(zhuǎn)等。結(jié)合實(shí)際的醫(yī)院信息管理系統(tǒng)數(shù)據(jù)挖掘案例,可以對(duì)年齡數(shù)據(jù)信息進(jìn)分段編號(hào)處理,以更好的提高數(shù)據(jù)挖掘的效率。同時(shí),在數(shù)據(jù)轉(zhuǎn)換的過程中還可以將一些沒有意義的數(shù)據(jù)進(jìn)行刪減,以更好的保證數(shù)據(jù)挖掘的效率,同時(shí)還可以降低數(shù)據(jù)挖掘的誤差。

3結(jié)束語

現(xiàn)代化醫(yī)療事業(yè)發(fā)展關(guān)系到國(guó)計(jì)民生,在我國(guó)的社會(huì)主義發(fā)展過程中占到舉足輕重的位置。而信息化程度的提升對(duì)于推動(dòng)現(xiàn)代化醫(yī)療事業(yè)發(fā)展具有十分重要的意義,基于數(shù)據(jù)挖掘的醫(yī)院信息管理系統(tǒng)能夠有效的提升醫(yī)院資源配置水平、提升醫(yī)院效益。

作者:沈旴亮單位:南京醫(yī)科大學(xué)附屬南京婦幼保健院

第6篇

1分類。分類技術(shù)可解決事件的歸類問題,在應(yīng)用時(shí),不僅可以完成數(shù)據(jù)分析的任務(wù),還能對(duì)未來的數(shù)據(jù)類型進(jìn)行必要的預(yù)測(cè),比如,充分運(yùn)用分類技術(shù)對(duì)客戶的具體傾向進(jìn)行預(yù)測(cè),確定客戶是否對(duì)相關(guān)研究感興趣,該技術(shù)方法也可應(yīng)用在醫(yī)療領(lǐng)域,針對(duì)患者的病情,通過分類技術(shù)選取適宜的藥物。

2回歸。回歸技術(shù)的核心為已知變量的數(shù)值,在此基礎(chǔ)上,對(duì)其他種類的變量實(shí)施必要的預(yù)測(cè)。在一般條件下,回歸技術(shù)充分發(fā)揮了線性回歸的實(shí)際效果,但從現(xiàn)實(shí)的角度講,并不是所有問題都能用基本的線性回歸進(jìn)行分析和解決的,為了更好的適應(yīng)這些實(shí)際的問題,相關(guān)人員對(duì)此也正在著手研究全新的方法,并已取得了顯著的效果,許多新型分析方法應(yīng)運(yùn)而生,比如邏輯回歸以及神經(jīng)網(wǎng)絡(luò)等。

3時(shí)間序列。時(shí)間序列技術(shù)實(shí)際上就是以過去的變量為基礎(chǔ),分析和預(yù)測(cè)下一階段變量的方法。與回歸技術(shù)相同,同樣都是運(yùn)用現(xiàn)有的組員完成預(yù)測(cè)任務(wù)的,但資源的時(shí)間序列是存在一定差異的。時(shí)間序列技術(shù)通常是在完整的時(shí)間流中截選一個(gè)時(shí)間區(qū)間,對(duì)應(yīng)數(shù)據(jù)形成一整套單元,最后將此單元在時(shí)間流上進(jìn)行滑動(dòng),從而獲取訓(xùn)練集。

4描述型。圖形與可視化工具是十分重要的,是相關(guān)人員完成快速分析任務(wù)的重要手段之一,改善了傳統(tǒng)數(shù)據(jù)的枯燥與乏味,不僅實(shí)現(xiàn)了數(shù)據(jù)整體的分析,還能對(duì)其中的每一個(gè)細(xì)節(jié)實(shí)施細(xì)致的觀察與分析,在圖形模式的支持下,人們可以更容易的了解到數(shù)據(jù)信息中潛在的相互關(guān)系和模式。

5關(guān)聯(lián)分析。關(guān)聯(lián)分析技術(shù)是指在數(shù)據(jù)庫(kù)中快速獲取數(shù)據(jù)的相關(guān)性。較為常用的技術(shù)方法主要有兩種,分別為關(guān)聯(lián)規(guī)則與序列模式,其中關(guān)聯(lián)規(guī)則是在相同時(shí)間中存在的不同項(xiàng)之間的相關(guān)性,而序列模式的研究對(duì)象主要為具體的事件。

6聚類。聚類技術(shù)實(shí)質(zhì)上就是數(shù)據(jù)庫(kù)的分類,組間差別盡可能的明顯,而同一組內(nèi)的數(shù)據(jù)要盡可能的相似或相同。聚類技術(shù)與分類技術(shù)存在很大的區(qū)別,在實(shí)施聚類以前,并不了解數(shù)據(jù)組的具體數(shù)量,分組的方法和依據(jù)也不知曉,所以在聚類完成以后,需要得到專業(yè)人士的分析和解釋。

二、經(jīng)濟(jì)普查的根本目的與重要意義

1.根本目的。經(jīng)濟(jì)普查是為了充分了解我國(guó)產(chǎn)業(yè)現(xiàn)階段發(fā)展的具體規(guī)模和實(shí)際效益,并創(chuàng)建完善的基本單位數(shù)據(jù)庫(kù)和對(duì)應(yīng)的管理系統(tǒng),為社會(huì)可持續(xù)發(fā)展方針的落實(shí)奠定堅(jiān)實(shí)的基礎(chǔ),同時(shí)也為國(guó)民經(jīng)濟(jì)的快速發(fā)展獻(xiàn)計(jì)獻(xiàn)策。經(jīng)濟(jì)普查的基本目標(biāo)是了解情況,建立相應(yīng)數(shù)據(jù)庫(kù)則是必要的手段,最終目的是促進(jìn)我國(guó)國(guó)民經(jīng)濟(jì)的快速發(fā)展與壯大。

2.重要意義。經(jīng)濟(jì)普查數(shù)據(jù)信息屬公共產(chǎn)品范疇,既是黨和政府認(rèn)識(shí)我國(guó)基本國(guó)情的重要依據(jù),也是判斷各行業(yè)發(fā)展與走向的有效方法。經(jīng)濟(jì)普查的全面開展與落實(shí),可以為廣大人民群眾開創(chuàng)更多的就業(yè)渠道,改善人們的生活質(zhì)量,使國(guó)民經(jīng)濟(jì)的改革與建設(shè)更加完善與全面。

三、經(jīng)濟(jì)普查數(shù)據(jù)挖掘方法的應(yīng)用

1.注冊(cè)服務(wù)器。在經(jīng)濟(jì)普查中運(yùn)用書庫(kù)挖掘方法,首先應(yīng)注冊(cè)服務(wù)器。分析服務(wù)器是數(shù)據(jù)分析的主體,有著不可取代的作用,因此分析服務(wù)器一般為首要的注冊(cè)對(duì)象,其他種類的注冊(cè)對(duì)象都是它的一部分。通常情況下,分析服務(wù)器名稱要與對(duì)應(yīng)網(wǎng)絡(luò)名稱保持一致。

2.創(chuàng)建數(shù)據(jù)倉(cāng)庫(kù)。在分析服務(wù)器注冊(cè)完成以后,即可在該服務(wù)器的基礎(chǔ)上建立各類數(shù)據(jù)庫(kù),由于數(shù)據(jù)庫(kù)中還缺乏具體的對(duì)象,因此可認(rèn)定該數(shù)據(jù)庫(kù)為空。為了使其發(fā)揮出更好的挖掘效果,還需充分考慮實(shí)際情況,創(chuàng)建適宜的研究對(duì)象。在計(jì)算機(jī)硬盤中尋找對(duì)應(yīng)的安裝目錄,并在下分的子文件找到并觀察經(jīng)濟(jì)普查工作的數(shù)據(jù)庫(kù),確定文件的實(shí)際大小,在文件中存在數(shù)據(jù)庫(kù)操作方面所需的文件,這些文件主要以事件日志及數(shù)據(jù)的方式存在,且初始物理大小均為1M,在運(yùn)行時(shí)一般以10%的速度增長(zhǎng)。

3.建立索引。在上述操作完成以后,即可建立經(jīng)濟(jì)普查相關(guān)的數(shù)據(jù)庫(kù),但數(shù)據(jù)庫(kù)本身只是一種數(shù)據(jù)信息的存儲(chǔ)單元,想要使其發(fā)揮出最佳的效果,還需在數(shù)據(jù)庫(kù)的基礎(chǔ)上建立數(shù)據(jù)表,并建立與SQL操作所對(duì)應(yīng)數(shù)據(jù)源,實(shí)際情況中滿足選取條件的數(shù)據(jù)源有很多種,由于該操作事先已經(jīng)完成了數(shù)據(jù)表的建立,所以該數(shù)據(jù)庫(kù)中的數(shù)據(jù)類型僅有SQL這一種形式。

4.連接數(shù)據(jù)源。一般而言,數(shù)據(jù)庫(kù)創(chuàng)建完成以后的首要建立目標(biāo)為數(shù)據(jù)源,數(shù)據(jù)源在數(shù)據(jù)庫(kù)中具有指定源數(shù)據(jù)的作用,數(shù)據(jù)庫(kù)的基本數(shù)據(jù)類型有很多種形式,為了滿足數(shù)據(jù)庫(kù)使用的基本需求,可在同一種數(shù)據(jù)庫(kù)中設(shè)置多種數(shù)據(jù)源。連接數(shù)據(jù)源是為了讓數(shù)據(jù)挖掘更好的進(jìn)行,在數(shù)據(jù)源連接完成以后,可在相關(guān)軟件的支持下,完成數(shù)據(jù)挖掘的各項(xiàng)操作。

四、結(jié)語

第7篇

1.1較高的有效性數(shù)據(jù)挖掘技術(shù)作為一種數(shù)據(jù)的深加工技術(shù),其本身是帶有鮮明的目的性的,在實(shí)際應(yīng)用活動(dòng)中能夠?qū)﹂L(zhǎng)時(shí)間積累下來的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行基于數(shù)據(jù)使用者要求的深入加工。在實(shí)踐應(yīng)用活動(dòng)中主要有兩種重要的應(yīng)用形式,一種是對(duì)積累經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的管理高效化處理,一種是對(duì)現(xiàn)有經(jīng)濟(jì)數(shù)據(jù)的目的性分析。其中第一種分析方式是從經(jīng)濟(jì)數(shù)據(jù)管理的角度出發(fā)的,在應(yīng)用中主要是以固有數(shù)據(jù)信息的統(tǒng)計(jì)、分類為基礎(chǔ),將原本混亂的數(shù)據(jù)庫(kù)信息進(jìn)行科學(xué)、系統(tǒng)的歸類,保證統(tǒng)計(jì)數(shù)據(jù)管理的高效性和使用的便利性。另一種工作方式是一種經(jīng)濟(jì)數(shù)據(jù)的再加工過程,以鮮明的數(shù)據(jù)統(tǒng)計(jì)、分析目標(biāo)為指引對(duì)原有數(shù)據(jù)的呈現(xiàn)形式、組成內(nèi)容和關(guān)聯(lián)形式進(jìn)行重新加工,以保證經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)能夠最大限度地服務(wù)于管理者的需求。

1.2綜合應(yīng)用性強(qiáng)如前文所述,數(shù)據(jù)挖掘技術(shù)是一個(gè)工具系統(tǒng)而不是單一的工具,能夠?qū)崿F(xiàn)使用主體的各種信息需求,隨著現(xiàn)代社會(huì)經(jīng)濟(jì)的快速發(fā)展,當(dāng)前我國(guó)經(jīng)濟(jì)管理的各個(gè)部門都需要大量的經(jīng)濟(jì)統(tǒng)計(jì)信息來作為經(jīng)濟(jì)管理決策的基礎(chǔ)。但是因?yàn)楦鱾€(gè)管理部門經(jīng)濟(jì)管理的領(lǐng)域不同、經(jīng)濟(jì)管理的方式不同、經(jīng)濟(jì)的管理權(quán)限不同,所以相應(yīng)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)呈現(xiàn)形式的需求就不同。這就為經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)系統(tǒng)提出了更高的要求,其不僅要對(duì)符合各個(gè)經(jīng)濟(jì)管理部門需求的數(shù)據(jù)內(nèi)容進(jìn)行統(tǒng)計(jì),同時(shí)要將統(tǒng)計(jì)完成的數(shù)據(jù)換算成各種不同的呈現(xiàn)形式,并根據(jù)統(tǒng)計(jì)信息的來源和統(tǒng)計(jì)信息的計(jì)算方式對(duì)其可靠性進(jìn)行評(píng)估[2]。最終這些數(shù)據(jù)信息的輸出格式還應(yīng)該符合所服務(wù)的經(jīng)濟(jì)管理部門管理系統(tǒng)的格式要求,保證統(tǒng)計(jì)數(shù)據(jù)能夠在管理部門的管理系統(tǒng)中正常錄入、應(yīng)用,數(shù)據(jù)挖掘技術(shù)很好地滿足了上述的復(fù)雜經(jīng)濟(jì)數(shù)據(jù)管理要求,其功能的綜合性促進(jìn)了其應(yīng)用深度的提高和范圍的擴(kuò)大。

1.3宏觀數(shù)據(jù)庫(kù)有利于數(shù)據(jù)挖掘技術(shù)的應(yīng)用當(dāng)前因?yàn)榻?jīng)濟(jì)管理部門的職權(quán)較為分散,各個(gè)經(jīng)濟(jì)管理部門的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)需求不盡相同。所以我國(guó)的經(jīng)濟(jì)統(tǒng)計(jì)活動(dòng)絕大多數(shù)還采用傳統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)方法,統(tǒng)計(jì)收集的經(jīng)濟(jì)信息存在一定的局限性,不能夠服務(wù)于經(jīng)濟(jì)管理活動(dòng)的整體,或者造成一些數(shù)據(jù)統(tǒng)計(jì)工作的重復(fù),對(duì)經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)工作造成了一系列的質(zhì)量和效率上的影響。經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)急需一個(gè)能夠整合各個(gè)統(tǒng)計(jì)系統(tǒng),實(shí)現(xiàn)統(tǒng)計(jì)數(shù)據(jù)信息融合的新技術(shù)。宏觀經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)庫(kù)為數(shù)據(jù)挖掘技術(shù)的開展提供了平臺(tái),數(shù)據(jù)管理系統(tǒng)的經(jīng)濟(jì)統(tǒng)計(jì)信息要正確無誤,然后經(jīng)過數(shù)據(jù)挖掘技術(shù)的整合,就能得到更加豐富的數(shù)據(jù)資源[3]。

2數(shù)據(jù)挖掘技術(shù)的應(yīng)用

在社會(huì)經(jīng)濟(jì)管理活動(dòng)中,管理主體對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的要求主要有兩個(gè)。一個(gè)是統(tǒng)計(jì)數(shù)據(jù)的真實(shí)性、一個(gè)是數(shù)據(jù)統(tǒng)計(jì)信息的實(shí)用性。單就這兩個(gè)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)要求而言,數(shù)據(jù)挖掘技術(shù)能夠很好地滿足經(jīng)濟(jì)統(tǒng)計(jì)工作的需求,是適用性極強(qiáng)的一種經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)技術(shù),其在具體的經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中主要有以下三種應(yīng)用方法。

2.1預(yù)處理方法在經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)活動(dòng)中,最為基礎(chǔ)的一種處理方式就是經(jīng)濟(jì)數(shù)據(jù)的預(yù)處理方法,因?yàn)閿?shù)據(jù)挖掘本身是一種基于提供基礎(chǔ)信息的智能分析技術(shù)。其本身是受基礎(chǔ)經(jīng)濟(jì)信息限制的,不可能無中生有代替經(jīng)濟(jì)數(shù)據(jù)收集系統(tǒng)的功能。所以所有作為數(shù)據(jù)挖掘系統(tǒng)數(shù)據(jù)基礎(chǔ)的經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息都應(yīng)該進(jìn)行預(yù)處理,處理的內(nèi)容主要包括對(duì)這些數(shù)據(jù)中不正確、不真實(shí)、不準(zhǔn)確,以及不同經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)信息之間差距較大的現(xiàn)象。對(duì)這些基礎(chǔ)數(shù)據(jù)存在的問題進(jìn)行處理的過程被稱為數(shù)據(jù)清理,當(dāng)前數(shù)據(jù)清理主要采用的方法有均值法、平滑法和預(yù)測(cè)法。其中均值法是現(xiàn)代分析技術(shù)中模糊理念的一種應(yīng)用形式,當(dāng)基礎(chǔ)數(shù)據(jù)中的一個(gè)數(shù)據(jù)點(diǎn)是空值或者噪聲數(shù)據(jù)的時(shí)候,可以采用均值法進(jìn)行處理,即用數(shù)據(jù)庫(kù)中所有該屬性已知的屬性均值來填補(bǔ)空缺。保證數(shù)據(jù)挖掘系統(tǒng)對(duì)基礎(chǔ)數(shù)據(jù)的分析和整理能夠正常進(jìn)行,得出相對(duì)而言準(zhǔn)確度較高的統(tǒng)計(jì)分析數(shù)據(jù)。其中Ci表示當(dāng)前數(shù)據(jù)點(diǎn)的取值,Cj表示當(dāng)前數(shù)據(jù)點(diǎn)前后不為空的數(shù)據(jù)點(diǎn),K表示當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算所取的參考數(shù)據(jù)點(diǎn)數(shù)量[4]。平滑法依然是對(duì)基礎(chǔ)數(shù)據(jù)中空值和噪聲數(shù)據(jù)的計(jì)算方法,其與均值法的區(qū)別是用加權(quán)平均數(shù)代替了平均數(shù),考慮了計(jì)算過程中提取的每一個(gè)數(shù)據(jù)對(duì)數(shù)據(jù)結(jié)果的影響權(quán)重,所以計(jì)算出的結(jié)果往往更加接近真實(shí)的數(shù)值。其中Ci表示當(dāng)前數(shù)據(jù)點(diǎn)的取值,Cj表示當(dāng)前數(shù)據(jù)點(diǎn)前后不為空的數(shù)據(jù)點(diǎn),K表示為對(duì)當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行計(jì)算所取的數(shù)據(jù)點(diǎn)數(shù)量。WJ表示Cj數(shù)據(jù)點(diǎn)的權(quán)值。

2.2集成化處理方法在數(shù)據(jù)挖掘技術(shù)的應(yīng)用活動(dòng)中,因?yàn)橄嗤貐^(qū)的數(shù)據(jù)統(tǒng)計(jì)主體不同,或者在不同地區(qū)對(duì)相同經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)標(biāo)準(zhǔn)不統(tǒng)一,會(huì)產(chǎn)生一系列的數(shù)據(jù)集成問題,如何對(duì)這些調(diào)查方向不同或者是呈現(xiàn)方式不同的數(shù)據(jù)進(jìn)行有效集成而不影響經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)的準(zhǔn)確性,是數(shù)據(jù)挖掘技術(shù)的重要任務(wù)。在具體的數(shù)據(jù)集成過程中主要考慮以下幾個(gè)方面的問題[5]。

2.2.1模式集成當(dāng)前因?yàn)樯鐣?huì)經(jīng)濟(jì)活動(dòng)中經(jīng)濟(jì)數(shù)據(jù)的統(tǒng)計(jì)內(nèi)容過于廣泛,很多經(jīng)濟(jì)數(shù)據(jù)統(tǒng)計(jì)并不是來自于官方的統(tǒng)計(jì)局而是來自一些民間統(tǒng)計(jì)組織,或者是由一線社會(huì)經(jīng)濟(jì)主體直接提供的經(jīng)濟(jì)數(shù)據(jù),在數(shù)據(jù)挖掘過程中將這些來自多個(gè)數(shù)據(jù)源存在多種數(shù)據(jù)呈現(xiàn)模式的經(jīng)濟(jì)數(shù)據(jù)信息進(jìn)行集成就涉及實(shí)體識(shí)別的問題。例如在數(shù)據(jù)挖掘過程中如何確定一個(gè)數(shù)據(jù)庫(kù)中“std-id”與另一個(gè)數(shù)據(jù)庫(kù)中的“std-no”是否表示同一實(shí)體,當(dāng)前一般使用數(shù)據(jù)庫(kù)與數(shù)據(jù)庫(kù)之間的含元數(shù)據(jù)對(duì)比來保證實(shí)體識(shí)別高效率和高質(zhì)量[6]。

2.2.2冗余問題數(shù)據(jù)挖掘本身是對(duì)經(jīng)濟(jì)統(tǒng)計(jì)數(shù)據(jù)的一種深加工技術(shù),經(jīng)過其加工的經(jīng)濟(jì)統(tǒng)計(jì)技術(shù)應(yīng)該在本質(zhì)上達(dá)到最簡(jiǎn)狀態(tài)。在數(shù)據(jù)挖掘過程中要將與其他數(shù)據(jù)呈現(xiàn)某種正相關(guān)關(guān)系的數(shù)據(jù)項(xiàng)目進(jìn)行精簡(jiǎn),以保證數(shù)據(jù)庫(kù)中數(shù)據(jù)量維持在一個(gè)較低的水平,為數(shù)據(jù)管理和應(yīng)用提供便利。在經(jīng)濟(jì)數(shù)據(jù)挖掘活動(dòng)中人均國(guó)民生產(chǎn)總值就是典型的冗余屬性,因?yàn)槠鋽?shù)值是可以通過國(guó)內(nèi)生產(chǎn)總值和總?cè)丝趯傩杂?jì)算出來的,所以類似人均國(guó)民生產(chǎn)總值這種冗余屬性在數(shù)據(jù)挖掘過程中就應(yīng)該精簡(jiǎn),應(yīng)用的時(shí)候在利用國(guó)民生產(chǎn)總值和人口屬性計(jì)算得出[7]。對(duì)冗余屬性的判斷主要通過相關(guān)度對(duì)比來實(shí)現(xiàn)。其中n表示元組的個(gè)數(shù),分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標(biāo)準(zhǔn)方差,在這一公式中如果則表示A、B兩個(gè)屬性是正相關(guān),也就是說A越大B就越大,值越高二者的正相關(guān)關(guān)系就越密切;如果則表示屬性A、B之間沒有直接關(guān)系,是相互獨(dú)立的;如果則表示A、B兩個(gè)屬性呈負(fù)相關(guān),屬性B會(huì)隨著屬性A的減小而增大,的絕對(duì)值越大,二者的負(fù)相關(guān)關(guān)聯(lián)關(guān)系就越密切。

2.3決策樹方法在數(shù)據(jù)挖掘技術(shù)應(yīng)用過程中,經(jīng)過系統(tǒng)的分析和總結(jié)以后,分析數(shù)據(jù)的輸出是一個(gè)關(guān)鍵的環(huán)節(jié),其輸出的數(shù)據(jù)形式會(huì)對(duì)使用者的經(jīng)濟(jì)管理決策產(chǎn)生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應(yīng)用的關(guān)鍵是決策樹的構(gòu)建,具體而言主要分為兩步:第一步是利用訓(xùn)練集建立并精簡(jiǎn)一棵決策樹,建立輸出分析的模型;第二步是利用構(gòu)建完畢的決策樹進(jìn)行輸入數(shù)據(jù)的分類,這一分類是一個(gè)遞歸的過程,從決策樹的根部開始進(jìn)入到樹干、枝丫,直到輸入數(shù)據(jù)的分類滿足了某種條件而停止。在具體的應(yīng)用中停止分割的條件有兩個(gè):一個(gè)是當(dāng)一個(gè)節(jié)點(diǎn)上的所有數(shù)據(jù)都屬于同一個(gè)類別的時(shí)候;另一個(gè)是沒有分類屬性可以對(duì)輸入數(shù)據(jù)進(jìn)行再分割[8]。在決策樹構(gòu)建完成后,還要根據(jù)使用者的具體要求對(duì)決策樹進(jìn)行“剪枝”,剪枝的主要目的是要降低因?yàn)槭褂糜?xùn)練集而對(duì)決策樹本身數(shù)據(jù)輸出產(chǎn)生的起伏影響。

3結(jié)語

第8篇

關(guān)鍵詞:數(shù)據(jù)挖掘電子商務(wù)數(shù)據(jù)庫(kù)

一、引言

電子商務(wù)是指以Internet網(wǎng)絡(luò)為載體、利用數(shù)字化電子方式開展的商務(wù)活動(dòng)。隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫(kù)技術(shù)的飛速發(fā)展,電子商務(wù)正顯示越來越強(qiáng)大的生命力。電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識(shí),為公司創(chuàng)造更多潛在的利潤(rùn)。利用數(shù)據(jù)挖掘技術(shù)可以有效地幫助企業(yè)分析從網(wǎng)上獲取的大量數(shù)據(jù),發(fā)現(xiàn)隱藏在其后的規(guī)律性,提取出有效信息,進(jìn)而指導(dǎo)企業(yè)調(diào)整營(yíng)銷策略,給客戶提供動(dòng)態(tài)的個(gè)性化的高效率服務(wù)。

二、數(shù)據(jù)挖掘技術(shù)

1.數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(DataMining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(KnowledgeDiscoveryinDatabase,KDD),是從大量的、不完全的、有噪聲的、模糊的和隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的,但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)挖掘是一門廣義的交叉學(xué)科,它匯聚了不同領(lǐng)域尤其是數(shù)據(jù)庫(kù)、人工智能、數(shù)理統(tǒng)計(jì)、可視化、并行計(jì)算等方面的知識(shí)。數(shù)據(jù)挖掘技術(shù)從一開始就是面向應(yīng)用領(lǐng)域,它不僅是面向特定數(shù)據(jù)庫(kù)的簡(jiǎn)單檢索查詢調(diào)用,而且,要對(duì)數(shù)據(jù)進(jìn)行微觀、中觀乃至宏觀的統(tǒng)計(jì)、分析、綜合和推理,以指定實(shí)際問題的求解,企圖發(fā)現(xiàn)事件間的相互關(guān)聯(lián),甚至利用已有的數(shù)據(jù)對(duì)未來的活動(dòng)進(jìn)行預(yù)測(cè)。數(shù)據(jù)挖掘技術(shù)在金融、保險(xiǎn)、電信、大型超市等積累有大量數(shù)據(jù)的電子商務(wù)行業(yè)有著廣泛的應(yīng)用,如信用分析、風(fēng)險(xiǎn)分析、欺詐檢驗(yàn)、用戶聚類分析、消費(fèi)者習(xí)慣分析等。

2.數(shù)據(jù)挖掘過程

挖掘數(shù)據(jù)過程可以分為3個(gè)步驟:數(shù)據(jù)預(yù)處理、模式發(fā)現(xiàn)、模式分析。

(1)數(shù)據(jù)預(yù)處理。實(shí)際系統(tǒng)中的數(shù)據(jù)一般都具有不完全性、冗余性和模糊性。因此,數(shù)據(jù)挖掘一般不對(duì)原始數(shù)據(jù)進(jìn)行挖掘,要通過預(yù)處理提供準(zhǔn)確、簡(jiǎn)潔的數(shù)據(jù)。預(yù)處理主要完成以下工作:包括合并數(shù)據(jù),將多個(gè)文件或多個(gè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行合并處理;選擇數(shù)據(jù),提取出適合分析的數(shù)據(jù)集合;數(shù)據(jù)清洗、過濾,剔除一些無關(guān)記錄,將文件、圖形、圖像及多媒體等文件轉(zhuǎn)換成可便于數(shù)據(jù)挖掘的格式等。

(2)模式發(fā)現(xiàn)。模式發(fā)現(xiàn)階段就是利用挖掘算法挖掘出有效的、新穎的、潛在的、有用的以及最終可以理解的信息和知識(shí)。可用于Web的挖掘技術(shù)有路徑選擇、關(guān)聯(lián)分析、分類規(guī)則、聚類分析、序列分析、依賴性建模等等。

(3)模式分析。模式分析是從模式發(fā)現(xiàn)階段獲得的模式、規(guī)則中過濾掉不感興趣的規(guī)則和模式。通過技術(shù)手段,對(duì)得到的模式進(jìn)行數(shù)據(jù)分析,得出有意義的結(jié)論。常用的技術(shù)手段有:關(guān)聯(lián)規(guī)則、分類、聚類、序列模式等。

三、電子商務(wù)中幾種常用的數(shù)據(jù)挖掘方法

1.關(guān)聯(lián)規(guī)則

關(guān)聯(lián)規(guī)則是數(shù)據(jù)挖掘研究的主要模式之一,側(cè)重于確定數(shù)據(jù)中不同領(lǐng)域之間的關(guān)系,找出滿足給定條件下的多個(gè)域間的依賴關(guān)系。關(guān)聯(lián)規(guī)則挖掘?qū)ο笠话闶谴笮蛿?shù)據(jù)庫(kù),該規(guī)則一般表示式為:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián),即根據(jù)一個(gè)事務(wù)中某些數(shù)據(jù)項(xiàng)的出現(xiàn)可以導(dǎo)出另一些數(shù)據(jù)項(xiàng)在同一事務(wù)中的出現(xiàn)。關(guān)聯(lián)分析的目的是挖掘出隱藏在數(shù)據(jù)間的相互關(guān)系。關(guān)聯(lián)規(guī)則用于尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購(gòu)買活動(dòng)中所買不同商品的相關(guān)性。關(guān)聯(lián)分析的典型例子是購(gòu)物籃分析,描述顧客的購(gòu)買行為,可以幫助零售商決定商品的擺放和捆綁銷售策略。如著名的(面包+黃油牛奶)例子就屬于關(guān)聯(lián)分析:在超市中,90%的顧客在購(gòu)買面包和黃油的同時(shí),也會(huì)購(gòu)買牛奶。直觀的意義是:顧客在購(gòu)買某種商品時(shí)有多大的傾向會(huì)購(gòu)買另外一些商品。找出所有類似的關(guān)聯(lián)規(guī)則,對(duì)于企業(yè)確定生產(chǎn)銷售、產(chǎn)品分類設(shè)計(jì)、市場(chǎng)分析等多方面是有價(jià)值的。

2.聚類分析方法

類聚分析就是直接比較樣本中各事物之間的性質(zhì),將性質(zhì)相近的歸為一類,而將性質(zhì)差別較大的分在不同的類。對(duì)變量聚類計(jì)算變量之間的距離,對(duì)樣本聚類則計(jì)算樣本之間的距離。它的目的是使得屬于同一類別的個(gè)體之間的距離盡可能小,而不同類別上的個(gè)體間的距離盡可能大。

聚類分析用于把有相似特性的客戶、數(shù)據(jù)項(xiàng)集合到一起。在電子商務(wù)中,聚類分析常用于市場(chǎng)細(xì)分。根據(jù)已有客戶的數(shù)據(jù),利用聚類技術(shù)將市場(chǎng)按客戶消費(fèi)模式的相似性分為若干細(xì)分市場(chǎng),以進(jìn)行有針對(duì)性的市場(chǎng)營(yíng)銷,提供更適合、更滿意的服務(wù)。如自動(dòng)給一個(gè)特定的客戶聚類發(fā)送銷售郵件,為一個(gè)客戶聚類動(dòng)態(tài)地改變一個(gè)特殊的站點(diǎn)等。通過對(duì)聚類的客戶特征的提取,電子商務(wù)網(wǎng)站還可以為客戶提供個(gè)性化的服務(wù)。

3.分類分析

分類系統(tǒng)是基于遺傳算法的機(jī)器學(xué)習(xí)中的一類,它包括一個(gè)簡(jiǎn)單的基于串規(guī)則的并行生成子系統(tǒng)、規(guī)則評(píng)價(jià)子系統(tǒng)和遺傳算法子系統(tǒng)。分類系統(tǒng)正在被人們?cè)絹碓蕉嗟貞?yīng)用于科學(xué)、工程和經(jīng)濟(jì)領(lǐng)域中,是目前遺傳算法研究領(lǐng)域中一個(gè)非常活躍的領(lǐng)域。

分類分析是數(shù)據(jù)挖掘中應(yīng)用最多的方法。分類要解決的問題是為一個(gè)事件或?qū)ο髿w類,既可以用于分析已有的數(shù)據(jù),也可以用來預(yù)測(cè)未來的數(shù)據(jù)。分類通過分析已知分類信息的歷史數(shù)據(jù),總結(jié)出一個(gè)預(yù)測(cè)模型,預(yù)測(cè)哪些人可能會(huì)對(duì)郵寄廣告、產(chǎn)品目錄等有反應(yīng),可以針對(duì)這一類客戶的特點(diǎn)展開商務(wù)活動(dòng),提供個(gè)性化的信息服務(wù)。

4.序列模式

序列模式挖掘就是要挖掘出交易集之間有時(shí)間序列關(guān)系的模式。它挖掘的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后或因果關(guān)系,找到那些“一些項(xiàng)跟隨另一些項(xiàng)”,以預(yù)測(cè)未來的訪問模式。序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫(kù)中形如“在某一段時(shí)間內(nèi),顧客購(gòu)買商品A,接著購(gòu)買商品B,而后購(gòu)買商品C,即序列A-B-C出現(xiàn)的頻率較高”之類的知識(shí)。序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫(kù)中,每個(gè)序列是按照交易時(shí)間排列的一組交易集,挖掘序列函數(shù)作用在這個(gè)交易序列數(shù)據(jù)庫(kù)上,返回該數(shù)據(jù)庫(kù)中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時(shí),同樣也需要有用戶輸入最小置信度C和最小支持度S。

序列模式便于進(jìn)行電子商務(wù)的組織,預(yù)測(cè)客戶的訪問模式,對(duì)客戶開展有針對(duì)性的廣告服務(wù)或者主動(dòng)推薦客戶感興趣的頁面,以滿足訪問者的特定要求。

四、結(jié)束語

第9篇

1數(shù)據(jù)挖掘技術(shù)

常見數(shù)據(jù)挖掘技術(shù)包括:分類樹技術(shù)、關(guān)聯(lián)發(fā)現(xiàn)技術(shù)、聚類技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、最優(yōu)集合規(guī)約技術(shù)以及可視數(shù)據(jù)挖掘技術(shù)等。軟件度量數(shù)據(jù)往往具有多維度、高耦合性,軟件工程數(shù)據(jù)挖掘中會(huì)采用一些特殊處理技術(shù),包括統(tǒng)計(jì)分析、回歸建模、分類樹以及神經(jīng)網(wǎng)絡(luò)等。在具體軟件工程實(shí)踐中,選擇何種挖掘技術(shù),其決定性因素為想要達(dá)成的目標(biāo)。

2數(shù)據(jù)挖掘?qū)崿F(xiàn)過程

通常,數(shù)據(jù)挖掘過程包括4個(gè)步驟,即選擇數(shù)據(jù)、預(yù)處理、實(shí)施挖掘以及吸收數(shù)據(jù)。數(shù)據(jù)挖掘整個(gè)過程具有交互性,有時(shí)數(shù)據(jù)需要重新選擇,有時(shí)也要對(duì)數(shù)據(jù)預(yù)處理進(jìn)行改進(jìn),也可能出現(xiàn)算法反復(fù)被調(diào)整現(xiàn)象,基于這種特征,數(shù)據(jù)挖掘時(shí)要設(shè)置反饋環(huán)。挖掘數(shù)據(jù)第1步是將管理和目標(biāo)反映到1個(gè)(或多個(gè))挖掘任務(wù)中,整個(gè)過程可主要?jiǎng)澐殖蔀榱N:1)評(píng)估、預(yù)測(cè)。評(píng)估包括對(duì)軟件產(chǎn)品、過程以及資源的屬性進(jìn)行相應(yīng)檢查就是整個(gè)評(píng)估過程,同時(shí)也需要根據(jù)這些屬性,賦值給未知屬性,當(dāng)然這些未知屬性需要進(jìn)行量化。評(píng)估工作完成后,要對(duì)屬性值進(jìn)行預(yù)測(cè)。2)分類。檢查1個(gè)特定實(shí)體屬性,根據(jù)結(jié)果將其劃分到另1個(gè)類別或范疇(事先定義好)中。3)關(guān)聯(lián)發(fā)現(xiàn)。關(guān)聯(lián)發(fā)現(xiàn)能夠識(shí)別出特定內(nèi)容中互相存在關(guān)聯(lián)某些屬性。如,可將找出在軟件開發(fā)屬性和產(chǎn)品屬性相互關(guān)聯(lián)的內(nèi)容找出來。4)聚類。將1個(gè)結(jié)構(gòu)不相同的群體劃分到另1個(gè)具有相同結(jié)構(gòu)的子群集合中,這個(gè)過程叫做聚類,它的劃分依據(jù)是成員之間具有高度相似性。5)數(shù)據(jù)可視化。數(shù)據(jù)可視化是利用可視化描述方法來定義復(fù)雜信息。6)可視數(shù)據(jù)探察。可視化數(shù)據(jù)探察是對(duì)描述工作的相應(yīng)拓展,可利用數(shù)據(jù)可視化交互控制來分析和檢視海量數(shù)據(jù)[3]。它應(yīng)用具有可視化功能和數(shù)據(jù)挖掘技術(shù)來對(duì)數(shù)據(jù)進(jìn)行處理。

3挖掘技術(shù)在軟件工程中應(yīng)用

上文提及到軟件工程度量,部分可利用信息已在海量數(shù)據(jù)中被提取出來,但普遍認(rèn)為更為有效且數(shù)量眾多的數(shù)據(jù)依然在軟件工程相關(guān)數(shù)據(jù)庫(kù)中隱藏,而沒有被發(fā)現(xiàn)。實(shí)際上,數(shù)據(jù)挖掘就是1種被公認(rèn)為提升軟件工程度量的技術(shù)。圖1為數(shù)據(jù)挖掘在軟件工程中的應(yīng)用。

3.1數(shù)據(jù)挖掘繁榮原因1)計(jì)算機(jī)硬件系統(tǒng)和軟件系統(tǒng)的基礎(chǔ)設(shè)施建立具備發(fā)現(xiàn)驅(qū)動(dòng)、分析數(shù)據(jù)等功能;2)每種技術(shù)都在實(shí)際應(yīng)用中不斷得到改進(jìn),其使用能力不斷提升。如,模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等有明顯進(jìn)步趨勢(shì);3)數(shù)據(jù)存儲(chǔ)、貯藏、集成成本不高,海量數(shù)據(jù)可輕松獲得。數(shù)據(jù)挖掘技術(shù)被人們認(rèn)識(shí),并在實(shí)踐中逐漸被重視,同時(shí)也給研究和進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)提供了便利條件。

3.2面臨挑戰(zhàn)軟件工程自身存在很多數(shù)據(jù)上的特殊性,給數(shù)據(jù)挖掘領(lǐng)域研究工作帶來制約和影響,主要表現(xiàn)在以下三個(gè)方面:1)數(shù)據(jù)復(fù)雜。軟件工程數(shù)據(jù)主要分為兩個(gè)組成部分,即結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括缺陷報(bào)告、版本信息等內(nèi)容,而非結(jié)構(gòu)化數(shù)據(jù)則包含數(shù)據(jù)代碼、相應(yīng)注釋以及文檔等內(nèi)容。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并不能同時(shí)適用一種算法,而且兩種數(shù)據(jù)間還存在對(duì)應(yīng)聯(lián)系。如,1個(gè)缺陷報(bào)告中往往包括缺陷代碼段。而結(jié)構(gòu)化數(shù)據(jù)里常常涵蓋部分非結(jié)構(gòu)化信息,非結(jié)構(gòu)化數(shù)據(jù)中亦是如此,這也是今后工作中需要重點(diǎn)解決的問題之一。2)非傳統(tǒng)分析存在局限。數(shù)據(jù)挖掘最終想實(shí)現(xiàn)的目標(biāo)就是將轉(zhuǎn)化而來的信息傳達(dá)給用戶,實(shí)現(xiàn)信息共享。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在使用過程中,信息手段比較單一,如文字、圖表等表達(dá)形式。其實(shí),軟件開發(fā)商對(duì)信息的要求很高,1個(gè)統(tǒng)計(jì)結(jié)果根本不能滿足其工作需求。為促進(jìn)軟件開發(fā)不斷向上發(fā)展,開發(fā)人員需要相關(guān)信息作為參考依據(jù),包括開發(fā)實(shí)際案例、編程所需模板、系統(tǒng)缺陷定位以及軟件結(jié)構(gòu)設(shè)計(jì)等。研究數(shù)據(jù)挖掘技術(shù),提升其實(shí)際使用功能,需要不斷提交新信息、新知識(shí),并改進(jìn)相應(yīng)手方法。3)挖掘結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)不夠具體。軟件工程數(shù)據(jù)挖掘尚未形成完善的結(jié)果表示體系,其評(píng)價(jià)體系也有待加強(qiáng)。人員在軟件開發(fā)過程中需要大量信心,這些信息非常具體且復(fù)雜,表示方法不盡相同,互相之間難以做出對(duì)比,也很難用定量方法去分析挖掘結(jié)果。

4結(jié)束語

“數(shù)據(jù)挖掘”是在發(fā)展過程中被人們定義的,但軟件工程中對(duì)此類數(shù)據(jù)的研究早就存在。數(shù)據(jù)挖掘技術(shù)能夠?yàn)檠芯寇浖こ虜?shù)據(jù)提供方便,具有重要應(yīng)用價(jià)值。因此,筆者認(rèn)為將兩者充分結(jié)合是計(jì)算機(jī)信息技術(shù)發(fā)展的必然趨勢(shì)。若以過程角度來看,軟件工程涉及到數(shù)據(jù)挖掘各個(gè)周期、階段,甚至是具體實(shí)施步驟;以技術(shù)角度看,數(shù)據(jù)挖掘在軟件工程中應(yīng)用廣泛。數(shù)據(jù)挖掘技術(shù)雖然在實(shí)踐中取得一定應(yīng)用效果,但還有更廣闊的空間沒有內(nèi)充分挖掘出來,為廣大從業(yè)人員提供創(chuàng)新空間。

作者:賀瑋單位:同濟(jì)大學(xué)軟件學(xué)院

第10篇

1.1安全技術(shù)資金不足

煤炭的持續(xù)開采會(huì)受到地質(zhì)條件的直接影響,過去國(guó)家投入眾多的設(shè)施,使用至今均已出現(xiàn)老化,并且維修量非常大。隨著礦井的不斷延深,礦壓極度強(qiáng)化,巷道的維修任務(wù)更是不斷的增加,礦井的供電以及通風(fēng)、提升與排水等都不能適應(yīng)生產(chǎn)的需要。

1.2安全管理模式傳統(tǒng)

與西方發(fā)達(dá)產(chǎn)煤國(guó)家相比較,我國(guó)的煤礦使用技術(shù)研究起步很晚。并且人力、財(cái)力非常缺乏,某些重大的安全技術(shù)問題,比如沖擊地壓以及煤和瓦斯的突出、地?zé)嵋约巴凰葹?zāi)害不能進(jìn)行有效的預(yù)測(cè)和控制。且受到以往傳統(tǒng)運(yùn)營(yíng)思想的直接作用與影響以及各個(gè)企業(yè)的經(jīng)濟(jì)實(shí)力的約束,我國(guó)的煤礦生產(chǎn)裝備和安全監(jiān)控設(shè)施相對(duì)落后。井巷的斷面設(shè)計(jì)以及支護(hù)強(qiáng)度的確定、支護(hù)材料的型號(hào)選擇較小。生產(chǎn)設(shè)施功率以及礦井的供風(fēng)量等富余參數(shù)非常低,極易出現(xiàn)事故。絕大多數(shù)的煤炭企業(yè)還是利用以往傳統(tǒng)的安全管理模式,各種報(bào)表計(jì)算仍是靠人工勞動(dòng)并且精確度很低。信息傳送的時(shí)間較長(zhǎng),且速度較慢,管理者的工作重復(fù)性很大,資料查詢十分困難,并且工作效率很低。安全檢查以及等級(jí)鑒定等總是憑借主觀意念以及相關(guān)的經(jīng)驗(yàn)。

1.3安全信息管理體制不健全

安全信息可以說是安全管理工作的重要依據(jù),它主要包括事故和職業(yè)傷害的有效記錄與分析統(tǒng)計(jì),職業(yè)的安全衛(wèi)生設(shè)施的相關(guān)研究與設(shè)計(jì)、生產(chǎn)以及檢驗(yàn)技術(shù),法律法規(guī)以及相應(yīng)技術(shù)標(biāo)準(zhǔn)和其變化的動(dòng)態(tài),教育培訓(xùn)以及宣傳和社會(huì)活動(dòng),國(guó)內(nèi)的新型技術(shù)動(dòng)態(tài)以及隱患評(píng)估與技術(shù)經(jīng)濟(jì)類分析和咨詢、決策的體系。信息體制的健全是安全體制工程以及計(jì)算機(jī)技術(shù)的有效結(jié)合,可促使安全工作轉(zhuǎn)型為定性和定量的超前預(yù)測(cè),不過大多數(shù)礦井還是處于起步與摸索階段,并未呈現(xiàn)出健全的體制,真正的使用還有待進(jìn)一步的發(fā)展。

2空間數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘研究行業(yè)的持續(xù)進(jìn)展,開始由起初的關(guān)系數(shù)據(jù)以及事務(wù)數(shù)據(jù)挖掘,發(fā)展至對(duì)空間數(shù)據(jù)庫(kù)的不斷挖掘。空間的信息還在逐漸地呈現(xiàn)各類信息體制的主體與基礎(chǔ)。空間數(shù)據(jù)是一項(xiàng)非常關(guān)鍵的數(shù)據(jù),具有比普通關(guān)系數(shù)據(jù)庫(kù)和事務(wù)數(shù)據(jù)庫(kù)更豐富、復(fù)雜的相關(guān)語義信息,且蘊(yùn)含了更豐富的知識(shí)。所以,雖說數(shù)據(jù)的挖掘最初是出現(xiàn)在關(guān)系數(shù)據(jù)挖掘以及事務(wù)的數(shù)據(jù)庫(kù),不過因?yàn)榭臻g數(shù)據(jù)庫(kù)中的發(fā)掘知識(shí),這就很快引起了各個(gè)研究者的關(guān)注與重視。很多的數(shù)據(jù)挖掘類研究工作都是從關(guān)系型以及事務(wù)型數(shù)據(jù)庫(kù)拓展至空間數(shù)據(jù)庫(kù)的。在地學(xué)領(lǐng)域中,隨著衛(wèi)星以及遙感技術(shù)的不斷使用,逐漸豐富的空間以及非空間的數(shù)據(jù)采集與儲(chǔ)存在較大空間數(shù)據(jù)庫(kù)中,大量的地理數(shù)據(jù)已經(jīng)算是超過了人們的處理能力,并且傳統(tǒng)的地學(xué)分析很難在這些數(shù)據(jù)中萃取并發(fā)現(xiàn)地學(xué)知識(shí),這也就給現(xiàn)階段的GIS帶來了很大的挑戰(zhàn),急切的需要強(qiáng)化GIS相應(yīng)的分析功能,提升GIS處理地學(xué)實(shí)際狀況的能力。數(shù)據(jù)挖掘以及知識(shí)發(fā)現(xiàn)的產(chǎn)生能滿足地球空間的數(shù)據(jù)處理要求,并推進(jìn)了傳統(tǒng)地學(xué)空間分析的不斷發(fā)展。依據(jù)地學(xué)空間數(shù)據(jù)的特性,把數(shù)據(jù)挖掘的方式融進(jìn)GIS技術(shù)中,呈現(xiàn)地學(xué)空間數(shù)據(jù)挖掘和知識(shí)發(fā)展的新地學(xué)數(shù)據(jù)分析理念與依據(jù)。

3煤礦安全管理水平的提升

3.1建設(shè)評(píng)價(jià)指標(biāo)體制庫(kù)

評(píng)價(jià)指標(biāo)體制庫(kù)是礦井的自然災(zāi)害危害存在的具體參數(shù)式的知識(shí)庫(kù)。模型的組建務(wù)必要根據(jù)礦井的瓦斯以及水害等自然災(zāi)害危害呈現(xiàn)的不同指標(biāo)體制和其臨界值構(gòu)建一定的指標(biāo)體制庫(kù),危害的警報(bào)識(shí)別參數(shù)關(guān)鍵是采掘工程的平面圖動(dòng)態(tài)開采面以及相應(yīng)的巷道。各種瓦斯的危害以及水害隱患和通風(fēng)隱患均呈現(xiàn)一定的評(píng)價(jià)指標(biāo)庫(kù)。

3.2構(gòu)建專業(yè)的分析模型庫(kù)

依據(jù)瓦斯以及水害等諸多不同的礦井自然災(zāi)害類別構(gòu)建相關(guān)的專業(yè)性模型庫(kù),比如瓦斯的災(zāi)害預(yù)測(cè),應(yīng)根據(jù)礦井的地質(zhì)條件以及煤層所賦存的狀況構(gòu)建瓦斯的地質(zhì)區(qū)分圖,再根據(jù)采掘工程的平面圖動(dòng)態(tài)呈現(xiàn)的采掘信息以及相應(yīng)的瓦斯分區(qū)構(gòu)建關(guān)聯(lián)并實(shí)行相應(yīng)的比較分析,確定可以采集區(qū)域未來的可采區(qū)域是不是高瓦斯區(qū)域。

3.3構(gòu)建以GIS空間分析為基礎(chǔ)的方法庫(kù)

GIS空間分析可以說是礦井自然災(zāi)害的隱患高度識(shí)別的關(guān)鍵性方式,并且還是安全故障警報(bào)的主要路徑。比如斷層的防水層的有效劃分,關(guān)鍵是根據(jù)斷層的保安煤柱來實(shí)行可靠的確定。斷層的保安煤柱確定可以利用GIS緩沖區(qū)域的分析得到。空間的統(tǒng)計(jì)分析以及多源信息有效擬合和數(shù)據(jù)挖掘亦是瓦斯和水害等安全隱患監(jiān)測(cè)經(jīng)常使用GIS空間分析方式,如物探水文的異常區(qū)域確定以及瓦斯突出相應(yīng)的危險(xiǎn)區(qū)域確定。

3.4決策支持體制與煤礦管理水平

評(píng)價(jià)指標(biāo)體制庫(kù)以及模型庫(kù)、方式庫(kù)與圖形庫(kù)均是礦井的自然災(zāi)害隱患識(shí)別和決策的最基礎(chǔ)。利用礦井的自然災(zāi)害隱患識(shí)別決策來支持體系具體的功能呈現(xiàn)礦井的自然災(zāi)害隱患識(shí)別以及決策分析,在根源處提高煤礦的安全管理水平。分類構(gòu)建礦井的自然災(zāi)害實(shí)時(shí)監(jiān)控體系,進(jìn)行動(dòng)態(tài)跟蹤相應(yīng)的災(zāi)害實(shí)時(shí)數(shù)據(jù),并事實(shí)呈現(xiàn)礦井的自然災(zāi)害數(shù)據(jù)或是信息和自然災(zāi)害的指標(biāo)體系庫(kù)以及模型庫(kù)與知識(shí)庫(kù)、空間數(shù)據(jù)庫(kù)的合理化比較,并運(yùn)用圖形庫(kù)的數(shù)據(jù)再通過GIS空間分析方式來確定安全隱患的,礦井自然災(zāi)害的隱患實(shí)時(shí)警報(bào)并進(jìn)行決策分析,以提交空間數(shù)據(jù)的自然災(zāi)害隱患識(shí)別以及分析處理的決策性報(bào)告。

4結(jié)語

第11篇

關(guān)鍵詞:遠(yuǎn)程開放教育,數(shù)據(jù)挖掘,應(yīng)用,智能化

 

1 前言

現(xiàn)代遠(yuǎn)程開放教育的全過程基本上都是通過瀏覽網(wǎng)站的形式進(jìn)行的,學(xué)生在Web上的行為都會(huì)產(chǎn)生大量的信息,這些信息在遠(yuǎn)程教育的全過程中十分寶貴,充分挖掘這些信息及其背后潛在的信息,反饋來指導(dǎo)遠(yuǎn)程教育中的各個(gè)環(huán)節(jié),以此來為學(xué)生提供個(gè)性化的服務(wù)內(nèi)容,增強(qiáng)遠(yuǎn)程開放教育的競(jìng)爭(zhēng)力。利用數(shù)據(jù)庫(kù)技術(shù)來存儲(chǔ)管理數(shù)據(jù),利用網(wǎng)絡(luò)和計(jì)算機(jī)學(xué)習(xí)的方法來分析數(shù)據(jù),從而挖掘出大量的隱藏在數(shù)據(jù)背后的知識(shí),即數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)---KDD(Knowledge Discovery in Databases),其中,數(shù)據(jù)挖掘技術(shù)便是最為關(guān)鍵的環(huán)節(jié)。論文參考網(wǎng)。基于遠(yuǎn)程開放教育將是當(dāng)前和未來教育的重要輔助系統(tǒng),本文提出并介紹信了把數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)代遠(yuǎn)程開放教育系統(tǒng)中。

2 數(shù)據(jù)挖掘概述

2.1數(shù)據(jù)挖掘(DataMining)定義

數(shù)據(jù)挖掘就是從大量存儲(chǔ)的數(shù)據(jù)中,利用模式識(shí)別、統(tǒng)計(jì)和數(shù)學(xué)的技術(shù),篩選發(fā)現(xiàn)新的有意義的關(guān)系、模式和趨勢(shì)的方法。就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。它主要依靠人工智能、機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)技術(shù),對(duì)數(shù)據(jù)進(jìn)行歸納推理,從中挖掘出潛在的模式,預(yù)測(cè)未來趨勢(shì),為決策提供支持。

2.2數(shù)據(jù)挖掘的主要任務(wù)

(1)關(guān)聯(lián)分析。兩個(gè)或兩個(gè)以上變量的取值之間存在的規(guī)律性稱為關(guān)聯(lián)。數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的、可被發(fā)現(xiàn)的知識(shí)。關(guān)聯(lián)分析的目的是找出數(shù)據(jù)庫(kù)中隱藏的關(guān)聯(lián)網(wǎng)。

(2)聚類分析。聚類是把數(shù)據(jù)按照相似性歸納成若干類別,同一類中的數(shù)據(jù)彼此相似,不同類中的數(shù)據(jù)相異。

(3)分類。分類就是找出一個(gè)類別的概念描述,它代表了這類數(shù)據(jù)的整體信息。

(4)預(yù)測(cè)。預(yù)測(cè)是利用歷史數(shù)據(jù)找出變化規(guī)律,建立模型,并由此模型對(duì)未來數(shù)據(jù)的種類及特征進(jìn)行預(yù)測(cè)。

(5)時(shí)序模式。時(shí)序模式是指通過時(shí)間序列搜索出的重復(fù)發(fā)生概率較高的模式。它是用己知的數(shù)據(jù)預(yù)測(cè)未來的值,但這些數(shù)據(jù)的區(qū)別是變量所處時(shí)間的不同。

(6)偏差分析。在偏差中包括很多有用的知識(shí),數(shù)據(jù)庫(kù)中的數(shù)據(jù)存在很多異常情況,發(fā)現(xiàn)數(shù)據(jù)庫(kù)中數(shù)據(jù)存在的異常情況是非常重要的。偏差檢驗(yàn)的基本方法就是尋找觀察結(jié)果與參照之間的差別。

2.3數(shù)據(jù)挖掘?qū)ο?/p>

根據(jù)信息存儲(chǔ)格式,用于挖掘的對(duì)象有關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)以及Internet等。

2.4數(shù)據(jù)挖掘技術(shù)實(shí)施的步驟

(1)確定業(yè)務(wù)對(duì)象。清晰地定義出業(yè)務(wù)問題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問題應(yīng)是有預(yù)見的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有評(píng)價(jià),并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶。

(2)數(shù)據(jù)準(zhǔn)備。這個(gè)階段的工作包括數(shù)據(jù)集成、數(shù)據(jù)選擇、預(yù)分析和轉(zhuǎn)換。要對(duì)Web服務(wù)器上的數(shù)據(jù)進(jìn)行挖掘,必須研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題,只有將這些站點(diǎn)的數(shù)據(jù)都集成起來,提供給用戶一個(gè)統(tǒng)一的視圖,才有可能從巨大的數(shù)據(jù)資源中獲取所需的東西。

(3)數(shù)據(jù)挖掘。這個(gè)階段就是利用數(shù)據(jù)挖掘工具對(duì)經(jīng)過轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘和發(fā)現(xiàn)知識(shí)的過程。不同的數(shù)據(jù)挖掘工具有不同的算法,面向不同的分析需求,并且當(dāng)具體使用操作時(shí),也在一定程度上受到數(shù)據(jù)分析人員的思維方式和行為習(xí)慣的影響。數(shù)據(jù)挖掘利用人工智能領(lǐng)域中一些已經(jīng)成熟的算法和技術(shù)。如:人工神經(jīng)網(wǎng)絡(luò)、遺傳算法、決策樹方法、鄰近搜索算法、規(guī)則推理、模糊邏輯、公式發(fā)現(xiàn)等來進(jìn)行數(shù)據(jù)的挖掘。

(4)結(jié)果分析。論文參考網(wǎng)。數(shù)據(jù)挖掘的結(jié)果由分析人員根據(jù)發(fā)現(xiàn)知識(shí)的領(lǐng)域重要性、可信度和支持度等閥值來對(duì)發(fā)現(xiàn)結(jié)果進(jìn)行評(píng)價(jià),并以用戶能理解和觀察的方式將發(fā)現(xiàn)的知識(shí)呈現(xiàn)給用戶。通常會(huì)用到可視化技術(shù)。

(5)知識(shí)的同化。將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。

3 現(xiàn)代遠(yuǎn)程開放教育系統(tǒng)簡(jiǎn)介

遠(yuǎn)程開放教育系統(tǒng)能實(shí)現(xiàn)個(gè)性化學(xué)習(xí)、實(shí)時(shí)教學(xué)、實(shí)時(shí)考試和智能答疑。為每一個(gè)接受網(wǎng)絡(luò)遠(yuǎn)程教育的學(xué)習(xí)者提供個(gè)性化的學(xué)習(xí)進(jìn)程。能根據(jù)與當(dāng)前學(xué)習(xí)者相類似的學(xué)生的學(xué)習(xí)模式自動(dòng)地對(duì)其后繼知識(shí)的學(xué)習(xí)進(jìn)行預(yù)測(cè)以及合理推薦,并對(duì)學(xué)習(xí)者的學(xué)習(xí)過程進(jìn)行分階段的評(píng)價(jià),依據(jù)其績(jī)效信息動(dòng)態(tài)調(diào)整其學(xué)習(xí)難度、練習(xí)與測(cè)試內(nèi)容,對(duì)學(xué)生提出的問題實(shí)現(xiàn)智能化答疑,對(duì)該學(xué)習(xí)者薄弱環(huán)節(jié)進(jìn)行有效指導(dǎo),做到因材施教和全天候?qū)W習(xí)。

遠(yuǎn)程開放教育系統(tǒng)由用戶系統(tǒng)、WEB服務(wù)器、應(yīng)用服務(wù)器、數(shù)據(jù)服務(wù)器、用戶數(shù)據(jù)庫(kù)和資源數(shù)據(jù)庫(kù)組成。

用戶系統(tǒng)用于實(shí)現(xiàn)遠(yuǎn)程開放教育系統(tǒng)的顯示功能,其功能是:實(shí)現(xiàn)信息的和接受,管理員通過它來實(shí)現(xiàn)系統(tǒng)的管理、更新、維護(hù)等,主要是通過XML語言和HTTP協(xié)議實(shí)現(xiàn)WEB瀏覽器與WEB服務(wù)器的鏈接和信息通訊。WEB服務(wù)器用于完成遠(yuǎn)程開放教育系統(tǒng)的事務(wù)處理,用于處理學(xué)習(xí)過程中的各種事務(wù)。應(yīng)用服務(wù)器直接為WEB服務(wù)器提供相關(guān)服務(wù),處理WEB服務(wù)器以及XML文檔組成的用戶的事務(wù)請(qǐng)求信息。論文參考網(wǎng)。數(shù)據(jù)庫(kù)服務(wù)器用于完成數(shù)據(jù)處理,為應(yīng)用服務(wù)器提供相關(guān)服務(wù),完成數(shù)據(jù)查詢、修改和更新等服務(wù),并把運(yùn)行結(jié)果反饋給應(yīng)用服務(wù)器。資源數(shù)據(jù)庫(kù)中主要由遠(yuǎn)程開放教育系統(tǒng)中要使用的課件庫(kù)、答疑庫(kù)、作業(yè)庫(kù)、試題庫(kù)和必要的超級(jí)鏈接等構(gòu)成。用戶數(shù)據(jù)庫(kù)主要用于存儲(chǔ)遠(yuǎn)程開放教育系統(tǒng)中要使用的的注冊(cè)檔案、用戶目前的學(xué)習(xí)內(nèi)容、學(xué)習(xí)進(jìn)展、作業(yè)情況和考試情況等信息。

4 數(shù)據(jù)挖掘技術(shù)在遠(yuǎn)程開放教育中的應(yīng)用

現(xiàn)代遠(yuǎn)程開放教育是隨著現(xiàn)代信息技術(shù)的發(fā)展而產(chǎn)生的一種新型教育形式,其基本特征是利用計(jì)算機(jī)網(wǎng)絡(luò)和多媒體技術(shù),提供豐富的教學(xué)資源供學(xué)習(xí)者選用,教學(xué)形式由原來的以教為主變?yōu)橐詫W(xué)為主。數(shù)據(jù)挖掘技術(shù)在現(xiàn)代遠(yuǎn)程開放教育中的應(yīng)用主要有以下幾方面:

(1)在個(gè)性化學(xué)習(xí)方面的應(yīng)用

由于每個(gè)學(xué)習(xí)者的知識(shí)背景、學(xué)習(xí)習(xí)慣和學(xué)習(xí)目標(biāo)都不一樣,故個(gè)性化學(xué)習(xí)在遠(yuǎn)程開放教育中就顯得非常重要。為了實(shí)現(xiàn)此功能,基于WEB的智能遠(yuǎn)程開放教育系統(tǒng)首先要根據(jù)學(xué)習(xí)者的特點(diǎn)和學(xué)習(xí)目標(biāo)來收集學(xué)習(xí)者的數(shù)據(jù)信息,然后對(duì)收集到的信息進(jìn)行預(yù)處理,再應(yīng)用一種合理的挖掘算法或綜合應(yīng)用不同的算法,如關(guān)聯(lián)規(guī)則分析、聚類和分類技術(shù)、統(tǒng)計(jì)分析以及時(shí)序模式技術(shù)等,來處理此數(shù)據(jù),最終發(fā)現(xiàn)用戶的訪問模式,但是通過模式挖掘后,生成的規(guī)則數(shù)目大、表達(dá)晦澀且不好用,這時(shí)就需要用到智能查詢機(jī)制、可視化和聯(lián)機(jī)分析等技術(shù)對(duì)模式進(jìn)行分析評(píng)價(jià),經(jīng)過模式分析和應(yīng)用技術(shù)處理后,選擇一種學(xué)習(xí)者易于理解和接受的表達(dá)方式將知識(shí)數(shù)據(jù)顯現(xiàn)出來。利用數(shù)據(jù)挖掘與學(xué)習(xí)內(nèi)容綁定的技術(shù),系統(tǒng)就可以以可視化方式來指導(dǎo)學(xué)習(xí)者學(xué)習(xí)和個(gè)性化發(fā)展,這樣系統(tǒng)就實(shí)現(xiàn)了個(gè)性化學(xué)習(xí)功能。

(2)在資源庫(kù)建設(shè)方面的應(yīng)用

資源庫(kù)建設(shè)在整個(gè)系統(tǒng)中至關(guān)重要,為了建立覆蓋面廣、功能齊全的資源庫(kù),我們就必須編制信息資源目錄,征集種類資源信息,并進(jìn)行資源、資源信息篩選、資源信息整理和存儲(chǔ);同時(shí)按學(xué)科門類建設(shè)積件庫(kù)。當(dāng)老師在系統(tǒng)內(nèi)制作課件,為了有針對(duì)性和避免重復(fù),我們可以對(duì)所有學(xué)習(xí)者已選的課程進(jìn)行聚類,并通過聚類學(xué)習(xí)算法來自動(dòng)確定每門課程的類別標(biāo)記。接著利用數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則,估計(jì)出一組相關(guān)同位類課程,再利用泛化關(guān)聯(lián)規(guī)則,找到其上位類課程,或利用序列模式,預(yù)測(cè)出與之有關(guān)的學(xué)生未來可能選擇的同級(jí)課程,最后圍繞學(xué)習(xí)者的需求權(quán)限進(jìn)行課程設(shè)置。

(3)在實(shí)時(shí)教學(xué)方面的應(yīng)用

在本系統(tǒng)中,由于引入了互聯(lián)網(wǎng)技術(shù)、人工智能技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和知識(shí)發(fā)現(xiàn)技術(shù),通過機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等方法設(shè)計(jì)出了個(gè)性化處理引擎,從大量的數(shù)據(jù)中進(jìn)行數(shù)據(jù)挖掘,提取有用的、潛在的信息。學(xué)生可以通過網(wǎng)絡(luò)實(shí)現(xiàn)每天24小時(shí)的學(xué)習(xí),而且本系統(tǒng)可以更多且及時(shí)的了解到學(xué)生的學(xué)習(xí)學(xué)習(xí)進(jìn)度、需求、能力、興趣愛好等方面的信息,并動(dòng)態(tài)地根據(jù)這些信息調(diào)整學(xué)習(xí)計(jì)劃和進(jìn)度,讓學(xué)生得到針對(duì)其“個(gè)性”的教育,實(shí)現(xiàn)因材施教。

(4)在智能答疑方面的應(yīng)用

基于WEB的遠(yuǎn)程教學(xué)系統(tǒng)中的智能答疑系統(tǒng)只要用戶能上網(wǎng),就可解答學(xué)生在學(xué)習(xí)過程中產(chǎn)生的問題。它能根據(jù)學(xué)生用戶訪問日志、問題記錄等數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,用智能抽取的方法實(shí)現(xiàn)智能答疑。從用戶訪問日志和提問信息里面可以分析出學(xué)生的行為。智能答疑系統(tǒng)后臺(tái)存儲(chǔ)了大量的由經(jīng)驗(yàn)豐富的教師精心挑選的問題答案,對(duì)于用戶提出的問題.系統(tǒng)首先通過對(duì)問題的分析自動(dòng)在數(shù)據(jù)庫(kù)中尋找最適合的答案。這樣通過數(shù)據(jù)挖掘,針對(duì)學(xué)生用戶提問記錄、日志不斷更新和調(diào)整學(xué)生用戶知識(shí)庫(kù),使問題的回答更加精確。

(5)在實(shí)時(shí)考試方面的應(yīng)用

本系統(tǒng)的實(shí)時(shí)考試系統(tǒng)是一個(gè)基于數(shù)據(jù)庫(kù)和WEB的遠(yuǎn)程在線式實(shí)時(shí)的測(cè)試系統(tǒng)。它能考慮個(gè)別學(xué)習(xí)者的能力和特性,按照考試的目的和必要性,提供各種問項(xiàng)信息,如難易程度、辨別程度等。并且還能同步打分,提供成績(jī)進(jìn)展情況,根據(jù)個(gè)人特性解釋問題,按個(gè)人及科目對(duì)考試結(jié)果進(jìn)行各種統(tǒng)計(jì)分析和評(píng)價(jià),并存入學(xué)生用戶數(shù)據(jù)中。這些功能的實(shí)現(xiàn)是由于系統(tǒng)采用關(guān)聯(lián)規(guī)則、聚類和分類工具對(duì)數(shù)據(jù)庫(kù)中抽取的數(shù)據(jù)進(jìn)行處理,分析出學(xué)生的特性及其對(duì)課程各知識(shí)點(diǎn)的掌握程度,并結(jié)合學(xué)生的考試目的恰當(dāng)?shù)胤答伣o學(xué)生,這樣提高了學(xué)生學(xué)習(xí)的效率。

5 結(jié)束語

在現(xiàn)代遠(yuǎn)程開放教育網(wǎng)站設(shè)計(jì)中,基于XML(ExtensibleMarkup Language,可擴(kuò)展標(biāo)記語言)的新一代系統(tǒng)設(shè)計(jì)環(huán)境,可以更好地描述半結(jié)構(gòu)化和結(jié)構(gòu)化的數(shù)據(jù),更有利于進(jìn)行數(shù)據(jù)搜索和挖掘。如何整合XML和Web服務(wù)技術(shù),以此為契機(jī)開展數(shù)據(jù)挖掘和知識(shí)獲取,在現(xiàn)代遠(yuǎn)程開放教育網(wǎng)站的設(shè)計(jì)中以學(xué)習(xí)者為中心,提供一種基于資源的學(xué)習(xí),教學(xué)資源可以適應(yīng)各種學(xué)習(xí)者的需要和背景進(jìn)行不同的組合,提供更加優(yōu)良的、個(gè)性化的服務(wù)。

參考文獻(xiàn):

[1]李爽,陳麗.國(guó)內(nèi)外網(wǎng)上智能答疑系統(tǒng)比較研究[J].北京,中國(guó)電化教育,2003(5)

[2]蘇新寧.?dāng)?shù)據(jù)挖掘理論與技術(shù)[M].北京:科學(xué)技術(shù)文獻(xiàn)出版社,2003

[3]趙丹群.?dāng)?shù)據(jù)挖掘:原理、方法及其應(yīng)用[J].現(xiàn)代圖書情報(bào)技術(shù),2000,(6)

[4]周云真,舒建文,王平根.據(jù)挖掘在基于WEB的智能遠(yuǎn)程教育系統(tǒng)中的的應(yīng)用[J] .南京:文教資料,2006(10)

第12篇

摘 要 數(shù)據(jù)挖掘面對(duì)海量數(shù)據(jù)信息進(jìn)行選擇與運(yùn)用,在軟件工程快速發(fā)展的潮流中具有舉足輕重的作用。數(shù)據(jù)挖掘應(yīng)對(duì)數(shù)據(jù)豐富而知識(shí)匱乏的挑戰(zhàn),著眼于數(shù)據(jù)實(shí)用性對(duì)軟件工程知識(shí)庫(kù)的數(shù)據(jù)進(jìn)行深度挖掘。關(guān)鍵詞 數(shù)據(jù)挖掘 軟件工程 技術(shù)中圖分類號(hào):TP311

文獻(xiàn)標(biāo)識(shí)碼:A

計(jì)算機(jī)領(lǐng)域新技術(shù)應(yīng)用使各行業(yè)生成、收集和存儲(chǔ)了大量數(shù)據(jù)。大量信息數(shù)據(jù)給社會(huì)帶來方便也帶來大堆問題:信息過量,難以消化;信息真假難以辨識(shí);信息安全難以保證;信息形式不一致而難以統(tǒng)一處理。一般數(shù)據(jù)庫(kù)系統(tǒng)可高效實(shí)現(xiàn)數(shù)據(jù)錄入、查詢與統(tǒng)計(jì)等功能,卻無法發(fā)現(xiàn)數(shù)據(jù)存在的關(guān)系和規(guī)則。如何辨析信息和如何不被信息淹沒已經(jīng)成為現(xiàn)實(shí)問題。一、數(shù)據(jù)挖掘直面數(shù)據(jù)豐富而知識(shí)匱乏的挑戰(zhàn)

面對(duì)信息社會(huì)帶來的“數(shù)據(jù)豐富而知識(shí)匱乏”的現(xiàn)實(shí)挑戰(zhàn),數(shù)據(jù)挖掘(Data Mining,DM)和知識(shí)發(fā)現(xiàn)(Knowledge Discovery,KD)技術(shù)應(yīng)運(yùn)而生,伴隨計(jì)算機(jī)新技術(shù)和新理論的出現(xiàn)而發(fā)展,在電信與銀行,生物及大型超市等領(lǐng)域運(yùn)用效果顯著。數(shù)據(jù)挖掘有時(shí)又稱作數(shù)據(jù)庫(kù)知識(shí)發(fā)現(xiàn)(KDD),此術(shù)語出現(xiàn)于1989年,從數(shù)據(jù)集識(shí)別有效與新穎的,潛在有用的,最終可理解的模式過程。KDD過程常指多階段處理,包括數(shù)據(jù)準(zhǔn)備與模式搜索,知識(shí)評(píng)價(jià)及反復(fù)修改求精;該過程要有智能性和自動(dòng)性。有效性指發(fā)現(xiàn)新數(shù)據(jù)仍保持可信度,新穎性要求模式應(yīng)是新的,潛在有用性指發(fā)現(xiàn)的知識(shí)將來有效用,最終可理解性要求發(fā)現(xiàn)模式能被用戶所理解,幾項(xiàng)綜合在一起稱為數(shù)據(jù)的科學(xué)性豍。

數(shù)據(jù)挖掘的界定。數(shù)據(jù)挖掘是從存放在數(shù)據(jù)庫(kù)與數(shù)據(jù)倉(cāng)庫(kù)或其它存儲(chǔ)信息庫(kù)中的海量數(shù)據(jù)挖掘有趣知識(shí)過程。一般的定義是:數(shù)據(jù)挖掘是從大量、不完全、有噪聲、模糊、隨機(jī)的數(shù)據(jù)中抽取隱含其中,事先不為人所知、潛在、有效、新穎、有用和最終可理解知識(shí)的過程。研究人工智能學(xué)術(shù)人員和計(jì)算機(jī)技術(shù)專家通常所說數(shù)據(jù)挖掘名稱各異但實(shí)質(zhì)一樣。自然世界數(shù)據(jù)以多種多樣形式存放,除最常見數(shù)字與字符等類型,還有許多復(fù)雜數(shù)據(jù)。復(fù)雜類型數(shù)據(jù)挖掘包括:空間數(shù)據(jù)挖掘和多媒體數(shù)據(jù)挖掘,時(shí)序數(shù)據(jù)挖掘和文本數(shù)據(jù)挖掘,Web數(shù)據(jù)挖掘與流數(shù)據(jù)挖掘等。數(shù)據(jù)挖掘與傳統(tǒng)數(shù)學(xué)統(tǒng)計(jì)分析有區(qū)別,數(shù)據(jù)挖掘在沒有明確假設(shè)前提下自動(dòng)建立方程,可采用不同類型如文本、聲音、圖片等的數(shù)據(jù)挖掘興趣模式;統(tǒng)計(jì)數(shù)據(jù)分析工具側(cè)重被動(dòng)分析,需建立方程或模型來與假設(shè)吻合,最終面對(duì)數(shù)字化數(shù)據(jù);數(shù)據(jù)挖掘是主動(dòng)發(fā)現(xiàn)型與預(yù)測(cè)型數(shù)據(jù)分析工具,分析重點(diǎn)在于預(yù)測(cè)未來未知潛在情況并解釋原因。二、軟件工程的產(chǎn)生與數(shù)據(jù)實(shí)用性

軟件工程概念源自軟件危機(jī),20世紀(jì)60年代末的“軟件危機(jī)”這個(gè)詞語頻繁出現(xiàn)計(jì)算機(jī)軟件領(lǐng)域,泛指計(jì)算機(jī)軟件開發(fā)和維護(hù)所遇到的系列嚴(yán)重問題。在軟件開發(fā)和維護(hù)過程中的軟件危機(jī)表現(xiàn)為軟件需求的增長(zhǎng)得不到滿足,軟件開發(fā)成本和進(jìn)度無法控制,軟件質(zhì)量難保證,軟件維護(hù)程度非常低,軟件成本不斷提高,軟件開發(fā)生產(chǎn)率趕不上計(jì)算機(jī)硬件發(fā)展和各種應(yīng)用需求增長(zhǎng)等。軟件危機(jī)產(chǎn)生的宏觀原因是軟件日益深入社會(huì)生活,軟件需求增長(zhǎng)速度超過軟件生產(chǎn)率提高,具體軟件工程任務(wù)的許多困難來源于軟件工程所面臨任務(wù)和其他工程之間各種差異以及軟件和其他工業(yè)產(chǎn)品的差異,即特殊性。軟件開發(fā)和維護(hù)過程存在的問題,與計(jì)算機(jī)軟件本身特點(diǎn)有關(guān),軟件開發(fā)過程進(jìn)度很難衡量,軟件質(zhì)量難以評(píng)價(jià),管理和控制軟件開發(fā)過程困難等。計(jì)算機(jī)軟件專家認(rèn)真研究解決軟件危機(jī)方法,逐步形成軟件工程概念,開辟工程學(xué)新領(lǐng)域即軟件工程學(xué)。軟件工程用工程、科學(xué)和數(shù)學(xué)原理與方法研制與維護(hù)計(jì)算機(jī)軟件有關(guān)技術(shù)及管理的方法。

軟件工程針對(duì)數(shù)據(jù)的處理具有系統(tǒng)的規(guī)范的系列辦法。1993年IEEE(電氣和電子工程師學(xué)會(huì))給軟件工程綜合定義為:將系統(tǒng)化、規(guī)范和可度量的方法應(yīng)用于軟件開發(fā)、測(cè)試、運(yùn)行和維護(hù)全過程,即將工程化應(yīng)用于軟件數(shù)據(jù)等設(shè)計(jì)中。軟件工程包括方法、工具和過程三個(gè)要素,方法是完成軟件工程項(xiàng)目技術(shù)手段;工具支持軟件開發(fā)、管理與文檔生成;過程支持軟件開發(fā)各個(gè)環(huán)節(jié)控制與管理。軟件工程的發(fā)展伴隨計(jì)算機(jī)與數(shù)據(jù)等相關(guān)技術(shù)的發(fā)展而進(jìn)步。三、軟件工程的知識(shí)庫(kù)應(yīng)用數(shù)據(jù)挖掘技術(shù)

蘊(yùn)含數(shù)據(jù)的特殊軟件的生命周期也是一個(gè)極其復(fù)雜演變過程,各個(gè)階段都會(huì)產(chǎn)生大量軟件數(shù)據(jù)。在設(shè)計(jì)文檔與程序源代碼,交流歷史與Bug報(bào)告,軟件運(yùn)行日志等方面產(chǎn)生的大量數(shù)據(jù),必然存在著對(duì)軟件開發(fā)和維護(hù)具有重要價(jià)值的信息。如能充分利用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)這些數(shù)據(jù)隱藏的知識(shí),可提高開發(fā)效率并避免錯(cuò)誤,增強(qiáng)軟件系統(tǒng)運(yùn)行穩(wěn)定性和可信性。利用數(shù)據(jù)挖掘技術(shù)處理軟件產(chǎn)生大量數(shù)據(jù)想法在上世紀(jì)70年代就出現(xiàn),但直到最近軟件數(shù)據(jù)挖掘領(lǐng)域才受到越來越多學(xué)者關(guān)注豏。軟件工程國(guó)際會(huì)議出現(xiàn)關(guān)于軟件數(shù)據(jù)挖掘研究工作組,許多數(shù)據(jù)挖掘會(huì)議與期刊陸續(xù)出現(xiàn)多篇高質(zhì)量與軟件工程相關(guān)學(xué)術(shù)論文,軟件數(shù)據(jù)挖掘已成為越來越關(guān)注熱點(diǎn)的研究領(lǐng)域。

軟件數(shù)據(jù)挖掘針對(duì)軟件工程版本控制,設(shè)計(jì)文檔及程序源代碼演化歷史等進(jìn)行挖掘,同時(shí),我們也可設(shè)計(jì)軟件工程數(shù)據(jù)倉(cāng)庫(kù)來統(tǒng)一存儲(chǔ)這些可利用的大量軟件的數(shù)據(jù)。應(yīng)用傳統(tǒng)數(shù)據(jù)挖掘的經(jīng)典算法來處理存放在軟件知識(shí)庫(kù)的各種數(shù)據(jù),提取有用信息來輔助軟件設(shè)計(jì)、開發(fā)與維護(hù)。會(huì)為開發(fā)人員提供有效的幫助。通過利用關(guān)聯(lián)規(guī)則挖掘算法尋找那些經(jīng)常被一起改變的實(shí)體如類、變量、函數(shù)、數(shù)據(jù)類型與控制語句等;或者利用關(guān)聯(lián)規(guī)則挖掘源代碼修改模式,挖掘存放在代碼庫(kù)軟件修改歷史模式;或者應(yīng)用關(guān)聯(lián)規(guī)則挖掘?qū)嶓w間依賴性,改進(jìn)系統(tǒng)架構(gòu)相關(guān)研究;或者通過對(duì)用戶操作日志與系統(tǒng)運(yùn)行狀態(tài)日志研究,建立基于用戶操作模式系統(tǒng)穩(wěn)定性預(yù)測(cè)模型等等。

總之,軟件工程數(shù)據(jù)集軟件知識(shí)庫(kù)包含的關(guān)于軟件工程演化歷史大量有價(jià)值的信息數(shù)據(jù),為研究和利用這兩類優(yōu)質(zhì)數(shù)據(jù),數(shù)據(jù)挖掘技術(shù)大有可為。 注釋:連一峰等.基于模式挖掘的用戶行為異常檢測(cè).計(jì)算機(jī)學(xué)報(bào),第25卷第3期.2002,3.毛國(guó)君等編著.數(shù)據(jù)挖掘原理與算法.清華大學(xué)出版社,2007,1.王磊.基于用戶操作模式的系統(tǒng)穩(wěn)定性研究.廣西師范大學(xué)碩士論文.2009,7.

主站蜘蛛池模板: 精品久久国产视频| 亚洲va国产| 国产1区在线观看| 久久久一区二区精品| 国产乱色国产精品播放视频| 欧美在线一区二区视频| 亚洲精品少妇一区二区| 国产一区免费在线观看| 99爱精品视频| 国产免费一区二区三区四区五区 | 国产91综合一区在线观看| 粉嫩久久久久久久极品| 国产一区二区电影| 少妇厨房与子伦在线观看| 免费观看xxxx9999片| 日韩无遮挡免费视频| 国产午夜精品免费一区二区三区视频 | 亚洲精品欧美精品日韩精品| 日韩精品午夜视频| 国产精品偷伦一区二区| 久久精品国产久精国产| 国产福利一区在线观看| 玖玖国产精品视频| 亚洲精品色婷婷| 日韩精品久久久久久久的张开腿让| 欧美激情视频一区二区三区| 免费观看xxxx9999片| 中文字幕理伦片免费看| 午夜黄色网址| 一区二区三区欧美在线| 天堂av色婷婷一区二区三区| 91精品视频在线免费观看| 欧美高清视频一区二区三区| 久久99国产综合精品| 久久aⅴ国产欧美74aaa| 国产精品乱码久久久久久久久 | 91精品啪在线观看国产线免费| 国产suv精品一区二区4| 亚洲国产精品一区在线| 四季av中文字幕一区| 亚洲乱亚洲乱妇28p| 亚洲精品国产91| 99国产精品久久久久老师| 91精品一区在线观看| 国产日韩麻豆| 国产69精品久久久久app下载 | 中文字幕a一二三在线| 国产精品久久国产三级国电话系列 | 午夜诱惑影院| 欧美黑人巨大久久久精品一区| 国产69精品福利视频| 国产精品久久久久久久久久嫩草| 日本午夜一区二区| 日韩av中文字幕在线免费观看| 中文字幕视频一区二区| 一区二区三区欧美视频| 99久久国产综合精品女不卡| 国产日产欧美一区二区| 欧美一区二区三区日本| 欧美在线观看视频一区二区 | 国产一区不卡视频| 欧美激情精品久久久久久免费 | 国产精品视频1区| 国产精品96久久久| 一区二区三区国产视频| 亚洲欧美色图在线| 天摸夜夜添久久精品亚洲人成| 欧美午夜一区二区三区精美视频| 国产精品欧美一区二区三区| 一区二区三区欧美视频| 久久99精品一区二区三区| 99国产精品久久久久99打野战| 国产一区在线免费| 日本护士hd高潮护士| 久久国产中文字幕| 日本道欧美一区二区aaaa| 四虎国产精品永久在线国在线| 国产91视频一区二区| 久久99国产精品久久99果冻传媒新版本| 精品videossexfreeohdbbw| 午夜大片网| 久久免费视频一区二区|