數(shù)據(jù)挖掘技術(shù)研究精品(七篇)

時(shí)間：2022-07-17 22:06:00

序論：寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感，挖掘那些隱藏在內(nèi)心深處的真相，好投稿為您帶來了七篇數(shù)據(jù)挖掘技術(shù)研究范文，愿它們成為您寫作過程中的靈感催化劑，助力您的創(chuàng)作。

篇(1)

1 空間數(shù)據(jù)挖掘研究概述

空間數(shù)據(jù)挖掘(spatial Data Mining,簡稱SDM),是指從空間數(shù)據(jù)庫中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過程?？臻g數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫技術(shù),可用于對空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識(shí)庫的構(gòu)造以及空間數(shù)據(jù)庫的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識(shí),發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。

空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來說,空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢分析和空間關(guān)聯(lián)規(guī)則四類。空間分類的目的是在空間數(shù)據(jù)庫對象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹?？臻g聚類是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法?？臻g趨勢分析指離開一個(gè)給定的起始對象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢的變化趨勢,空間趨勢分析需要使用回歸和相關(guān)的分析方法?？臻g關(guān)聯(lián)規(guī)則是指空間鄰接圖中對象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對初始空間數(shù)據(jù)庫進(jìn)行一次挖掘,然后再在裁剪過的數(shù)據(jù)庫上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。

空間數(shù)據(jù)挖掘過程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識(shí))、模式評(píng)估(根據(jù)某種興趣度度量并識(shí)別表示知識(shí)的真正有趣的模式),知識(shí)表示(使用可視化技術(shù)和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))等階段(見圖1)。空間數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過程。

2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用

空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。

利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫中發(fā)現(xiàn)如下幾種主要類型的知識(shí):普遍的幾何知識(shí)、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R(shí)。目前,這些知識(shí)已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場分析、企業(yè)客戶關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。

3 空間數(shù)據(jù)挖掘面臨的問題

(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來,并沒有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)?？臻g數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對象。

(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對海量的數(shù)據(jù)庫系統(tǒng),在空間數(shù)據(jù)挖掘過程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識(shí)發(fā)現(xiàn)、去除與任務(wù)無關(guān)的數(shù)據(jù),有效地降低問題的維數(shù),設(shè)計(jì)出更有效的知識(shí)發(fā)現(xiàn)算法。

(3) 沒有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語言。數(shù)據(jù)庫技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫查詢語言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。

(4) 空間數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識(shí)發(fā)現(xiàn)過程中很難充分有效地利用領(lǐng)域?qū)＜抑R(shí),用戶不能很好掌控空間數(shù)據(jù)挖掘過程。

(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對某個(gè)特定的問題,因而能夠發(fā)現(xiàn)的知識(shí)有限。

(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識(shí)發(fā)現(xiàn)過程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開發(fā)的知識(shí)系統(tǒng)僅局限于數(shù)據(jù)庫領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識(shí),知識(shí)發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫、知識(shí)庫、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。

上述問題使得從空間數(shù)據(jù)庫中提取知識(shí)比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫中提取知識(shí)更為困難,這給空間數(shù)據(jù)挖掘研究帶來了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來的發(fā)展中,還有很多理論和方法有待深入研究。

4 空間數(shù)據(jù)挖掘的發(fā)展趨勢

(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究?？臻g關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。

(2) 多源空間數(shù)據(jù)的預(yù)處理。空間數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。

(3)其他各種空間數(shù)據(jù)挖掘及其相關(guān)技術(shù)研究。如網(wǎng)絡(luò)環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識(shí)概念樹的自動(dòng)生成、基于空間不確定性(位置、屬性、時(shí)問等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫的知識(shí)發(fā)現(xiàn)等。

篇(2)

【關(guān)鍵詞】數(shù)據(jù)挖掘數(shù)據(jù)分類算法

在當(dāng)前的時(shí)代背景下，很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念，這既給計(jì)算機(jī)產(chǎn)業(yè)帶來了發(fā)展機(jī)遇，也帶來了挑戰(zhàn)。因?yàn)橄胍龊么髷?shù)據(jù)挖掘的相關(guān)工作，就一定要掌握數(shù)據(jù)分類算法，而數(shù)據(jù)分類算法可稱得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入，人們開發(fā)了多種多樣的分類算法，用以不斷減輕其難度。通常都是以數(shù)據(jù)分類器為基準(zhǔn)，進(jìn)行相應(yīng)的數(shù)據(jù)分類，包括決策樹類、Bayes類、基于關(guān)聯(lián)規(guī)則類以及利用數(shù)據(jù)庫技術(shù)類，本文將對它們進(jìn)行簡單的闡述。

1 決策樹分類算法

1.1 傳統(tǒng)算法

C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類算法，有著很明顯的優(yōu)點(diǎn)，如規(guī)則簡單易懂，實(shí)際操作易于上手。但是隨著計(jì)算機(jī)的不斷普及，數(shù)據(jù)的規(guī)模變的越來越龐大，其復(fù)雜程度也是日漸增長。C4.5已經(jīng)逐漸無法滿足新時(shí)期的數(shù)據(jù)分類處理工作了。并且由于決策樹分類算法的規(guī)則，決定了在數(shù)據(jù)分類的過程中，要對數(shù)據(jù)進(jìn)行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹的時(shí)候，這種缺點(diǎn)更加明顯。這不僅會(huì)影響數(shù)據(jù)分析的速度，也浪費(fèi)了更多的系統(tǒng)資源。對于大數(shù)據(jù)挖掘來說，C4.5更加無法勝任，因?yàn)镃4.5算法的適用范圍十分有限，只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù)，對于內(nèi)存無法保留的過于龐大的數(shù)據(jù)集，C4.5甚至?xí)霈F(xiàn)無法運(yùn)行的情況。

1.2 衍生算法

（1）SLIQ算法和SPRINT算法都是由C4.5算法改良而來，在其基礎(chǔ)上做了一些技術(shù)性的完善，例如增強(qiáng)了數(shù)據(jù)的排序技術(shù)，并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個(gè)數(shù)，并具有相當(dāng)優(yōu)秀的可擴(kuò)展性，為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點(diǎn)，由于它是以C4.5算法為基礎(chǔ)的，因此在進(jìn)行數(shù)據(jù)處理時(shí)，仍需要將數(shù)據(jù)集保留在內(nèi)存中，這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長度一旦超過了排序的預(yù)定長度，SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。

（2）SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問題而開發(fā)出來的。SPRINT 算法重新定義了決策樹算法的數(shù)據(jù)分析結(jié)構(gòu)，改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是，它沒有像SLIQ 算法那樣講數(shù)據(jù)列表存儲(chǔ)在內(nèi)存當(dāng)中，而是將其融合到了每個(gè)數(shù)據(jù)集的屬性列表中，這樣既避免了數(shù)據(jù)查詢時(shí)重復(fù)掃描造成的速度緩慢，又釋放了內(nèi)存的壓力。特別是在進(jìn)行大數(shù)據(jù)挖掘時(shí)，由于數(shù)據(jù)的基數(shù)過大，在每個(gè)數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時(shí)間，對數(shù)據(jù)進(jìn)行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點(diǎn)，對于不具有可分裂屬性的數(shù)據(jù)列表，由于它只能在數(shù)據(jù)集內(nèi)進(jìn)行分析，結(jié)果可能不是十分準(zhǔn)確，導(dǎo)致其拓展性受到了限制。

2 其他分類算法

2.1 Bayes分類算法

Bayes分類算法是利用概率統(tǒng)計(jì)學(xué)而開發(fā)出來的一種算法，在目前數(shù)據(jù)分類中應(yīng)用比較廣泛。但是其缺點(diǎn)也比較明顯，由于Bayes分類算法需要在分析之前對數(shù)據(jù)的特性做出一定的假設(shè)，而這種假設(shè)往往缺少實(shí)際數(shù)據(jù)的理論支持，因此在數(shù)據(jù)分析過程中就很難做到準(zhǔn)確有效。在此之上，TAN算法又被開發(fā)出來，它是為了提高Bayes分類算法的假設(shè)命題的準(zhǔn)確率，也就是降低了NB任意屬性之間獨(dú)立的假設(shè)。

2.2 CBA分類數(shù)據(jù)算法

基于關(guān)聯(lián)規(guī)則的分類算法就是CBA分類數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類器，在數(shù)據(jù)分析的過程中，先搜索到所有的右部為類別的類別關(guān)聯(lián)規(guī)則，這被稱為CAR；然后再從CAR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù)，它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面，方便進(jìn)行歸納整理。但是由于其在進(jìn)行數(shù)據(jù)分類時(shí)容易出現(xiàn)疏漏，因此經(jīng)常采用設(shè)置最小支持度為0的辦法來減少遺漏的數(shù)據(jù)，這就造成了算法的優(yōu)化作用不能完全發(fā)揮，降低了運(yùn)行效率。

2.3 MIND和GAC-RDB算法分類算法

在大數(shù)據(jù)挖掘的背景下，未來數(shù)據(jù)分類算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的的分類算法。盡管很久之前就已經(jīng)有一些專門研究數(shù)據(jù)庫的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫技術(shù)的分類算法，但是并沒有得到實(shí)際運(yùn)用。因?yàn)樵谶M(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時(shí)候，很難將其與數(shù)據(jù)庫的系統(tǒng)集成，目前來說，MIND和GAC-RDB算法還能夠較好地解決這個(gè)問題。

2.3.1 MIND算法

MIND算法與決策樹算法有些相似，都是通過構(gòu)造數(shù)據(jù)分類器來進(jìn)行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語句來與數(shù)據(jù)庫系統(tǒng)實(shí)現(xiàn)關(guān)聯(lián)。在進(jìn)行數(shù)據(jù)分析時(shí)，UDF方法能夠大大縮短對每個(gè)節(jié)點(diǎn)的數(shù)據(jù)特性進(jìn)行分析的時(shí)間，這樣就在為數(shù)據(jù)庫的集成提供了理論基礎(chǔ)。SQL語句是通過對數(shù)據(jù)集的屬性進(jìn)行分析，以便從中選擇出最合適的分裂屬性，然后給數(shù)據(jù)排序，這樣就節(jié)省了數(shù)據(jù)分類的時(shí)間。但是MIND算法還不能直接在數(shù)據(jù)庫系統(tǒng)中實(shí)現(xiàn)查詢功能，更重要的是，該算法的維護(hù)成本過高，不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基礎(chǔ)上進(jìn)行了更多的改進(jìn)，能夠充分利用數(shù)據(jù)庫系統(tǒng)進(jìn)行聚集運(yùn)算，也就是實(shí)現(xiàn)了數(shù)據(jù)庫系統(tǒng)的集成。該算法擁有分類準(zhǔn)確，分析迅速，執(zhí)行更快的優(yōu)點(diǎn)，同時(shí)可拓展性也比較出色。更重要的是，它可以充分利用數(shù)據(jù)庫提供的查詢功能，從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象，縮短了分析的時(shí)間，節(jié)約了系統(tǒng)資源。只要在自動(dòng)確定參數(shù)取值的技術(shù)上進(jìn)行一些改進(jìn)，該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。

3 總結(jié)

大數(shù)據(jù)挖掘是時(shí)展的潮流，因此數(shù)據(jù)分類算法的重要性也將隨著顯現(xiàn)。通過分析幾種不同的算法，能夠在數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性上進(jìn)行比較，從而選擇最適合的數(shù)據(jù)分類算法。它們都在不同程度上有著各自的優(yōu)缺點(diǎn)，因此要繼續(xù)深入研究以開發(fā)出更好的分類算法。

參考文獻(xiàn)

[1]錢雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法的綜述，2014（13）.

[2]劉紅巖.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述，2002（06）.

篇(3)

關(guān)鍵詞:Web數(shù)據(jù)挖掘;電子商務(wù);XML應(yīng)用

中圖分類號(hào):TP311.13文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 10-0000-01

Web-based Data Mining Technology

Wang Wanchen

(Tianjin Polytechnic University,Tianjin300160,China)

Abstract:Web data mining referred to as Web mining,development from the data mining technology,also a new area of Web information.It help people intelligently and automatically get valuable knowledge from the mass information,reveal the objective world and the law of internal relations from these data,to solve practical problems in social development and for macro supporting decision-making.

Keywords:Web data mining;E-commerce;XML applications

一、引言

在20世紀(jì)60年代末,為了有效地管理和存取大量的數(shù)據(jù)資源,因此產(chǎn)生了數(shù)據(jù)庫技術(shù)。到了9O年代,人類的數(shù)據(jù)量可以用海洋來形容,同時(shí)也出現(xiàn)了一個(gè)問題,那就是“數(shù)據(jù)豐富,但信息貧乏”,為了解決這一問題,數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生。

二、基于web的數(shù)據(jù)挖掘需要解決的幾個(gè)問題

(一)異構(gòu)數(shù)據(jù)庫環(huán)境

Web上的每一個(gè)站點(diǎn)就是一個(gè)數(shù)據(jù)源。每個(gè)數(shù)據(jù)源都是異構(gòu)的,因而每一站點(diǎn)之間的信息和組織都不一樣,這就構(gòu)成了一個(gè)巨大的異構(gòu)數(shù)據(jù)庫環(huán)境。如果想要利用這些數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘,首先,必須要研究站點(diǎn)之間異構(gòu)數(shù)據(jù)的集成問題。其次,還要解決Web上的數(shù)據(jù)查詢問題。

(二)半結(jié)構(gòu)化的數(shù)據(jù)結(jié)構(gòu)

Web上的數(shù)據(jù)非常復(fù)雜,沒有特定的模型描述,每一站點(diǎn)的數(shù)據(jù)都各自獨(dú)立設(shè)計(jì),并且數(shù)據(jù)本身具有自述性和動(dòng)態(tài)可變性。因而。Web上的數(shù)據(jù)具有一定的結(jié)構(gòu)性,但因自述層次的存在。從而是一種非完全結(jié)構(gòu)化的數(shù)據(jù),這也被稱之為半結(jié)構(gòu)化數(shù)據(jù)。半結(jié)構(gòu)化是Web上數(shù)據(jù)的最大特點(diǎn)。

(三)解決半結(jié)構(gòu)化的數(shù)據(jù)源問題

針對Web上的數(shù)據(jù)半結(jié)構(gòu)化的特點(diǎn),尋找一個(gè)半結(jié)構(gòu)化的數(shù)據(jù)模型是解決問題的關(guān)鍵所在。除了要定義一個(gè)半結(jié)構(gòu)化數(shù)據(jù)模型外.還需要一種半結(jié)構(gòu)化模型抽取技術(shù),即自動(dòng)地從現(xiàn)有數(shù)據(jù)中抽取半結(jié)構(gòu)化模型的技術(shù)。

三、Web數(shù)據(jù)挖掘的主要過程

Web數(shù)據(jù)的特點(diǎn)決定了對其進(jìn)行有效數(shù)據(jù)挖掘具有極大的挑戰(zhàn)性。根據(jù)Web數(shù)據(jù)的特點(diǎn)。結(jié)合數(shù)據(jù)挖掘的一般過程,可以將Web數(shù)據(jù)挖掘流程描述如圖所示的數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、分析與評(píng)估和知識(shí)表述5個(gè)功能模塊。

圖1 面向Web數(shù)據(jù)挖掘功能模塊

(一)數(shù)據(jù)采集

按照主題相關(guān)的原則,數(shù)據(jù)采集模塊完成從外部的Web環(huán)境中有選擇地獲取數(shù)據(jù),為后面的數(shù)據(jù)挖掘提供素材和資源。Web環(huán)境所提供的數(shù)據(jù)源包括Web頁面數(shù)據(jù)、超鏈接數(shù)據(jù)和記錄用戶訪問情況的數(shù)據(jù)等。根據(jù)數(shù)據(jù)源形式的不同可以將Web數(shù)據(jù)挖掘分為基于內(nèi)容的挖掘、基于結(jié)構(gòu)的挖掘和基于用戶使用的挖掘等3種。每一種數(shù)據(jù)挖掘類型在數(shù)據(jù)采集過程中會(huì)使用不同的方法和技術(shù),但它們都有共同的基本過程。通常,數(shù)據(jù)采集由數(shù)據(jù)搜索、數(shù)據(jù)選擇和數(shù)據(jù)收集等3個(gè)相對獨(dú)立的過程組成。

(二)數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理模塊主要對數(shù)據(jù)采集所獲得的源數(shù)據(jù)進(jìn)行加工處理和組織重構(gòu).構(gòu)建相關(guān)主題的數(shù)據(jù)倉庫.為下一步的數(shù)據(jù)挖掘過程創(chuàng)建基礎(chǔ)平臺(tái)。數(shù)據(jù)預(yù)處理是為數(shù)據(jù)挖掘所做的前期準(zhǔn)備,它主要包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換、數(shù)據(jù)約簡等。

1.數(shù)據(jù)清理。

數(shù)據(jù)清理主要是去除源數(shù)據(jù)中的噪聲和無關(guān)數(shù)據(jù)。處理遺漏數(shù)據(jù)和清洗臟數(shù)據(jù),包括重復(fù)數(shù)據(jù)處理和缺值數(shù)據(jù)處理等.并且完成一些數(shù)據(jù)類型的轉(zhuǎn)換。例如將不同來源中的同類信息轉(zhuǎn)換成統(tǒng)一的存儲(chǔ)方式。

2.數(shù)據(jù)集成。

數(shù)據(jù)集成主要是將來自多個(gè)運(yùn)動(dòng)環(huán)境中的異構(gòu)數(shù)據(jù)進(jìn)行合并處理,解決語義的模糊性問題。其并非是數(shù)據(jù)的簡單合并,而是對異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一化和規(guī)范化處理的復(fù)雜過程。數(shù)據(jù)約簡是在對挖掘任務(wù)和數(shù)據(jù)內(nèi)容充分理解的基礎(chǔ)上,通過尋找數(shù)據(jù)的有用特征。在盡可能保持?jǐn)?shù)據(jù)信息原貌的前提下,最大限度地精減數(shù)據(jù)量,提高數(shù)據(jù)挖掘的算法效率。

(三)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘模塊是數(shù)據(jù)挖掘系統(tǒng)的核心部分,它的主要功能是運(yùn)用各種數(shù)據(jù)挖掘技術(shù)。從海量的經(jīng)過預(yù)處理的數(shù)據(jù)中提取出潛在的、有效且能被人理解的知識(shí)模式。概括地講。數(shù)據(jù)挖掘的最終目標(biāo)只有描述和預(yù)測兩個(gè),所謂描述就是用可理解的模式表達(dá)數(shù)據(jù)所包含的屬性和特征信息:而預(yù)測則是指根據(jù)屬性的現(xiàn)有數(shù)據(jù)值找出其規(guī)律性,進(jìn)而推測出其在未來可能出現(xiàn)的屬性值。數(shù)據(jù)挖掘過程一般由數(shù)據(jù)準(zhǔn)備、挖掘操作、結(jié)果表達(dá)和解釋3階段組成。數(shù)據(jù)挖掘算法對數(shù)據(jù)有一定的要求,如數(shù)據(jù)冗余性小、數(shù)據(jù)屬性之間的相關(guān)性小、數(shù)據(jù)出錯(cuò)率小等。而現(xiàn)實(shí)世界所采集到的數(shù)據(jù)通常具有雜亂性、冗余性、不完整性等特點(diǎn),為此數(shù)據(jù)采掘必須經(jīng)過數(shù)據(jù)準(zhǔn)備階段以提高數(shù)據(jù)挖掘質(zhì)量。挖掘操作包括選擇合適的算法,進(jìn)行挖掘知識(shí)的操作,最后證實(shí)發(fā)現(xiàn)的知識(shí);表達(dá)和解釋階段是對結(jié)果進(jìn)行分析,提取出最有價(jià)值的信息。如果獲得的信息不能使決策者滿意,則需要重復(fù)以上數(shù)據(jù)挖掘階段。

(四)分析與評(píng)估

分析與評(píng)估模塊是對數(shù)據(jù)挖掘所得到的知識(shí)模式進(jìn)行可信度和有效性分析,并對其做出評(píng)估結(jié)論。為用戶的經(jīng)營決策提供信息支持。

(五)知識(shí)表述

知識(shí)表述模塊是指將利用數(shù)據(jù)挖掘工具從Web數(shù)據(jù)中挖掘出來的知識(shí)模式.用適當(dāng)?shù)男问奖憩F(xiàn)出來,以利于用戶接受和相互交流。

五、數(shù)據(jù)挖掘工具的評(píng)價(jià)標(biāo)準(zhǔn)

評(píng)價(jià)一個(gè)數(shù)據(jù)挖掘工具,需要從以下幾個(gè)方面來考慮:產(chǎn)生的模式種類的多少;解決復(fù)雜問題的能力;易操作性;數(shù)據(jù)存取能力;與其他產(chǎn)品的接口。基于Web的數(shù)據(jù)挖掘技術(shù)在處理極大量的數(shù)據(jù)時(shí),如何提高算法效率的問題;對于挖掘迅速更新的數(shù)據(jù)的挖掘算法的進(jìn)一步研究;在挖掘的過程中,提供一種與用戶進(jìn)行交互的方法,將用戶的領(lǐng)域知識(shí)結(jié)合在其中;對于數(shù)值型字段在關(guān)聯(lián)規(guī)則中的處理問題;生成結(jié)果的可視化方面等等有待于進(jìn)一步的研究。

六、結(jié)論

面向Web的數(shù)據(jù)挖掘是一項(xiàng)復(fù)雜的技術(shù),由于Web數(shù)據(jù)挖掘比單個(gè)數(shù)據(jù)倉庫的挖掘要復(fù)雜的多,因而面向Web的數(shù)據(jù)挖掘成了一個(gè)難以解決的問題。Web數(shù)據(jù)挖掘是目前信息技術(shù)中的研究熱點(diǎn),它是現(xiàn)代科學(xué)技術(shù)相互滲透與融合的必然結(jié)果。Web挖掘的分類及其所涉及的關(guān)鍵技術(shù)都處于初級(jí)階段,互聯(lián)網(wǎng)在技術(shù)和應(yīng)用上的不斷發(fā)展將會(huì)極大地促進(jìn)數(shù)據(jù)庫技術(shù)和數(shù)據(jù)挖掘技術(shù)的發(fā)展,研究數(shù)據(jù)挖掘在電子商務(wù)的應(yīng)用具有建設(shè)性的意義,對電子商務(wù)網(wǎng)站的設(shè)計(jì)、客戶關(guān)系管理、網(wǎng)絡(luò)營銷等方面起著重要的作用。

參考文獻(xiàn):

[1]陳京民.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù).北京:電子工業(yè)出版社,2002

[2]謝丹夏.Web上的數(shù)據(jù)挖掘技術(shù)和工具設(shè)計(jì).計(jì)算機(jī)工程與應(yīng)用,2001,6

[3]孫穎,毛波.基于數(shù)據(jù)挖掘技術(shù)的虛擬社區(qū)成員行為研究.計(jì)算機(jī)應(yīng)用,2003.1

[4]康曉東.基于數(shù)據(jù)倉庫的數(shù)據(jù)挖掘技術(shù).機(jī)械工業(yè)出版社,2004.1

[5]Jaideep Srivastava,Robert Cooley,Mukund Deshpande.Web Usage Mining:Discovery and Applications of Usage Patterns from Web Data.Sigkdd Explorations,2000(2):325-338

篇(4)

關(guān)鍵詞：數(shù)據(jù)挖掘；信息系統(tǒng)集成；K均值算法；聚類算法；BOM系統(tǒng)

中圖分類號(hào)：TP391

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：16727800（2017）004018503

0引言

充分利用企I信息系統(tǒng)集成中所產(chǎn)生的生產(chǎn)業(yè)務(wù)信息數(shù)據(jù)成為企業(yè)的關(guān)鍵技術(shù)，數(shù)據(jù)挖掘技術(shù)則是企業(yè)系統(tǒng)中使用的技術(shù)之一。數(shù)據(jù)挖掘指對數(shù)據(jù)庫中的海量數(shù)據(jù)進(jìn)行過程復(fù)雜的數(shù)據(jù)分析，從而獲得其中隱含信息的過程。根據(jù)用戶需求，選擇比較切合的數(shù)據(jù)挖掘算法，成為挖掘技術(shù)成功的關(guān)鍵。通過研究各種數(shù)據(jù)挖掘算法，筆者在眾多算法中選擇了K均值算法作為本文數(shù)據(jù)挖掘的基礎(chǔ)算法。

1K均值算法概述

1.1K均值算法概念

聚類問題是將給定的數(shù)據(jù)集合D劃分成一組聚類：{C1，C2，…}，Ci∈D，使不同種類中的數(shù)據(jù)盡可能不相似（或距離較遠(yuǎn)），同一種類中的數(shù)據(jù)盡可能相似（或距離較近）。聚類是一種無監(jiān)督的學(xué)習(xí)，所謂無監(jiān)督學(xué)習(xí)指事先并不知道要找的內(nèi)容，即沒有目標(biāo)變量，它將相似的對象歸到同一個(gè)簇中[13]。K均值（Kmeans）算法在聚類算法中使用最為廣泛。首先根據(jù)分類的個(gè)數(shù)k，隨機(jī)地選取k個(gè)初始的聚類中心，當(dāng)然這個(gè)k值是難以確定的，并把每個(gè)對象分配給離它最近的中心，分別得到起始的聚類點(diǎn)。然后，將當(dāng)前每個(gè)聚類的中心作為新的聚類中心，并把每個(gè)對象重新分配到最近的中心。不斷地循環(huán)迭代，直到目標(biāo)函數(shù)的最小值，即最終的聚類中心點(diǎn)沒有移動(dòng)。其中，目標(biāo)函數(shù)通常采用平方誤差準(zhǔn)則，即：其中，E表示所有聚類對象的平方誤差和，S是聚類對象，Mi是類Ci的各聚類對象的平均值，即：

其中，|Ci|表示類Ci的聚類對象數(shù)目。每一次迭代時(shí)，每一個(gè)點(diǎn)都要計(jì)算一遍它和各聚類中心的距離，并取最短距離的類作為該點(diǎn)所屬的類。直到E獲取最小值，最終表現(xiàn)為最后的聚類中心無法移動(dòng)。一般k的典型取值為2～10。

1.2K均值算法計(jì)算模型

假設(shè)在一片小區(qū)域中有若干數(shù)據(jù)點(diǎn)，如圖1所示。先假設(shè)k=2，即最終這些數(shù)據(jù)點(diǎn)會(huì)聚類成兩個(gè)類。K均值算法具體解釋如下：（1）由于k=2，任意的兩個(gè)數(shù)據(jù)點(diǎn)被選作初始類的聚類中心（圖中用點(diǎn)F、G表示），如圖1（a）所示。（2）將其余的各個(gè)點(diǎn)分配到距離最近的聚類中心點(diǎn)（本例中為F點(diǎn)、G點(diǎn)）所代表的類中，即求圖中所有點(diǎn)到各個(gè)聚類中心的距離。如果Si距離Ci近，則Si屬于Ci聚類。如圖1（b）所示，A、B點(diǎn)與F點(diǎn)的距離相對G點(diǎn)更近，所以屬于F點(diǎn)聚類，C、D、E點(diǎn)與G點(diǎn)相對F點(diǎn)距離更近，所以屬于G點(diǎn)聚類。（3）將聚類中心點(diǎn)F點(diǎn)、G點(diǎn)移動(dòng)到“自己”的聚類中心，如圖1（c）、圖1（d）所示。（4）重復(fù)步驟（2）、（3），直到每個(gè)類中的聚類對象（如圖1（e）中的點(diǎn)）不再重新分布為止，第一個(gè)點(diǎn)聚合了A、B、C，第二個(gè)點(diǎn)聚合了D、E，此時(shí)重復(fù)循環(huán)的迭代過程結(jié)束。

2.1系統(tǒng)概述

通過對K均值算法的介紹及其算法處理模型，筆者結(jié)合某制造型企業(yè)的信息化系統(tǒng)平臺(tái)用戶實(shí)際需求建立數(shù)據(jù)倉庫，在數(shù)據(jù)倉庫的基礎(chǔ)上使用數(shù)據(jù)挖掘中的K均值算法對大量數(shù)據(jù)進(jìn)行潛在信息的挖掘，并開發(fā)出基于K均值算法的挖掘器，輔助決策者進(jìn)行決策。假如數(shù)據(jù)庫中的數(shù)據(jù)關(guān)于產(chǎn)品信息生成了k個(gè)聚類中心，即k個(gè)中心點(diǎn)point，將其余的各個(gè)點(diǎn)分配到距離最近的聚類中心點(diǎn)所代表的類中，距離為distance，并獲取距聚類中心距離最小的距離min2，將該元素歸類于距離聚類中心點(diǎn)最近的那個(gè)聚類中，核心代碼如下：

private void clusterSet（） { float[] distance = new float[m]； for （int l = 0； l < length； l++） { for （int e = 0； e < m； e++） { distance[e] = distance（data.get（l）， point.get（e））； } int min2 = min1（distance）； cluster.get（min2）.add（data.get（l））； } } //將聚類中心點(diǎn)移動(dòng)到自己的聚類中心，求兩點(diǎn)誤差平方 private float result（float[] point1， float[] point） { float x = point1[0] - point[0]； float y = point1[1] - point[1]； float result1 = x * x + y * y； return result1； } //利用上述“求兩點(diǎn)誤差平方”的方法，計(jì)算誤差平方和準(zhǔn)則 private void result2（） { float a1 = 0； for （int r = 0； r < cluster.size（）； r++） { for （int j = 0； j < cluster.get（r）.size（）； j++） { a1 += result（cluster.get（r）.get（j）， point.get（r））； } } sum.add（a1）； } //設(shè)置新的聚類中心 private void setNewPoint（） { for （int h = 0； h < m； h++） { int n = cluster.get（h）.size（）； if （n ！= 0） { float[] newpoint = { 0， 0 }； for （int k = 0； k < n； k++） { newpoint[0] += cluster.get（h）.get（k）[0]； newpoint[1] += cluster.get（h）.get（k）[1]； } newpoint[0] = newpoint[0] / n； newpoint[1] = newpoint[1] / n； point.set（h， newpoint）； } } } //對第2、3步進(jìn)行重復(fù)迭代，直至得到算法最終結(jié)果 private void kmeans（） { init（）； while （true） { clusterSet（）； result2（）； if （n ！= 0） { if （sum.get（n） - sum.get（n - 1） == 0） { break； } } setNewPoint（）； n++； cluster.clear（）； cluster = cluster1（）； } }

2.2零部件市場需求分析

在銷售系統(tǒng)“零部件市場需求分析”模塊，主要針對銷售信息以及產(chǎn)品信息所建立的數(shù)據(jù)倉庫中的信息進(jìn)行數(shù)據(jù)挖掘。合同中記載了所銷售的產(chǎn)品圖號(hào)、數(shù)量、客戶相關(guān)信息等，同時(shí)根據(jù)產(chǎn)品圖號(hào)可以得到產(chǎn)品BOM信息。產(chǎn)品BOM信息即該產(chǎn)品的設(shè)計(jì)信息，包括零件信息、物料進(jìn)貨方式及加工作業(yè)方式、工藝信息、圖紙信息、層次碼、總數(shù)量等。其中零件信息主要有：零件圖號(hào)、零件名稱、材料、牌號(hào)、外形尺寸等；物料進(jìn)貨方式及加工作業(yè)方式主要包括：物料類別（如：配套件、緊固件）、物料進(jìn)場狀態(tài)（如：成品、半成品、毛胚）、加工方式（如：自加工、外加工）、加工內(nèi)容（如：金工、電工）；工藝信息即零部件加工的工藝信息；圖紙信息包括圖紙幅面等；層次碼主要用來標(biāo)注該零部件在產(chǎn)品中的所處位置；總數(shù)量即表明該零部件在產(chǎn)品中該層次碼下的個(gè)數(shù)。相同產(chǎn)品可能會(huì)有處于不同層次的相同零部件，不同產(chǎn)品可能會(huì)有相同零部件。因此，在所建立的數(shù)據(jù)倉庫基礎(chǔ)上，使用數(shù)據(jù)挖掘技術(shù)挖掘出查詢條件，從銷售的產(chǎn)品中具體細(xì)化到銷售需求較多的零部件，從而在企業(yè)決策時(shí)察覺出該情況。通過針對性地制定預(yù)投生產(chǎn)計(jì)劃、增加庫存，能夠幫助企業(yè)提高生產(chǎn)效率，對于市場快速反應(yīng)，以提高市場占有率。對于該部分功能，首先可以進(jìn)行條件查詢。查詢屬性有：產(chǎn)品圖號(hào)、產(chǎn)品型號(hào)、代號(hào)、名稱、規(guī)格尺寸、長度寬度、材料、牌號(hào)、年份和客戶編號(hào)。從查詢屬性看，這是多種搜索條件的組合；從數(shù)據(jù)挖掘角度看，這是在K-均值聚類算法設(shè)計(jì)的數(shù)據(jù)倉庫基礎(chǔ)上開發(fā)出來的一個(gè)數(shù)據(jù)挖掘工具。此項(xiàng)功能設(shè)計(jì)時(shí)是從月份出發(fā)，將每年的銷量按照月份呈現(xiàn)，因此“年份”是必選項(xiàng)，其余條件用戶可以自由組合。例如：選擇“2012年”，查詢結(jié)果如圖2所示。

該圖表示在2012年的銷售產(chǎn)品里對零部件數(shù)量進(jìn)行匯總的結(jié)果。通過該數(shù)據(jù)挖掘器，提出了銷量最領(lǐng)先的4個(gè)零部件。曲線代表其在各月的銷售總數(shù)及市場需求總數(shù)，單位以“百”計(jì)。每條曲線代表的零部件圖號(hào)在圖右側(cè)進(jìn)行了說明。該表示方法直觀、清晰，可以給決策者提供明確的零部件市場需求變化曲線圖。通過聚類結(jié)果可知，“零件圖號(hào)”為“8UE.016.0211”的零件，從八月開始銷量減少，并且其它3種零件在六月開始需求量變大，從而可使決策者在來年制定更合理的方案，以提高企業(yè)競爭力。

2.3廢料統(tǒng)計(jì)情況分析

廢料統(tǒng)計(jì)情況分析主要是針對生產(chǎn)中由于工人誤操作、材料劣質(zhì)、機(jī)器故障等各種原因造成所領(lǐng)物料報(bào)廢，需要重新領(lǐng)料進(jìn)行加工的情況進(jìn)行統(tǒng)計(jì)分析。物料是一個(gè)統(tǒng)稱，它包括可以直接領(lǐng)的成品、需要再加工的半成品，以及需要加工的原材料。因此，對于物料有一個(gè)物料編碼，專門對所有可領(lǐng)的成品、半成品、原材料進(jìn)行唯一標(biāo)示。物料編碼根據(jù)零件圖號(hào)、零件名稱、材料、牌號(hào)、外形尺寸、物料進(jìn)場狀態(tài)、物料類別、加工方式8個(gè)字段進(jìn)行唯一性區(qū)分。根據(jù)編碼方式，產(chǎn)生唯一的物料碼，例如“A00B021”。該企業(yè)的物料有“定額”和“非定額”兩種情況。“定額”即可以用個(gè)數(shù)來統(tǒng)計(jì)的零部件物料；“非定額”指無法用個(gè)數(shù)來統(tǒng)計(jì)的物料，如：5米長的銅線等。具體而言，本文主要研究針對某個(gè)工作令從生產(chǎn)開始到生產(chǎn)結(jié)束，所有定額物料的生產(chǎn)料廢情況。在工作令系統(tǒng)和領(lǐng)料單系統(tǒng)的基礎(chǔ)數(shù)據(jù)庫上建立數(shù)據(jù)倉庫。工作令系統(tǒng)的數(shù)據(jù)庫中存有工作令號(hào)、起始生產(chǎn)日期、結(jié)束生產(chǎn)日期及其它工作令的基本信息。領(lǐng)料單系統(tǒng)數(shù)據(jù)庫中的廢料表中存有料廢的物料編碼、材料、數(shù)量等信息。查詢屬性有：工作令號(hào)、合同號(hào)、起始時(shí)間和終止時(shí)間。填入工作令號(hào)“2B7-1D044205”，點(diǎn)擊“查詢”按鈕，會(huì)通過數(shù)據(jù)挖掘方法統(tǒng)計(jì)該工作令下的所有零件材料料廢情況，如表1所示。

表1清晰表明了該工作令號(hào)“2B7-1D044205”中各個(gè)物料損失的比重。從表中可以看出，以廢料“A03B004”、

“D03E334”和“E17B231”為聚類中心的廢料占多數(shù)，從而可以使企業(yè)決策者從這些材料損失中發(fā)現(xiàn)問題，分析物料損耗原因，如：采購質(zhì)量問題、工人操作失誤，還是其它可避免的各類原因。因此，該基于數(shù)據(jù)倉庫的數(shù)掘挖掘器，有利于輔助企業(yè)決策者從實(shí)際生產(chǎn)中找出各類潛在問題，從而制定合理的政策，降低生產(chǎn)損失，提高企業(yè)競爭力。

3結(jié)語

本文采用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)庫中積累的大量數(shù)據(jù)進(jìn)行了分析處理，系統(tǒng)雖然實(shí)現(xiàn)了將基于K均值算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用于信息化系統(tǒng)集成平臺(tái)中，但也只是實(shí)現(xiàn)了部分輔助決策功能。根據(jù)企業(yè)的具體使用情況，決策者肯定不會(huì)滿足于系統(tǒng)中已經(jīng)提供的決策支持功能，如何更近一步地發(fā)揮系統(tǒng)集成能力，開發(fā)更多決策支持功能，提高數(shù)據(jù)倉庫查詢速度，以滿足企業(yè)決策者更多需求，是下一階段研究的主要方向。

參考文獻(xiàn)：

[1]王欣，徐騰飛，唐連章，等.SQL Server2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京：中國水利水電出版社，2008：15.

[2]李銳，，曲亞東，等.機(jī)器學(xué)習(xí)實(shí)踐[M].北京：人民郵電出社，2013：184199.

[3]彭木根.數(shù)據(jù)倉庫技術(shù)與實(shí)現(xiàn)[M].北京：電子工業(yè)出版社，2002：321.

[4]陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].第2版.北京：清華大學(xué)出版社，2011：190.

[5]孫水華，趙釗林，劉建華.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘技術(shù)[M].北京：清華大學(xué)出版社，2012：122.

[6]李晶，陳驥.數(shù)據(jù)挖掘技術(shù)對ERP實(shí)施的重要性[J].福建電腦，2008（8）：6061.

篇(5)

>> Web數(shù)據(jù)挖掘中XML技術(shù)應(yīng)用研究 XML在Web數(shù)據(jù)挖掘中的應(yīng)用 XML 在Web 數(shù)據(jù)挖掘中的應(yīng)用探討基于XML的Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究基于XML數(shù)據(jù)庫的Web應(yīng)用研究數(shù)據(jù)挖掘在Web中的應(yīng)用研究 XML語言在Web開發(fā)中的應(yīng)用研究基于XML的Web數(shù)據(jù)挖掘模型的設(shè)計(jì)研究基于XML+Web Service的異構(gòu)數(shù)據(jù)交換技術(shù)應(yīng)用研究 Web數(shù)據(jù)挖掘在智能選課系統(tǒng)中的應(yīng)用研究 Web數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用研究數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究 Web數(shù)據(jù)挖掘及其在微博話題檢測中的應(yīng)用研究 Web數(shù)據(jù)挖掘技術(shù)在個(gè)性化網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究 WEB數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究基于XML技術(shù)的電子政務(wù)WEB數(shù)據(jù)挖掘研究基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)研究基于xml的web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn) Web數(shù)據(jù)挖掘在校園網(wǎng)搜索引擎系統(tǒng)中的應(yīng)用研究電子商務(wù)中Web數(shù)據(jù)挖掘與應(yīng)用研究常見問題解答當(dāng)前所在位置：L,XHTML and CSS Bible[M].4版.北京:人民郵電出版社,2009

[3] Bing Liu.Web DATA MINING[M].北京:清華大學(xué)出版社,2009(4).

[4] 孟小峰.XML數(shù)據(jù)管理概念技術(shù)[M].北京:清華大學(xué)出版社.2009(10).

[5] 王建麗,丁振國.一種基于XML的Web數(shù)據(jù)挖掘技術(shù)[J].西安科技學(xué)院學(xué)報(bào),2002,33(3).

[6] 沈潔,薛貴榮.一種基于XML的WEB數(shù)據(jù)挖掘模型[J].系統(tǒng)工程理論與實(shí)踐,2002(9).

篇(6)

>> 基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái) 云計(jì)算技術(shù)在醫(yī)療大數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)中的應(yīng)用大數(shù)據(jù)+云計(jì)算 SAP倡導(dǎo)構(gòu)建實(shí)時(shí)云基于云計(jì)算及大數(shù)據(jù)的移動(dòng)數(shù)字教育平臺(tái)建設(shè)研究 Web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)際運(yùn)用基于云計(jì)算平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究 Web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn) 基于云計(jì)算和大數(shù)據(jù)的智慧農(nóng)業(yè)平臺(tái) 試論大數(shù)據(jù)和云計(jì)算平臺(tái)應(yīng)用大數(shù)據(jù)和云計(jì)算平臺(tái)與應(yīng)用研究大數(shù)據(jù)和云計(jì)算平臺(tái)應(yīng)用研究云計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的構(gòu)建方式云計(jì)算時(shí)代的出國留學(xué)大數(shù)據(jù)構(gòu)建策略大數(shù)據(jù)和云計(jì)算基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)探討一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn) 協(xié)同云計(jì)算下的差異區(qū)域數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)與實(shí)現(xiàn) 一種基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn) 基于分布式思維的云計(jì)算數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì) 常見問題解答當(dāng)前所在位置：.

[5]康莉.“云計(jì)算”環(huán)境下電子商務(wù)安全問題及對策研究[J].信息技術(shù)，2012（8）：283284.

[6]李衛(wèi)，李濟(jì)漢，張?jiān)朴?，?電信運(yùn)營商云業(yè)務(wù)發(fā)展現(xiàn)狀分析與建議[J].互聯(lián)網(wǎng)天地， 2013（3）：715.

[7]曲悅.淺談云計(jì)算在圖書館建設(shè)中的價(jià)值及問題[J].價(jià)值工程，2012（9）：203204.

[8]馬錫坤，于京杰.醫(yī)院數(shù)據(jù)中心存在的問題及對策[J].中國醫(yī)學(xué)教育技術(shù)，2013，4（27）：215217.

[9]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].信息化參考，2013（2）：16.

[10]趙金明.大數(shù)據(jù)時(shí)代的高清視頻監(jiān)控存儲(chǔ)[J].中國鐵路，2013（4）：8182.

篇(7)

[關(guān)鍵詞] 并行數(shù)據(jù)挖掘體系結(jié)構(gòu) 商業(yè)智能模式庫

引言

企業(yè)為迎接市場的挑戰(zhàn)，必須對市場運(yùn)作有準(zhǔn)確的分析。商業(yè)流通領(lǐng)域積累的大量交易數(shù)據(jù)中隱含著許多對商業(yè)決策有益的知識(shí)，傳統(tǒng)的分析方法很難從中提取出這些知識(shí)，利用數(shù)據(jù)挖掘技術(shù)可以得到準(zhǔn)確、及時(shí)的信息，決策人員以企業(yè)的數(shù)據(jù)倉庫為基礎(chǔ)，通過聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘和決策規(guī)劃人員的專業(yè)知識(shí)，借助商務(wù)智能的核心技術(shù)，利用企業(yè)中長期積累的海量數(shù)據(jù)可以實(shí)現(xiàn)四方面的應(yīng)用：客戶分類和特征分析、市場營銷策略分析、經(jīng)營成本與收入分析、欺詐行為分析和預(yù)防，數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)這些隱藏的模式和關(guān)系。

并行數(shù)據(jù)挖掘體系結(jié)構(gòu)是并行數(shù)據(jù)挖掘技術(shù)研究的重要內(nèi)容，是實(shí)現(xiàn)并行數(shù)據(jù)挖掘的基礎(chǔ)，選擇適當(dāng)?shù)?、高效的、具有較高性價(jià)比的商用并行體系結(jié)構(gòu)是整個(gè)研究工作的基礎(chǔ)。

一、通用數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)

特定領(lǐng)域的數(shù)據(jù)挖掘工具主要針對某個(gè)特定領(lǐng)域的問題提供解決方案。在進(jìn)行數(shù)據(jù)挖掘算法設(shè)計(jì)時(shí)，設(shè)計(jì)者需要充分考慮特定領(lǐng)域的數(shù)據(jù)特點(diǎn)和挖掘需求等特殊性，并有針對性地對數(shù)據(jù)挖掘算法進(jìn)行優(yōu)化。

通用的數(shù)據(jù)挖掘應(yīng)用系統(tǒng)大都以數(shù)據(jù)倉庫或大型關(guān)系數(shù)據(jù)庫為基礎(chǔ)，且具有查詢、分析、表示等功能，它是企業(yè)決策支持系統(tǒng)的核心組成部分，可以將這些現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)的共同特點(diǎn)抽象成圖1所示的結(jié)構(gòu)。

二、通用的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的不足及改進(jìn)思路

通用的數(shù)據(jù)挖掘系統(tǒng)己經(jīng)在一定程度上滿足用戶的需要，但是在應(yīng)用實(shí)施過程中也存在著一些問題和不足。主要有以下幾點(diǎn):數(shù)據(jù)挖掘的效率有待進(jìn)一步提高;歷史模式不能得到有效利用;不同系統(tǒng)之間的互操作性差;面向不同應(yīng)用對象的針對性不強(qiáng)。

數(shù)據(jù)挖掘往往面對的是巨大的數(shù)據(jù)集，即GB甚至TB數(shù)量級(jí)的數(shù)據(jù)集，數(shù)據(jù)挖掘技術(shù)研究的核心問題之一就是如何提高數(shù)據(jù)挖掘的效率，提高數(shù)據(jù)挖掘效率的途徑主要有以下幾個(gè)方面：

1.對數(shù)據(jù)集進(jìn)行預(yù)處理，去除噪音數(shù)據(jù)，按照挖掘要求對數(shù)據(jù)進(jìn)行清理和遷移，盡可能減少挖掘的數(shù)據(jù)量。

2.針對各種數(shù)據(jù)挖掘和數(shù)據(jù)分析要求，研究、設(shè)計(jì)效率更高的各類數(shù)據(jù)挖掘算法。

3.提高數(shù)據(jù)挖掘系統(tǒng)應(yīng)用的硬件性能或者采用并行處理技術(shù)提高數(shù)據(jù)挖掘的速度。

4.借用緩存的概念，對挖掘結(jié)果進(jìn)行存儲(chǔ)再利用，以提高用戶挖掘請求的響應(yīng)速度。

針對一般商業(yè)智能應(yīng)用領(lǐng)域的實(shí)際情況和需要，以提高數(shù)據(jù)挖掘應(yīng)用的效率為目標(biāo)，本文將主要從并行處理技術(shù)和體系結(jié)構(gòu)方面對現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)進(jìn)行改進(jìn)和提高。

三、并行數(shù)據(jù)挖掘體系結(jié)構(gòu)設(shè)計(jì)及特點(diǎn)

為解決通用數(shù)據(jù)挖掘系統(tǒng)中存在的一些問題和針對商業(yè)智能的特點(diǎn)，面向商業(yè)智能應(yīng)用的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)如圖2所示，由6部分組成：

1.高性能并行計(jì)算環(huán)境：并行數(shù)據(jù)挖掘體系結(jié)構(gòu)中采用了高性價(jià)比的并行體系結(jié)構(gòu)COW(Cluster of Workstations)、數(shù)據(jù)挖掘算法由串行算法改為并行算法以及采用“緩存”概念將數(shù)據(jù)挖掘結(jié)果保存在模式庫中。并行處理技術(shù)的運(yùn)用無疑對于數(shù)據(jù)挖掘效率的提高具有重要意義和實(shí)用價(jià)值，為數(shù)據(jù)挖掘效率的提高奠定了堅(jiān)實(shí)的基礎(chǔ)，對于商業(yè)智能應(yīng)用的推廣也具有重要作用。

2.數(shù)據(jù)源：數(shù)據(jù)倉庫和其他數(shù)據(jù)源是數(shù)據(jù)挖掘的基礎(chǔ)，商業(yè)智能應(yīng)用系統(tǒng)應(yīng)具有多種數(shù)據(jù)來源的處理能力，例如普通文件(電子郵件等)、關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)集市等。

3.模式庫：為了提高數(shù)據(jù)挖掘的效率以及商業(yè)邏輯的處理速度，借助硬件內(nèi)存的“緩存”概念，將最近數(shù)據(jù)挖掘或者數(shù)據(jù)分析的結(jié)果（模式也許只是一個(gè)簡單的規(guī)則描述）保存在模式庫中，以便再次發(fā)生類似或者相同操作請求時(shí)能先在模式庫中查找挖掘結(jié)果，從而盡量避免每次都從海量數(shù)據(jù)中進(jìn)行挖掘操作，這樣可以較大幅度提高處理速度。因此，模式庫的建立為歷史模式的有效利用提供了可能和基礎(chǔ)

另外，由于模式庫中存儲(chǔ)的是歷次挖掘出來的模式，可以從分析模式的變化來進(jìn)行趨勢預(yù)測，從而為決策支持提供了更多的分析手段。

4.學(xué)習(xí)和推薦Agent：增加了一個(gè)用戶興趣分析檔案庫，由學(xué)習(xí)Agent進(jìn)行更新維護(hù)，供推薦Agent分析使用。學(xué)習(xí)Agent將根據(jù)權(quán)值的計(jì)算方法對用戶興趣檔案中沒有出現(xiàn)過的關(guān)鍵字進(jìn)行加權(quán)操作。推薦Agent根據(jù)已有的用戶興趣檔案，分析用戶可能感興趣的模式，并推薦給用戶。

5.并行數(shù)據(jù)挖掘工具/多維分析工具：數(shù)據(jù)挖掘是商業(yè)智能的核心，并行數(shù)據(jù)挖掘算法對于提高數(shù)據(jù)挖掘效率具有重要意義。為了適應(yīng)商業(yè)智能應(yīng)用的需要，僅提供多維分析工具是遠(yuǎn)遠(yuǎn)不夠的，應(yīng)盡可能多的提供對多種模式的支持。商業(yè)智能涉及關(guān)聯(lián)、分類、聚類、時(shí)序等模式，并行數(shù)據(jù)挖掘工具盡能包含對這些模式的支持，這也是衡量并行數(shù)據(jù)挖掘工具好壞的標(biāo)準(zhǔn)之一。

6.可視化工具：為用戶提供數(shù)據(jù)挖掘結(jié)果的自觀表示方法。

除上述特點(diǎn)外，通過對并行數(shù)據(jù)挖掘體系結(jié)構(gòu)的設(shè)計(jì)與改進(jìn)在以下兩個(gè)方面取得了較好的效果：

(1)提高了系統(tǒng)之間的互操作性：現(xiàn)有的數(shù)據(jù)挖掘產(chǎn)品，對挖掘結(jié)果都有各自特殊的存儲(chǔ)格式，不同挖掘工具之間要共享挖掘的結(jié)果非常困難。然而，對模式的集中存儲(chǔ)就可以有效地解決上述問題，即設(shè)計(jì)類似SQL的查詢語言，或設(shè)計(jì)通用的模式庫接口。不同的挖掘工具通過使用模式查詢語言或調(diào)用模式庫接口的功能函數(shù)就可以共享模式庫中存儲(chǔ)的模式。

(2)并行處理能力強(qiáng)、可擴(kuò)展性好、可用性高：改進(jìn)后的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)建立在可擴(kuò)展機(jī)群之上，除了具有較高的.可伸縮的并行處理能力之外，系統(tǒng)的可擴(kuò)展性也非常好，可以通過增加或者減少處理結(jié)點(diǎn)數(shù)調(diào)整系統(tǒng)的處理能力，從而適應(yīng)不同數(shù)據(jù)規(guī)模的處理需要，除此之外，系統(tǒng)的可用性高也是其顯著特點(diǎn)，一般情況下COW的可用性指標(biāo)都在99.9%以上，為商業(yè)智能應(yīng)用系統(tǒng)的穩(wěn)定運(yùn)行提供了可靠保證。

四、結(jié)束語

并行數(shù)據(jù)挖掘體系結(jié)構(gòu)具有較高的并行處理能力和性價(jià)比，以及方便靈活的并行程序設(shè)計(jì)環(huán)境，對于實(shí)施商業(yè)智能應(yīng)用的客戶和應(yīng)用領(lǐng)域來講，具有可操作性。大多商業(yè)智能應(yīng)用客戶已經(jīng)或者容易獲得本文給出的并行處理環(huán)境，不需要投入大量的經(jīng)費(fèi)購置專用的并行處理系統(tǒng)。

模式庫的提出是一種新的有益的探索。由于模式庫中存儲(chǔ)了歷史挖掘模式，如果其中的模式接近挖掘請求的時(shí)間，則可用這些模式自接作為挖掘的結(jié)果，不用再進(jìn)行新的數(shù)據(jù)挖掘，在模式庫中進(jìn)行查詢操作的響應(yīng)會(huì)明顯加快，大大提高了數(shù)據(jù)挖掘的效率。

參考文獻(xiàn):

[1]熊忠陽:面向商業(yè)智能的并行數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[學(xué)位論文].重慶大學(xué)，2004

相關(guān)文章

欧洲成人午夜精品无码区久久_久久精品无码专区免费青青_av无码电影一区二区三区_各种少妇正面着bbw撒尿视频_中文精品久久久久国产网址

數(shù)據(jù)挖掘技術(shù)研究精品(七篇)

篇(1)

篇(2)

篇(3)

篇(4)

篇(5)

篇(6)

篇(7)

數(shù)據(jù)

大數(shù)據(jù)

大數(shù)據(jù)時(shí)代

數(shù)據(jù)法學(xué)