首頁 > 精品范文 > 大數(shù)據(jù)技術(shù)
時間:2023-03-16 16:00:38
序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇大數(shù)據(jù)技術(shù)范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)庫集群技術(shù);分布集群
一、分布集群數(shù)據(jù)庫在大數(shù)據(jù)中的應(yīng)用
目前,許多數(shù)據(jù)增長率很高的大型數(shù)據(jù)庫系統(tǒng)正被用于改善全球人類活動,如通信、社交網(wǎng)絡(luò)、交易、銀行等,分布集群數(shù)據(jù)庫已成為提高數(shù)據(jù)訪問速度的解決方案之一。為多種類型的用戶在多個存儲中組織數(shù)據(jù)訪問,分布集群數(shù)據(jù)庫的問題不僅在于如何管理大量的數(shù)據(jù),而且在于如何組織分布式存儲中的數(shù)據(jù)模式。智能數(shù)據(jù)組織是提高檢索速度、減少磁盤I/O數(shù)量、縮短查詢響應(yīng)時間的最佳方法之一?;谝?guī)則的聚類是提供數(shù)據(jù)庫自動聚類和數(shù)據(jù)存儲模式解釋的解決方案之一,基于規(guī)則的集群通過分析屬性和記錄上的數(shù)據(jù)庫結(jié)構(gòu),將數(shù)據(jù)模式表示為規(guī)則。使用不同規(guī)則池分區(qū)的每個集群,每個規(guī)則與內(nèi)部集群中的規(guī)則相似,與外部集群中的規(guī)則不同。分布集群數(shù)據(jù)庫是一種有向圖結(jié)構(gòu)的進(jìn)化優(yōu)化技術(shù),用于數(shù)據(jù)分類,在緊湊的程序中具有顯著的表示能力,這源于節(jié)點的可重用性,而節(jié)點本身就是圖形結(jié)構(gòu)的功能。為了實現(xiàn)基于規(guī)則的集群,分布集群數(shù)據(jù)庫可以通過分析記錄來處理數(shù)據(jù)集的規(guī)則提取。分布集群數(shù)據(jù)庫的圖形結(jié)構(gòu)由三種節(jié)點組成:起始節(jié)點、判斷節(jié)點和處理節(jié)點。開始節(jié)點表示節(jié)點轉(zhuǎn)換的開始位置;判斷節(jié)點表示要在數(shù)據(jù)庫中檢查的屬性。分布集群數(shù)據(jù)庫規(guī)則提取的節(jié)點準(zhǔn)備包括兩個階段:節(jié)點定義和節(jié)點排列。節(jié)點定義的目的是準(zhǔn)備創(chuàng)建規(guī)則,節(jié)點排列是選擇重要的節(jié)點,以便高效地提取大量規(guī)則。節(jié)點排列由以下兩個順序過程執(zhí)行,第一個過程是查找模板規(guī)則,第二個過程是結(jié)合第一個過程中創(chuàng)建的模板生成規(guī)則。提取模板以獲得數(shù)據(jù)集中經(jīng)常發(fā)生的屬性組合。在模板提取過程中,分布集群數(shù)據(jù)庫規(guī)則提取中只使用了少數(shù)幾個屬性,它旨在增加獲得高支持模板的可能性。與沒有模板規(guī)則的方法相比,該節(jié)點排列方法具有更好的聚類結(jié)果,這兩個過程中的規(guī)則生成都是通過圖結(jié)構(gòu)的演化來實現(xiàn)。
二、在線規(guī)則更新系統(tǒng)的應(yīng)用
在線規(guī)則更新系統(tǒng)用于通過分析所有記錄從數(shù)據(jù)集中提取規(guī)則,在大數(shù)據(jù)應(yīng)用中,每個節(jié)點都有自己的節(jié)點號,描述每個節(jié)點號的節(jié)點信息。程序大小取決于節(jié)點的數(shù)量,這會影響程序創(chuàng)建的規(guī)則的數(shù)量。起始節(jié)點表示根據(jù)連接順序執(zhí)行的判斷節(jié)點序列的起始點,開始節(jié)點的多個位置將允許一個人提取各種規(guī)則。判斷節(jié)點表示數(shù)據(jù)集的屬性,顯示屬性索引。在大數(shù)據(jù)應(yīng)用環(huán)節(jié),從每個起始節(jié)點開始的節(jié)點序列用虛線a、b和c表示,節(jié)點序列流動,直到支持判斷節(jié)點的下一個組合不滿足閾值。在節(jié)點序列中,如果具有已出現(xiàn)在上一個節(jié)點序列,將跳過這些節(jié)點。在更新每個集群中的規(guī)則時,重要的是要找到與最新數(shù)據(jù)不匹配的屬性。因此,規(guī)則更新中要考慮的屬性由以下過程確定。當(dāng)計算集群中每個屬性和數(shù)據(jù)之間的輪廓值時,閾值設(shè)置為0.85,只有輪廓值低于0.85的屬性。將為規(guī)則更新過程中的判斷節(jié)點的屬性選擇。一些數(shù)據(jù)的庫存值和權(quán)重值低于0.85,因此這些值不包括在國民生產(chǎn)總值的規(guī)則更新中。在線規(guī)則更新系統(tǒng)中包含用于更新規(guī)則的屬性,每個集群都具有屬性的主要值,這些屬性是集群質(zhì)量的錨定點,進(jìn)而影響輪廓值。在線規(guī)則更新系統(tǒng)應(yīng)用中,完成主要的規(guī)則提取過程,這是一個標(biāo)準(zhǔn)的規(guī)則提取,在線規(guī)則更新系統(tǒng)考慮到數(shù)據(jù)集中的所有屬性。執(zhí)行該過程,對初始數(shù)據(jù)集進(jìn)行初始集群;改善規(guī)則更新過程,僅對輪廓值低于閾值的數(shù)據(jù)執(zhí)行。
三、大規(guī)模并行處理技術(shù)的應(yīng)用
大規(guī)模并行處理技術(shù)主要用于編寫和調(diào)試現(xiàn)代處理器的程序,而不是本地匯編程序,所有的書面代碼都是從C/C++語言翻譯成一個低級的核心匯編程序。在大數(shù)據(jù)應(yīng)用中,會產(chǎn)生很多數(shù)據(jù),在數(shù)據(jù)的分析和計算中,應(yīng)該結(jié)合編程技術(shù),標(biāo)準(zhǔn)語言是面向傳統(tǒng)體系結(jié)構(gòu)的,這就是為什么編譯器不能使用所有可能的DSP體系結(jié)構(gòu)以最佳效率生成代碼的原因。為了獲得一個良好的優(yōu)化代碼,有必要直接在低級匯編語言上編寫代碼。為了簡化編寫程序的任務(wù),可以在某個處理器上使用面向代碼生成器。使用一個專門的匯編代碼生成器,使用并行結(jié)構(gòu)化的編程語言可以獲得比在C/C++中翻譯的應(yīng)用程序更高效的代碼,生成高效的匯編代碼,該代碼積極利用DSP內(nèi)核的并行性和其他特性。低級匯編代碼是由所有編譯器生成的,但是它們與傳統(tǒng)的基于文本的語言(如C/C++)一起工作。大數(shù)據(jù)應(yīng)用環(huán)節(jié),在數(shù)據(jù)分類和計算中,當(dāng)兩個計算操作在不同的操作單元上執(zhí)行時,才能在一個dsp核心的vliw命令中并行執(zhí)行兩個計算操作。根據(jù)運算執(zhí)行單元的不同,計算運算可分為op1和op2兩種類型。屬于不同組使得在一個命令中執(zhí)行兩個操作成為可能。第一種類型包括由算術(shù)和邏輯單元執(zhí)行的操作,第二種類型包括由乘法器、移位器ms執(zhí)行的操作。在模板中,標(biāo)記“1”表示第一種類型的標(biāo)識,標(biāo)記“2”分別表示第二種類型。如果兩個操作具有不同的類型并且沒有數(shù)據(jù)依賴關(guān)系,則可以進(jìn)行并行化,DSP核心的并行性是通過在一個核心中存在多個操作單元來保證的。在大數(shù)據(jù)計算和分析中,如果有足夠多的通用寄存器來執(zhí)行這兩個操作,并且它們可以并行執(zhí)行,代碼就會并行化,提升數(shù)據(jù)計算的效率。
“大數(shù)據(jù)時代的預(yù)言家”維克托近日在北京面對一萬多名技術(shù)信徒再次預(yù)言。
顯然,這三大經(jīng)典的技術(shù)信條在大數(shù)據(jù)時代面臨動搖,
技術(shù)信徒的思維模式也即將發(fā)生顛覆。
那么,大數(shù)據(jù)對技術(shù)信徒意味著什么?
他們又將如何面對這一顛覆性的變革?
“技術(shù)匯成一條大河,一波推動另外一波?!盜BM中國開發(fā)中心首席技術(shù)官兼新技術(shù)研發(fā)中心總經(jīng)理毛新生帶著對技術(shù)的滿腔癡迷這樣形容道。
一波未平一波又起,移動、社交商務(wù)、云計算、大數(shù)據(jù)等先后涌現(xiàn)的新趨勢正在融合成一股巨大的潮流,將所有的行業(yè)IT化,進(jìn)而推動商業(yè)和社會的演進(jìn)。這也就意味著“科技是第一生產(chǎn)力”在當(dāng)下有了更深層次的涵義——“IBM認(rèn)為,在由新一代技術(shù)組成的智慧運算時代,中國的企業(yè)家們需要更為戰(zhàn)略地思考信息科技的定位,將其運用到自身的變革轉(zhuǎn)型之中?!?IBM全球副總裁兼大中華區(qū)軟件集團總經(jīng)理胡世忠為企業(yè)新發(fā)展出謀獻(xiàn)策。
由2012年的“軟件技術(shù)峰會”改名為2013年的“技術(shù)峰會”,在這么一個盛會上,IBM試圖展示的內(nèi)容涵蓋范圍更為廣泛——移動應(yīng)用、大數(shù)據(jù)、云計算、DevOps軟件持續(xù)交付、應(yīng)用整合、社交商務(wù)、專家集成系統(tǒng)等熱議話題,上百場技術(shù)主題演講、28場分論壇、22場動手實驗室和80個未來產(chǎn)品的現(xiàn)場演示,再加上被譽為“大數(shù)據(jù)時代的預(yù)言家”的《大數(shù)據(jù)時代》作者維克托·邁爾-舍恩伯格以及數(shù)十位來自IBM的院士、杰出工程師、相關(guān)領(lǐng)域的全球首席技術(shù)官和首席架構(gòu)師的現(xiàn)場分享,IBM 2013技術(shù)峰會再次成為技術(shù)精英們關(guān)注的焦點。 大數(shù)據(jù)的新信條
《大數(shù)據(jù)時代》作者、牛津大學(xué)網(wǎng)絡(luò)學(xué)院互聯(lián)網(wǎng)治理與監(jiān)管專業(yè)教授維克托·邁爾-舍恩伯格的出現(xiàn)著實讓場內(nèi)數(shù)以萬計的技術(shù)信徒激動了一把。作為深刻洞察大數(shù)據(jù)給人類生活、工作和思維帶來的大變革的第一人,維克托以價格預(yù)測網(wǎng)站的例子作為開場白,論證了大數(shù)據(jù)已經(jīng)悄然在大眾的身邊出現(xiàn)并給他們的生活帶來改變。
“全體性、混雜性和相關(guān)性是大數(shù)據(jù)的三個主要特點,而且這三個特點是互相加強的?!本S克托歸納出了大數(shù)據(jù)對應(yīng)的思維變革。收集和分析更多的數(shù)據(jù)才能獲取足夠的數(shù)據(jù)隱含的細(xì)節(jié),這些細(xì)節(jié)恰恰是隨機抽樣所錯失的?!案蓛簟钡?、高質(zhì)量的數(shù)據(jù)不再是標(biāo)的,大數(shù)據(jù)需要我們摒棄對宏觀上精確性的追求,轉(zhuǎn)而獲得微觀上的準(zhǔn)確性,即接受混雜的數(shù)據(jù)。最重要的是,人們不再沉迷于追尋數(shù)據(jù)之間的因果關(guān)系,即不再糾結(jié)于為什么,而是直接獲得“是什么”的答案,并通過應(yīng)用相關(guān)關(guān)系,更好地捕捉現(xiàn)在和預(yù)測未來——抽樣因錯失細(xì)節(jié)得不償失,盲目追求精確性已經(jīng)過時,執(zhí)著于因果關(guān)系喪失機遇。
如何在大數(shù)據(jù)時代生存?維克托指出了兩個關(guān)鍵點:一是意識到技術(shù)或者規(guī)模并不是成功的充分條件。遺忘規(guī)模經(jīng)濟,因為它的效益會逐漸淡化。20年前,一個公司只有擁有上十萬臺的服務(wù)器才能提供搜索服務(wù),但在大數(shù)據(jù)時代,由于云計算的便利性,不擁有實體服務(wù)器的公司,如前文提到的,它只有30個員工,但它有能力為其上10億的用戶提供數(shù)據(jù)分析。二是為了在大數(shù)據(jù)時代獲得勝利,大數(shù)據(jù)的思維模式不可或缺,工具的力量不容小視,分析能力是必要的。藍(lán)色被谷歌選為搜索窗口的色彩,但藍(lán)色實際上有51種,而且這51種藍(lán)色人依靠裸眼無法明確區(qū)分,卻能在心理層面給人帶來不同的感受。經(jīng)過大數(shù)據(jù)分析,谷歌發(fā)現(xiàn)原本由人工選出來的藍(lán)色會導(dǎo)致谷歌損失200億~300億美元的收入,因為這一種藍(lán)色并不最具備誘惑力,無法激起人們點擊的欲望。
大數(shù)據(jù)的力量需要具備大數(shù)據(jù)的思維模式,并有效利用大數(shù)據(jù)的工具去發(fā)掘。IBM杰出工程師、InfoSphere Stream高級開發(fā)經(jīng)理James R Giles闡述了IBM對大數(shù)據(jù)的看法:“我們正一步步走到了一個新紀(jì)元——大數(shù)據(jù)時代。如同對待自然資源一樣,我們需要開掘、轉(zhuǎn)變、銷售、保護(hù)大數(shù)據(jù)資源;不同的是,大數(shù)據(jù)資源是無窮無盡的,我們不能任由大數(shù)據(jù)淹沒自己,而應(yīng)該在獲得洞察需求的驅(qū)使下獲得價值?!?/p>
大數(shù)據(jù)的類型廣義而言有移動數(shù)據(jù)和靜態(tài)數(shù)據(jù),還有結(jié)構(gòu)性數(shù)據(jù)和非結(jié)構(gòu)性數(shù)據(jù),這對應(yīng)著不同的處理方式。“技術(shù)人員的責(zé)任是,能夠去管理這些數(shù)據(jù),能夠理解這些從不同的數(shù)據(jù)源而來、不同類型的數(shù)據(jù),能夠分析這些數(shù)據(jù),得出結(jié)論,讓其提供決策支持,為企業(yè)擁抱新的大數(shù)據(jù)時代提供技術(shù)支撐,以保證管理、安全、商業(yè)的持續(xù)性。” James R Giles號召技術(shù)人員積極行動,以大數(shù)據(jù)的思維模式展現(xiàn)技術(shù)的價值和魅力。
找到內(nèi)在聯(lián)系
技術(shù)的趨勢總是融合,也只有有機融合才能形成合力,發(fā)揮更大的威力,而實現(xiàn)這一合力的前提是明確各個趨勢之間的內(nèi)在聯(lián)系。
“實際上,社交商務(wù)、移動、大數(shù)據(jù)、云計算是一體化的?!泵律ㄗh技術(shù)人員用一個全面的、融合的范式來沉著看待和應(yīng)對紛繁的熱點技術(shù),理解這些熱點會如何影響整個IT的走向,進(jìn)而明晰IT如何可以很好地支持各行各業(yè)的業(yè)務(wù)轉(zhuǎn)型和創(chuàng)新,“讓每個行業(yè)都可以從新的技術(shù)轉(zhuǎn)型當(dāng)中獲得足夠的原動力”。
從貼近最終用戶的角度來看,移動技術(shù)、社交技術(shù)改變了商業(yè)機構(gòu)與其雇員、客戶進(jìn)行互動的方式?!熬臀覀€人的經(jīng)歷而言,航空公司的移動應(yīng)用可以提供更好的客戶交互。我是西北航空公司的粉絲,因為它家的移動應(yīng)用服務(wù)很貼心,比如查詢航班信息、根據(jù)我的喜好預(yù)留位置、定制化地進(jìn)行社交推薦等?!泵律砸粋€普通消費者的感受證明了企業(yè)通過移動應(yīng)用收集并利用用戶行為數(shù)據(jù)所帶來的服務(wù)質(zhì)量的提升。
移動催生了“一種嶄新的服務(wù)交付端點”,即為用戶提供了更多樣化的服務(wù)體驗點,讓用戶隨時隨地可以利用碎片化的時間去獲得業(yè)務(wù)服務(wù),也為企業(yè)帶來了全新的服務(wù)交付渠道。移動這個渠道提供了更為豐富的全樣性數(shù)據(jù),在此基礎(chǔ)上,大數(shù)據(jù)分析就更可信。“移動所具備的碎片化特點會帶來更大量的用戶行為信息。當(dāng)把所有的人的行為結(jié)合在一起,就可以做群體的社會性分析。社會性分析會得到比較準(zhǔn)確的群體特征。而群體特征足以獲得很好的交叉銷售與線上銷售機會?!泵律J(rèn)為移動與大數(shù)據(jù)結(jié)合給企業(yè)提供了新的商業(yè)機會。
移動的設(shè)備無處不在。人、汽車,甚至建筑物、道路、橋梁,它們無時無刻不在提供數(shù)據(jù),這就是新的數(shù)據(jù)源,是它們引領(lǐng)我們來到維克托所描述的更為廣闊的大數(shù)據(jù)世界。
移動和社交商務(wù)的便捷性使得企業(yè)的整個業(yè)務(wù)流程變得非常自動化,用戶可以享受自助服務(wù),對應(yīng)到企業(yè)端就意味著業(yè)務(wù)流程對前端的需求要反應(yīng)得更為迅速,也意味著各個業(yè)務(wù)系統(tǒng)之間無縫連接,否則沒有辦法支撐以最終用戶為中心的服務(wù)體驗,但跨部門和跨應(yīng)用的整合實屬不易。進(jìn)一步延伸開來,對用戶體驗的追求是無止境的,合作伙伴的API和服務(wù)可以作為補充,這即是“跨企業(yè)邊界”的行為。這種行為必然導(dǎo)致大規(guī)模的用戶訪問。這些整合和外部拓展都需要云計算提供靈活有效的基礎(chǔ)。沒有云計算,移動前端的體驗、大數(shù)據(jù)分析的效果都會大打折扣。“云的基礎(chǔ)設(shè)施使大規(guī)?;?、大規(guī)模數(shù)據(jù)處理、大規(guī)模應(yīng)用可以更好地服務(wù)我們?!泵律赋觥?/p>
環(huán)境變化加速,競爭更加激烈,要求企業(yè)的反應(yīng)速度越來越快,應(yīng)用以及端到端解決方案快速改變。毛新生饒有興致地介紹道:“這個改變有多快呢?我們有的客戶嘗試以天為周期去改變,這意味著應(yīng)用和業(yè)務(wù)流程的設(shè)計、開發(fā)、部署、測試、維護(hù)的整個過程要大大加快,也就是所謂的DevOps。只有把敏捷的開發(fā)和運維結(jié)合起來,生命周期變得以天為周期,才能響應(yīng)新的商業(yè)環(huán)境?!?/p>
“移動、云計算、大數(shù)據(jù)、社交商務(wù)之間的緊密聯(lián)系讓我們應(yīng)該以整體的眼光來審視它們?!焙乐覉孕?,它們的組合可以創(chuàng)造可持續(xù)的競爭優(yōu)勢,可以迸發(fā)變革的力量。
至于一個企業(yè)應(yīng)該從哪里下手來實現(xiàn)這一幅宏偉藍(lán)圖?毛新生給出的答案是:“每一個企業(yè),因為它所處的行業(yè)或者特定的情況而擁有不同的切入點,有一些企業(yè)需要從移動開始,有一些企業(yè)需要從云計算開始,有一些企業(yè)需要從大數(shù)據(jù)開始,但是它們是不可分割的整體,只有綜合地運用它們,找到適合自己的切入點,一步一步腳踏實地,才能掌握先機,打造競爭力。在這個過程中,要擁有正確的思維,改變既有思維,理解趨勢,制定策略?!?/p>
例如,銀行、保險、零售業(yè)這一類和最終消費者打交道的服務(wù)業(yè)在很大概率上需要先從移動、社交商務(wù)入手,從而使其有機會改善和用戶交互的過程。而以數(shù)據(jù)為生的行業(yè)會琢磨如何將自己的內(nèi)容和資源數(shù)據(jù)增值,而傳統(tǒng)的運營基礎(chǔ)設(shè)施的重資產(chǎn)企業(yè),會追求將資產(chǎn)數(shù)字化,得到數(shù)據(jù)并進(jìn)行分析,以優(yōu)化資產(chǎn)的生命周期管理來預(yù)防性地降低維護(hù)成本,這些企業(yè)是以大數(shù)據(jù)作為切入點的。還有一些企業(yè)希望跨行業(yè)整合進(jìn)行業(yè)務(wù)創(chuàng)新,背后牽扯到它們自身現(xiàn)有的業(yè)務(wù)模式和新業(yè)務(wù)模式的整合,這種情況下需要以云的方式構(gòu)建新的應(yīng)用、服務(wù)、商業(yè)流程。
毛新生認(rèn)為切入點不同只是表象,每一種場景到最后都是綜合性的運用,要把這幾個技術(shù)綜合運用起來。從前端開始,首先是利用移動,并借助社交渠道交流,很快這些渠道會得到新的數(shù)據(jù),這些新的數(shù)據(jù)和原有的交易數(shù)據(jù)和積累的數(shù)據(jù)結(jié)合起來做進(jìn)一步的數(shù)據(jù)分析,這就是大數(shù)據(jù)分析。大數(shù)據(jù)分析以后可以做社交推薦、關(guān)聯(lián)推薦了。隨后,能不能跨界再實現(xiàn)更廣泛的銷售?跟別的價值鏈上的合作伙伴合作,那么引入云是解決之道。數(shù)據(jù)量增大,用戶數(shù)增多,云的基礎(chǔ)設(shè)施可以讓成本更合理。“所以說,到最后都是綜合性的應(yīng)用,盡管起點不一樣”,毛新生說。
對技術(shù)人員而言,IT就是交付業(yè)務(wù)流程的基礎(chǔ),是信息化的工具。它的目標(biāo)無非是優(yōu)化業(yè)務(wù)流程或者創(chuàng)新業(yè)務(wù)流程。創(chuàng)新到達(dá)一定程度后,業(yè)務(wù)流程的量變會導(dǎo)致質(zhì)變。“這就解釋了為何全球越來越多的CEO將技術(shù)視為驅(qū)動企業(yè)發(fā)展的首要因素。” IBM軟件集團大中華區(qū)中間件集團總經(jīng)理李紅焰強調(diào),技術(shù)人員有能力,也有責(zé)任將“看不見的技術(shù)轉(zhuǎn)變?yōu)榭吹靡姷南硎堋薄?/p>
移動開發(fā)的轉(zhuǎn)變
在大數(shù)據(jù)的帶領(lǐng)下我們進(jìn)入移動時代,企業(yè)有了新機遇,技術(shù)人員卻有了新挑戰(zhàn)。為什么移動開發(fā)和之前不一樣呢?有什么不一樣呢?這成為了縈繞在技術(shù)人員腦子里最主要的兩個問題。
IBM杰出工程師及IBM移動平臺首席架構(gòu)師Greg Truty解答了這兩個疑問。他認(rèn)為,很多企業(yè)現(xiàn)在所做的事情與在移動的狀態(tài)下做的事情是不一樣的,移動狀態(tài)下的任務(wù)和規(guī)劃更具有戰(zhàn)略性。移動應(yīng)用是在不穩(wěn)定的網(wǎng)絡(luò)上運行的,所占用的資源更少。用戶在移動設(shè)備上和非移動設(shè)備上的體驗是完全不一樣的,他們會希望在不穩(wěn)定的網(wǎng)絡(luò)上仍然能夠獲得良好的體驗。企業(yè)現(xiàn)在需要思考的是,怎么樣把大量數(shù)據(jù)、大量體驗變成一些有意義的體驗。同時,移動管理的需求也不一樣了,開發(fā)的特性也不一樣了。比如對一個企業(yè)來說,移動開發(fā)周期更短,有更多設(shè)備需要支持,有更多開發(fā)方法可供選擇,也有更多的工具和庫可供選擇,這時候企業(yè)就需要仔細(xì)斟酌,哪些開發(fā)方法和工具是自己需要的。
自然而然,對于設(shè)備的管理也有了變化,因為應(yīng)用變化了?!耙恢币詠?,客戶端服務(wù)器的應(yīng)用架構(gòu)是企業(yè)在使用的。你需要協(xié)調(diào)在服務(wù)器端的服務(wù)以及在客戶端的服務(wù),挑戰(zhàn)非常大。你不可能強迫客戶運行你的應(yīng)用,而必須能協(xié)調(diào)和兼容原有的系統(tǒng)。這是非常關(guān)鍵的一點?!?Greg Truty強調(diào)了設(shè)備管理的重要性。
此外,產(chǎn)品種類也非常多,新應(yīng)用層出不窮。Greg Truty 認(rèn)為多而新的局面下更需要冷靜處理:“我們會把應(yīng)用和數(shù)據(jù)結(jié)合起來,移動和社交網(wǎng)絡(luò)結(jié)合起來,這樣做會創(chuàng)造一些新的得到數(shù)據(jù)的機會,需要進(jìn)行管理。新的機會、新的技術(shù),給整個IT組織帶來了更多的挑戰(zhàn)。”
關(guān)鍵詞:大數(shù)據(jù);智能交通;數(shù)據(jù)技術(shù)
隨著國民經(jīng)濟的不斷發(fā)展,人們生活水平的不斷提高,居民購買汽車能力加強。我國的汽車保有量隨之增加,在一些大城市機動車擁有量以超過10%的速度加速,機動車成為每個家庭代步的交通工具,在有限的交通資源配置下,機動車的增加縮短了道路使用周期,城市主干道路超負(fù)荷使用,違法停車致使道路不能合理使用、行車不文明、乘車環(huán)境不良等現(xiàn)象有增無減。大數(shù)據(jù)時代,如何改善當(dāng)前的交通狀況是本文闡述的核心內(nèi)容。文章從以下幾個方面來闡述:大數(shù)據(jù)的現(xiàn)狀、大數(shù)據(jù)的概述、大數(shù)據(jù)的應(yīng)用、智能交通的需求、智能交通體系的建立、數(shù)據(jù)技術(shù)。
1 大數(shù)據(jù)的現(xiàn)狀
據(jù)權(quán)威數(shù)據(jù)顯示,大數(shù)據(jù)應(yīng)用在我國還處在起步階段。但在未來三年,通信、金融領(lǐng)域?qū)⒃诖髷?shù)據(jù)市場突破100億元。市場規(guī)模在2012年有望達(dá)到4.7億元,到2013年增至11.2億元,增長率高達(dá)138%,2014年,保持了與2013年基本持平的增速,增長率為114.38%,市場規(guī)模達(dá)到24.1億元,未來三年內(nèi)有望突破150億元,2016年有望達(dá)到180億規(guī)模。自從2014年以來,各界對大數(shù)據(jù)的誕生都備加關(guān)注,已滲透到各個領(lǐng)域:交通行業(yè)、醫(yī)療行業(yè)、生物技術(shù)、零售行業(yè)、電商、農(nóng)牧業(yè)、個人位置服務(wù)等行業(yè),由此也正在不斷涌現(xiàn)大數(shù)據(jù)的新產(chǎn)品、新技術(shù)、新服務(wù)。
大數(shù)據(jù)行業(yè)“十三五”規(guī)劃主要目標(biāo):在2020年,將大數(shù)據(jù)打造成為國民經(jīng)濟新興支柱產(chǎn)業(yè)并在社會各領(lǐng)域廣泛應(yīng)用,推動我國大數(shù)據(jù)產(chǎn)業(yè)穩(wěn)步快速發(fā)展,基本健全大數(shù)據(jù)產(chǎn)業(yè)體系,推動制定一批相關(guān)大數(shù)據(jù)的國標(biāo)、行標(biāo)和地方標(biāo)準(zhǔn),引進(jìn)具備大數(shù)據(jù)條件的企業(yè),建設(shè)大數(shù)據(jù)產(chǎn)業(yè)孵化基地,提高全國信息化總體水平,以躋身世界先進(jìn)水平。
2 大數(shù)據(jù)的概述
2.1 大數(shù)據(jù)定義
大數(shù)據(jù)即巨量數(shù)據(jù)集合,目前還沒有一個統(tǒng)一的定義。大數(shù)據(jù)的概念最早是由全球著名的管理咨詢公司麥肯錫提出,2011年Mckinsey研究稱,大數(shù)據(jù)通常是指信息爆炸時代產(chǎn)生的海量數(shù)據(jù),在各個行業(yè)和業(yè)務(wù)領(lǐng)域,數(shù)據(jù)已經(jīng)滲透到行業(yè)中并逐漸成為重要的要素,人們能夠從海量數(shù)據(jù)中挖掘出有用的數(shù)據(jù)并加以應(yīng)用。對大數(shù)據(jù)定義的另一說法是利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。
隨著信息時代的高速發(fā)展,大數(shù)據(jù)已經(jīng)成為社會生產(chǎn)力發(fā)展的又一推動力。大數(shù)據(jù)被稱為是繼云計算、物聯(lián)網(wǎng)之后信息時代的又一大顛覆性的技術(shù)革命。大數(shù)據(jù)的數(shù)據(jù)量巨大,一般10TB規(guī)模左右,但在實際應(yīng)用中,多個數(shù)據(jù)集放在一起,已經(jīng)形成了PB級的數(shù)據(jù)量,甚至EB、ZB、TB的數(shù)據(jù)量。
2.2 大數(shù)據(jù)的特點
2.2.1 數(shù)據(jù)量巨大
數(shù)據(jù)量級別從TB級別躍升到PB級別。隨著可穿戴設(shè)備、物聯(lián)網(wǎng)和云計算、云存儲等技術(shù)的發(fā)展,用戶的每一個動作都可以被記錄,由此每天產(chǎn)生大量的數(shù)據(jù)信息。據(jù)有關(guān)人士估算:1986~2007年,全球數(shù)據(jù)的存儲能力每年提高23%,雙向通信能力每年提高28%,通用計算能力每年提高58%;2007年,人類大約存儲了超過300EB
的數(shù)據(jù);到2013年,世界上存儲的數(shù)據(jù)能達(dá)到約1.2ZB。
2.2.2 數(shù)據(jù)類型多樣化
即數(shù)據(jù)類型繁多,產(chǎn)生了海量的新數(shù)據(jù)集,新數(shù)據(jù)集可以是關(guān)系數(shù)據(jù)庫和數(shù)據(jù)倉庫數(shù)據(jù)這樣的結(jié)構(gòu)化數(shù)據(jù)到半結(jié)構(gòu)化數(shù)據(jù)和無結(jié)構(gòu)數(shù)據(jù),從靜態(tài)的數(shù)據(jù)庫到動態(tài)的數(shù)據(jù)流,從簡單的數(shù)據(jù)對象到時間數(shù)據(jù)、生物序列數(shù)據(jù)、傳感器數(shù)據(jù)、空間數(shù)據(jù)、超文本數(shù)據(jù)、多媒體數(shù)據(jù)、軟件程序代碼、Web數(shù)據(jù)和社會網(wǎng)絡(luò)數(shù)據(jù)[1]。各種數(shù)據(jù)集不僅產(chǎn)生于組織內(nèi)部運作的各個環(huán)節(jié),也來自于組織外部。
2.2.3 數(shù)據(jù)的時效性高
所謂的數(shù)據(jù)時效性高指以實時數(shù)據(jù)處理、實時結(jié)果導(dǎo)向為特征的解決方案,數(shù)據(jù)的傳輸速度、響應(yīng)、反應(yīng)的速度不斷加快。數(shù)據(jù)時效性為了去偽存真,采用非結(jié)構(gòu)化數(shù)據(jù)剔除數(shù)據(jù)中無用的信息,而當(dāng)前未有真正的解決方法,只能是人工承擔(dān)其中的智能部分。有些專員負(fù)責(zé)數(shù)據(jù)分析問題并提出分析后的解決方案。
2.2.4 數(shù)據(jù)真實性低
即數(shù)據(jù)的質(zhì)量。數(shù)據(jù)的高質(zhì)量是大數(shù)據(jù)時代重要的關(guān)注點。但在生活中,“臟數(shù)據(jù)”無處不在,例如,一些低劣的偽冒產(chǎn)品被推上市場,由于營銷手段的成功,加之其他因素的影響導(dǎo)致評分很高。但是這并不是真實的數(shù)據(jù),如果對數(shù)據(jù)不加分析和鑒別而直接使用,即使計算的結(jié)果精度高,結(jié)果都是無意義的,因為數(shù)據(jù)本身就存在問題出現(xiàn)。
2.2.5 價值密度低
指隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息巨大,信息感知存在于客觀事物中,有很多不相關(guān)的信息。由于數(shù)據(jù)采集的不及時,數(shù)據(jù)樣本不全面,數(shù)據(jù)可能不連續(xù)等等,數(shù)據(jù)可能會失真,但當(dāng)數(shù)據(jù)量達(dá)到一定規(guī)模,可以通過更多的數(shù)據(jù)達(dá)到更真實全面的反饋。
2.3 大數(shù)據(jù)的應(yīng)用
2.3.1 醫(yī)療大數(shù)據(jù)
利用大數(shù)據(jù)平臺收集患者原先就醫(yī)的病例和治療方案,根據(jù)患者的體征,建立疾病數(shù)據(jù)庫并對患者的病例分類數(shù)據(jù)庫。一旦患者在哪個醫(yī)院就醫(yī),憑著醫(yī)??ɑ蚓驮\卡,醫(yī)生就可以從疾病數(shù)據(jù)庫中參考病人的疾病特征、所做的檢查報告結(jié)果快速幫助患者確診。同時擁有的數(shù)據(jù)也有利于醫(yī)藥行業(yè)開發(fā)出更符合治療疾病的醫(yī)療器械和藥物的研發(fā)。
2.3.2 傳統(tǒng)農(nóng)牧業(yè)大數(shù)據(jù)
因為傳統(tǒng)農(nóng)牧業(yè)主要依賴于天氣、土壤、空氣質(zhì)量等客觀因素,因此利用大數(shù)據(jù)可以收集客觀因素的數(shù)據(jù)以及作物成熟度,甚至是設(shè)備和勞動力的成本及可用性方面的實時數(shù)據(jù),能夠幫助農(nóng)民選擇正確的播種時間、施肥和收割作物的決策。當(dāng)農(nóng)民遇到技術(shù)市場問題可以請教專業(yè)人員,專業(yè)人員根據(jù)實時數(shù)據(jù)做出科學(xué)的指導(dǎo),制定合理的優(yōu)化決策,降低農(nóng)民的損失成本,提高產(chǎn)品的產(chǎn)量,從而為轉(zhuǎn)向規(guī)?;?jīng)營打下良好基礎(chǔ)。
2.3.3 輿情大數(shù)據(jù)
利用大數(shù)據(jù)技術(shù)收集民眾訴求的數(shù)據(jù),降低社會,有利管理犯罪行為。通過大數(shù)據(jù)收集在微博的尋找走失的親人或提供可能被拐賣人口的信息,來幫助別人。
3 智能交通的需求
隨著城市一體化的快速發(fā)展,新時代農(nóng)民工涌入大城市,促使城市人口的增大不斷給城市交通帶來問題。究其原因主要有:一是機動車的迅猛發(fā)展導(dǎo)致城市主次干道的流量趨于飽和,大量機動車的通行和停放占據(jù)主干道路。二是城市交通的道路基礎(chǔ)設(shè)施供給不平衡導(dǎo)致路網(wǎng)承擔(dān)能力差。三是停車泊位數(shù)量不足導(dǎo)致機動車使用者不得不過多依賴道路停車。四是公共設(shè)施的公交車分擔(dān)率不高導(dǎo)致交通運輸效率降低。五是城市的土地開發(fā)利用與道路交通發(fā)展不均衡。六是行人和機動車主素質(zhì)不文明導(dǎo)致道路通行效率降低。為此,智能交通的出現(xiàn)是改善當(dāng)前城市交通的必要需求,能夠在一定程度上有效的解決城市交通問題。
大數(shù)據(jù)是如何在智能交通的應(yīng)用呢?可以從兩個方面說明:一是對交通運行數(shù)據(jù)的收集。由于每天道路的通行機動車較多,能夠產(chǎn)生較大的數(shù)據(jù),數(shù)據(jù)的采集并發(fā)數(shù)高,利用大數(shù)據(jù)使機動車主更好的了解公路上的通行密度,有效合理對道路進(jìn)行規(guī)劃,可規(guī)定個別道路為單行線。其二是可以利用大數(shù)據(jù)來實現(xiàn)主干道根據(jù)道路的運行狀況即時調(diào)度信號燈,提高已有線路運行能力,可以保障交通參與者的生命和提高有關(guān)部門的工作效率,降低成本。對于機動車主可以根據(jù)大數(shù)據(jù)隨時的了解當(dāng)前的交通狀況和停車位數(shù)量。如果交通擁堵,車主則可選擇另一路線,節(jié)約了車主的大量時間。
4 智能交通體系的建立
4.1 智能交通建立的框架
主要包括感知數(shù)據(jù)層、軟件應(yīng)用平臺及分析預(yù)測和優(yōu)化管理的應(yīng)用。物理感知層主要是采集交通的運行狀況和對交通數(shù)據(jù)的及時感知;軟件應(yīng)用平臺主要整合每個感知終端的信息、將信息進(jìn)行轉(zhuǎn)換和處理,達(dá)到支撐分析并做出及時的預(yù)警措施。比如:對主要交通干進(jìn)行規(guī)劃,對頻發(fā)交通事故進(jìn)行監(jiān)控。同時還應(yīng)進(jìn)行應(yīng)用系統(tǒng)建設(shè)的優(yōu)化管理。比如:對機動車進(jìn)行智能誘導(dǎo)、智能停車。
智能交通系統(tǒng)需要在各道路主干道上安裝高清攝像頭,采用先進(jìn)的視頻監(jiān)控、智能識別和信息技術(shù)手段,來增加可管理的維度,從空間的廣度、時間的深度、范圍的精細(xì)度來管理。整個系統(tǒng)的組成包括信息綜合應(yīng)用平臺、信號控制系統(tǒng)、視頻監(jiān)控系統(tǒng)、智能卡口系統(tǒng)、電子警察系統(tǒng)、信息采集系統(tǒng)、信息系統(tǒng)。每個城市建立智能交通并進(jìn)行聯(lián)網(wǎng),則會產(chǎn)生越來越多的視頻監(jiān)控數(shù)據(jù)、卡口電警數(shù)據(jù)、路況信息、管控信息、營運信息、GPS定位信息、射頻識別信息等數(shù)據(jù),每天產(chǎn)生的數(shù)據(jù)量將可以達(dá)到PB級別,并且呈現(xiàn)指數(shù)級的增長。
4.2 智能交通數(shù)據(jù)處理體系的構(gòu)成
主要包括交通的數(shù)據(jù)輸入、車輛信息、道路承載能力等的數(shù)據(jù)處理、數(shù)據(jù)存儲、數(shù)據(jù)檢索。其中交通數(shù)據(jù)輸入可以是靜態(tài)數(shù)據(jù)或者是動態(tài)數(shù)據(jù)。數(shù)據(jù)處理是針對實時數(shù)據(jù)的處理。數(shù)據(jù)主要存儲的是每天采集的巨大數(shù)據(jù)量。為了從中獲取有用的數(shù)據(jù),則需要進(jìn)行數(shù)據(jù)查詢和檢索,還要對數(shù)據(jù)進(jìn)行規(guī)劃。
5 大數(shù)據(jù)技術(shù)
5.1 數(shù)據(jù)采集與預(yù)處理
數(shù)據(jù)采集與預(yù)處理主要對交通領(lǐng)域全業(yè)態(tài)數(shù)據(jù)的立體采集與處理來支撐交通建設(shè)、管理、運行決策。采集的數(shù)據(jù)主要是車輛的實時通行數(shù)據(jù),以實現(xiàn)實時監(jiān)控、事先預(yù)測、及時預(yù)警,完成道路網(wǎng)流量的調(diào)配、控。這些數(shù)據(jù)獲取可以采用安裝的傳感器、識別技術(shù)并完成對已接收數(shù)據(jù)的辨析、轉(zhuǎn)換、抽取、清洗等操作。
5.2 數(shù)據(jù)存儲與管理
大數(shù)據(jù)的存儲與管理是把采集到的數(shù)據(jù)存放在存儲器,并建立相應(yīng)的數(shù)據(jù)庫,如關(guān)系數(shù)據(jù)庫、Not Only SQL即對關(guān)系型SQL數(shù)據(jù)系統(tǒng)的補充。利用數(shù)據(jù)庫采用更簡單的數(shù)據(jù)模型,并將元數(shù)據(jù)與應(yīng)用數(shù)據(jù)分離,從而實現(xiàn)管理和調(diào)用。
5.3 數(shù)據(jù)分析與挖掘
數(shù)據(jù)分析及挖掘技術(shù)是大數(shù)據(jù)的核心技術(shù)。從海量數(shù)據(jù)中,提取隱含在其中,人們事先未知的,但又可能有用的信息和知識的過程。從復(fù)雜數(shù)據(jù)類型中挖掘,如文本、圖片、視頻、音頻。該技術(shù)主要從數(shù)據(jù)中自動地抽取模式、關(guān)聯(lián)、變化、異常和有意義的結(jié)構(gòu),可以預(yù)測模型、機器學(xué)習(xí)、建模仿真。從而實現(xiàn)一些高級別數(shù)據(jù)分析的需求。
5.4 數(shù)據(jù)展現(xiàn)與應(yīng)用
數(shù)據(jù)技術(shù)能夠?qū)⒚刻焖a(chǎn)生的大量數(shù)據(jù)從中挖掘出有用的數(shù)據(jù),應(yīng)用到各個領(lǐng)域有需要的地方以提高運行效率。
6 結(jié)束語
大數(shù)據(jù)時代,能對智能交通信息資源進(jìn)行優(yōu)化配置,能夠改善傳統(tǒng)的交通問題。對非機動車主而言,利用大數(shù)據(jù)可以更好的規(guī)劃線路,更好的了解交通狀況,在一定程度上可以對問題預(yù)先提出解決方案,起到節(jié)省大量時間、額外的開支。同時對交管部門而言,能夠在限的警力情況下合理配置人員資源和交通設(shè)備,主干道路在高峰期出現(xiàn)的問題能夠合理利用大數(shù)據(jù)信息配置資源,在刑事案件偵查中也能發(fā)揮更重要的作用。
全國要實現(xiàn)智能交通的聯(lián)網(wǎng),依然有問題需要突破,這都是大數(shù)據(jù)的數(shù)據(jù)技術(shù)應(yīng)用所在。
【關(guān)鍵詞】數(shù)據(jù)挖掘 數(shù)據(jù)分類算法
在當(dāng)前的時代背景下,很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念,這既給計算機產(chǎn)業(yè)帶來了發(fā)展機遇,也帶來了挑戰(zhàn)。因為想要做好大數(shù)據(jù)挖掘的相關(guān)工作,就一定要掌握數(shù)據(jù)分類算法,而數(shù)據(jù)分類算法可稱得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入,人們開發(fā)了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數(shù)據(jù)分類器為基準(zhǔn),進(jìn)行相應(yīng)的數(shù)據(jù)分類,包括決策樹類、Bayes類、基于關(guān)聯(lián)規(guī)則類以及利用數(shù)據(jù)庫技術(shù)類,本文將對它們進(jìn)行簡單的闡述。
1 決策樹分類算法
1.1 傳統(tǒng)算法
C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類算法,有著很明顯的優(yōu)點,如規(guī)則簡單易懂,實際操作易于上手。但是隨著計算機的不斷普及,數(shù)據(jù)的規(guī)模變的越來越龐大,其復(fù)雜程度也是日漸增長。C4.5已經(jīng)逐漸無法滿足新時期的數(shù)據(jù)分類處理工作了。并且由于決策樹分類算法的規(guī)則,決定了在數(shù)據(jù)分類的過程中,要對數(shù)據(jù)進(jìn)行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹的時候,這種缺點更加明顯。這不僅會影響數(shù)據(jù)分析的速度,也浪費了更多的系統(tǒng)資源。對于大數(shù)據(jù)挖掘來說,C4.5更加無法勝任,因為C4.5算法的適用范圍十分有限,只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù),對于內(nèi)存無法保留的過于龐大的數(shù)據(jù)集,C4.5甚至?xí)霈F(xiàn)無法運行的情況。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來,在其基礎(chǔ)上做了一些技術(shù)性的完善,例如增強了數(shù)據(jù)的排序技術(shù),并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個數(shù),并具有相當(dāng)優(yōu)秀的可擴展性,為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點,由于它是以C4.5算法為基礎(chǔ)的,因此在進(jìn)行數(shù)據(jù)處理時,仍需要將數(shù)據(jù)集保留在內(nèi)存中,這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長度一旦超過了排序的預(yù)定長度,SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。
(2)SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問題而開發(fā)出來的。SPRINT 算法重新定義了決策樹算法的數(shù)據(jù)分析結(jié)構(gòu),改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是,它沒有像SLIQ 算法那樣講數(shù)據(jù)列表存儲在內(nèi)存當(dāng)中,而是將其融合到了每個數(shù)據(jù)集的屬性列表中,這樣既避免了數(shù)據(jù)查詢時重復(fù)掃描造成的速度緩慢,又釋放了內(nèi)存的壓力。特別是在進(jìn)行大數(shù)據(jù)挖掘時,由于數(shù)據(jù)的基數(shù)過大,在每個數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時間,對數(shù)據(jù)進(jìn)行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點,對于不具有可分裂屬性的數(shù)據(jù)列表,由于它只能在數(shù)據(jù)集內(nèi)進(jìn)行分析,結(jié)果可能不是十分準(zhǔn)確,導(dǎo)致其拓展性受到了限制。
2 其他分類算法
2.1 Bayes分類算法
Bayes分類算法是利用概率統(tǒng)計學(xué)而開發(fā)出來的一種算法,在目前數(shù)據(jù)分類中應(yīng)用比較廣泛。但是其缺點也比較明顯,由于Bayes分類算法需要在分析之前對數(shù)據(jù)的特性做出一定的假設(shè),而這種假設(shè)往往缺少實際數(shù)據(jù)的理論支持,因此在數(shù)據(jù)分析過程中就很難做到準(zhǔn)確有效。在此之上,TAN算法又被開發(fā)出來,它是為了提高Bayes分類算法的假設(shè)命題的準(zhǔn)確率,也就是降低了NB任意屬性之間獨立的假設(shè)。
2.2 CBA分類數(shù)據(jù)算法
基于關(guān)聯(lián)規(guī)則的分類算法就是CBA分類數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類器,在數(shù)據(jù)分析的過程中,先搜索到所有的右部為類別的類別關(guān)聯(lián)規(guī)則,這被稱為CAR;然后再從CAR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù),它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面,方便進(jìn)行歸納整理。但是由于其在進(jìn)行數(shù)據(jù)分類時容易出現(xiàn)疏漏,因此經(jīng)常采用設(shè)置最小支持度為0的辦法來減少遺漏的數(shù)據(jù),這就造成了算法的優(yōu)化作用不能完全發(fā)揮,降低了運行效率。
2.3 MIND和GAC-RDB算法分類算法
在大數(shù)據(jù)挖掘的背景下,未來數(shù)據(jù)分類算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫技術(shù)為基礎(chǔ)的的分類算法。盡管很久之前就已經(jīng)有一些專門研究數(shù)據(jù)庫的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫技術(shù)的分類算法,但是并沒有得到實際運用。因為在進(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時候,很難將其與數(shù)據(jù)庫的系統(tǒng)集成,目前來說,MIND和GAC-RDB算法還能夠較好地解決這個問題。
2.3.1 MIND算法
MIND算法與決策樹算法有些相似,都是通過構(gòu)造數(shù)據(jù)分類器來進(jìn)行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語句來與數(shù)據(jù)庫系統(tǒng)實現(xiàn)關(guān)聯(lián)。在進(jìn)行數(shù)據(jù)分析時,UDF方法能夠大大縮短對每個節(jié)點的數(shù)據(jù)特性進(jìn)行分析的時間,這樣就在為數(shù)據(jù)庫的集成提供了理論基礎(chǔ)。SQL語句是通過對數(shù)據(jù)集的屬性進(jìn)行分析,以便從中選擇出最合適的分裂屬性,然后給數(shù)據(jù)排序,這樣就節(jié)省了數(shù)據(jù)分類的時間。但是MIND算法還不能直接在數(shù)據(jù)庫系統(tǒng)中實現(xiàn)查詢功能,更重要的是,該算法的維護(hù)成本過高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基礎(chǔ)上進(jìn)行了更多的改進(jìn),能夠充分利用數(shù)據(jù)庫系統(tǒng)進(jìn)行聚集運算,也就是實現(xiàn)了數(shù)據(jù)庫系統(tǒng)的集成。該算法擁有分類準(zhǔn)確,分析迅速,執(zhí)行更快的優(yōu)點,同時可拓展性也比較出色。更重要的是,它可以充分利用數(shù)據(jù)庫提供的查詢功能,從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象,縮短了分析的時間,節(jié)約了系統(tǒng)資源。只要在自動確定參數(shù)取值的技術(shù)上進(jìn)行一些改進(jìn),該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。
3 總結(jié)
大數(shù)據(jù)挖掘是時展的潮流,因此數(shù)據(jù)分類算法的重要性也將隨著顯現(xiàn)。通過分析幾種不同的算法,能夠在數(shù)據(jù)分析速度、可擴展性和結(jié)果的準(zhǔn)確性上進(jìn)行比較,從而選擇最適合的數(shù)據(jù)分類算法。它們都在不同程度上有著各自的優(yōu)缺點,因此要繼續(xù)深入研究以開發(fā)出更好的分類算法。
參考文獻(xiàn)
[1]錢雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法的綜述,2014(13).
[2]劉紅巖.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述,2002(06).
信息時代的到來不斷改變著我們的生活和工作方式,在當(dāng)前不斷發(fā)展的新型大數(shù)據(jù)時代之下,我們必須要不斷促進(jìn)大數(shù)據(jù)軟件工程技術(shù)的融合和發(fā)展,這樣才能夠不斷提高各行各業(yè)的工作效率和工作質(zhì)量,不斷降低生產(chǎn)成本。在未來很長一段時間的發(fā)展過程中,我們必須要不斷研究大數(shù)據(jù)時代下軟件工程的應(yīng)用和創(chuàng)新。
1大數(shù)據(jù)與軟件工程技術(shù)概述
當(dāng)前大數(shù)據(jù)已不斷滲透到我國各行各業(yè)的發(fā)展和創(chuàng)新中去,迅速成為社會主義現(xiàn)代化事業(yè)發(fā)展的重要組成因素,對于數(shù)據(jù)的搜集整理和應(yīng)用都具有非常重要的作用,大數(shù)據(jù)是未來世界發(fā)展不可避免的趨勢,在經(jīng)濟、文化等眾多領(lǐng)域得到了大規(guī)模的應(yīng)用和發(fā)展。當(dāng)前我國社會主義現(xiàn)代化事業(yè)不斷發(fā)展,各個行業(yè)的生產(chǎn)力發(fā)展水平也越來越高,大數(shù)據(jù)技術(shù)開始不斷創(chuàng)新和融合,正式帶領(lǐng)人類進(jìn)入大數(shù)據(jù)時代。軟件工程技術(shù)的不斷發(fā)展為當(dāng)前各行各業(yè)的生產(chǎn)和創(chuàng)新提供了較大的動力,能夠不斷減少各個行業(yè)的財力投入以及人工資源。當(dāng)前社會主義下的軟件工程技術(shù)是指應(yīng)用標(biāo)準(zhǔn)化系統(tǒng)化的過程方法對軟件進(jìn)行開發(fā)以及維護(hù),從而研制軟件信息工程技術(shù),涉及到的領(lǐng)域眾多,存在著多種多樣的研究方法,在當(dāng)前各個行業(yè)的發(fā)展中至關(guān)重要。近些年來科學(xué)技術(shù)不斷進(jìn)步社會也不斷發(fā)展,人們開始不斷嘗試將大數(shù)據(jù)與軟件工程技術(shù)互相融合和發(fā)展,在大數(shù)據(jù)的時代之下充分發(fā)展軟件工程,技術(shù)不斷減少各行各業(yè)成本開支,促進(jìn)社會主義現(xiàn)代化事業(yè)的平穩(wěn)發(fā)展。
2大數(shù)據(jù)時代下軟件工程技術(shù)的應(yīng)用
2.1數(shù)據(jù)搜集以及處理
大數(shù)據(jù)對于當(dāng)前社會和時代的基本作用就是不斷收集社會主義發(fā)展過程中產(chǎn)生的數(shù)據(jù),在不斷發(fā)展的軟件工程技術(shù)當(dāng)中,數(shù)據(jù)的搜集、儲存、分類、整理也是一個非常重要的部分,因此我們必須要將當(dāng)前不斷發(fā)展的軟件工程技術(shù)與大數(shù)據(jù)技術(shù)互相結(jié)合,使大數(shù)據(jù)時代下的軟件工程技術(shù)擁有更多的突破和創(chuàng)新,對產(chǎn)生而來的信息進(jìn)行有效的整理和快速的分類,使各個軟件的協(xié)同能力迅速提升,建立起一個科學(xué)、規(guī)范、完整的現(xiàn)代化空間進(jìn)行信息的儲存,這樣才能夠方便各行各業(yè)發(fā)展過程中的信息使用需求。
2.2數(shù)據(jù)信息的存儲
當(dāng)前我國社會主義現(xiàn)代化事業(yè)不斷發(fā)展,大數(shù)據(jù)時代的到來也加快著各個行業(yè)的發(fā)展和創(chuàng)新,因此產(chǎn)生了越來越多的數(shù)據(jù)信息,由傳統(tǒng)的文字儲存發(fā)展到圖片、視頻共同組成的現(xiàn)代化數(shù)據(jù)。我們在進(jìn)行數(shù)據(jù)信息儲存的過程中,需要對大量的信息進(jìn)行整理和儲存,不斷要求計算機性能的提高以及儲存空間的擴大。運用傳統(tǒng)的信息儲存方法已不能滿足當(dāng)前信息產(chǎn)生的需要,極其容易產(chǎn)生信息缺失現(xiàn)象,因此必須要不斷應(yīng)用軟件工程技術(shù),這樣能夠不斷節(jié)省信息儲存的空間,同時能夠保證信息儲存的完整性和安全性。通過對軟件工程技術(shù)進(jìn)行創(chuàng)新和應(yīng)用能夠極大地為計算機節(jié)省必要的空間,不斷提高信息儲存效率及使用效率。
2.3利用大數(shù)據(jù)進(jìn)行軟件服務(wù)工程建設(shè)
近些年來我國計算機科學(xué)水平不斷進(jìn)步,軟件工程技術(shù)研究領(lǐng)域也不斷創(chuàng)新和發(fā)展,不斷拓展和延伸軟件工程技術(shù)的發(fā)展方向。在當(dāng)前大數(shù)據(jù)時代的不斷發(fā)展之下我們必須要對大數(shù)據(jù)技術(shù)以及軟件工程技術(shù)進(jìn)行融合和創(chuàng)新,進(jìn)一步對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行編程,使各個軟件具有可操作性、穩(wěn)定性、安全性和科學(xué)性,能夠更好地實現(xiàn)數(shù)據(jù)的協(xié)調(diào),不斷提高軟件工程系統(tǒng)的集成度。
2.4信息安全技術(shù)的應(yīng)用
大數(shù)據(jù)時代之下各行各業(yè)的發(fā)展都會產(chǎn)生大量的數(shù)據(jù)信息,而眾多的數(shù)據(jù)和信息容易互相干擾和影響,因此為了不斷提高數(shù)據(jù)的安全性,必須對數(shù)據(jù)進(jìn)行進(jìn)一步的管理和提升。當(dāng)前必須要運用到大數(shù)據(jù)時代之下軟件工程技術(shù),對當(dāng)前可能存在的網(wǎng)絡(luò)風(fēng)險進(jìn)行查殺以及預(yù)防不斷提高數(shù)據(jù)收集以及儲存的安全性。
3結(jié)束語
總而言之,信息時代的到來大大改變了人們的生活和工作方式,也在一定程度上促進(jìn)著社會主義現(xiàn)代化事業(yè)的不斷發(fā)展當(dāng)前大量涌出的數(shù)據(jù)信息存在著一定的風(fēng)險,因此必須要運用軟件工程技術(shù),促進(jìn)數(shù)據(jù)信息產(chǎn)生以及儲存應(yīng)用的安全性,不斷促進(jìn)大數(shù)據(jù)時代之下軟件工程技術(shù)的創(chuàng)新和發(fā)展,推動軟件工程技術(shù)建設(shè)。
參考文獻(xiàn)
[1]楊品軍.解析大數(shù)據(jù)時代下軟件工程關(guān)鍵技術(shù)[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2020(3):54-55.
[2]黃愷.大數(shù)據(jù)時代下軟件工程關(guān)鍵技術(shù)探討[J].計算機產(chǎn)品與流通,2020(2):32.
【關(guān)鍵詞】大數(shù)據(jù) 信息系統(tǒng) 關(guān)鍵技術(shù)
近年來,信息技術(shù)發(fā)展迅速,對以移動互聯(lián)網(wǎng)技術(shù)和云計算機技術(shù)為主的現(xiàn)代數(shù)字信息系統(tǒng)的發(fā)展起到重要的推動作用,并使得信息獲取量及途徑呈現(xiàn)幾何增長態(tài)勢,同時降低了數(shù)據(jù)獲取與存儲的成本,極大提高了數(shù)據(jù)處理的有效性,為社會各行各業(yè)發(fā)展奠定了堅實的技術(shù)基礎(chǔ)。基于此,如何實現(xiàn)從復(fù)雜的數(shù)據(jù)中提煉有效信息,進(jìn)而推動相關(guān)產(chǎn)業(yè)發(fā)展成為社會關(guān)注的重點,相關(guān)部門必須采取有效措施,保證當(dāng)前信息系統(tǒng)的高校運行。
1 大數(shù)據(jù)技術(shù)概述
1.1 數(shù)據(jù)采集
在數(shù)據(jù)采集中,一般運用多個數(shù)據(jù)庫,以此接收來自客戶端或者傳感器等途徑的數(shù)據(jù),在具體采集中會面臨并發(fā)量較高的挑戰(zhàn),為了便于后續(xù)分析工作的有效開展,在采集中需要將數(shù)據(jù)導(dǎo)入分布式存儲集或者數(shù)據(jù)庫中,并在導(dǎo)入過程中進(jìn)行相應(yīng)的預(yù)處理。比如在互聯(lián)網(wǎng)企業(yè)中,多數(shù)企業(yè)均創(chuàng)建了諸如包含Ⅱadoop的cloudera的系統(tǒng)日志數(shù)據(jù)采集工具,采取分布式結(jié)構(gòu),以此滿足高并發(fā)量的日志數(shù)據(jù)采集需求,并實現(xiàn)有效的數(shù)據(jù)傳輸。
1.2 數(shù)據(jù)存儲
在數(shù)據(jù)存取方面,互聯(lián)網(wǎng)企業(yè)多采用PostgreSQL,其在設(shè)計中主要滿足OLTP交易型需求,進(jìn)而具備人機會話功能。也有很多企業(yè)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,其中以O(shè)racle較為常見,在頻繁的數(shù)據(jù)修改、增加和刪除操作中具有明顯優(yōu)勢,但是在數(shù)據(jù)統(tǒng)計分析查詢方面效率較低。針對這一問題,很多公司選擇Teradata,主要利用MPP架構(gòu),在銷售過程中以軟硬一體機的形式呈現(xiàn)給客戶。
1.3 基礎(chǔ)架構(gòu)
在對大數(shù)據(jù)技術(shù)運用中,很多企業(yè)指出在歸檔和備份過程中數(shù)據(jù)冗余度高達(dá)92%,必須采取有效措施高效刪除存儲系統(tǒng)中的重復(fù)數(shù)據(jù),其中分布式重復(fù)數(shù)據(jù)刪除系統(tǒng)發(fā)揮了重要的作用,其主要由元數(shù)據(jù)服務(wù)器、客戶端和數(shù)據(jù)服務(wù)器組成,元數(shù)據(jù)服務(wù)器主要實現(xiàn)元數(shù)據(jù)的維護(hù)和儲存,而客戶端則在提供文件操作接口的同時,實現(xiàn)數(shù)據(jù)的預(yù)處理,數(shù)據(jù)服務(wù)器主要啟動去重引擎,并對有效數(shù)據(jù)進(jìn)行儲存和管理。
1.4 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘必須以現(xiàn)有數(shù)據(jù)為基礎(chǔ),通過各類算法進(jìn)行計算,進(jìn)而起到預(yù)測效果,以此達(dá)到客戶高級別的數(shù)據(jù)分析要求。在大數(shù)據(jù)分析理論中,數(shù)據(jù)挖掘算法處于核心地位,但是由于挖掘算法復(fù)雜性較為明顯,且計算過程中涉及巨大的計算量,導(dǎo)致數(shù)據(jù)挖掘技術(shù)面臨研究挑戰(zhàn),在具體應(yīng)用中必須保證不同的算法對特定的數(shù)據(jù)類型及格式,進(jìn)而達(dá)到深入計算的效果。
1.5 結(jié)果呈現(xiàn)
在大數(shù)據(jù)技術(shù)應(yīng)用中,注重處理結(jié)果的直觀化和可視化,通過數(shù)據(jù)的分析與處理,能夠清楚地了解海量數(shù)據(jù)的維度和指標(biāo),進(jìn)而按照具體標(biāo)準(zhǔn)呈現(xiàn)復(fù)雜數(shù)據(jù)隱藏的關(guān)系。并且隨著技術(shù)的創(chuàng)新與發(fā)展,在數(shù)據(jù)輸出過程中出現(xiàn)了多屏聯(lián)動、主從屏和自動翻屏等功能,保證了輸出的清晰度,并在輸出中支持觸控交互操作,幫助客戶更好地了解數(shù)據(jù)的走勢與規(guī)律。
2 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)探討
2.1 分布式文件管理
在大數(shù)據(jù)技術(shù)應(yīng)用中,數(shù)據(jù)的存儲和管理發(fā)揮著基礎(chǔ)性作用,現(xiàn)階段基于大數(shù)據(jù)信息系統(tǒng)而設(shè)計研發(fā)的分布式文件管理技術(shù)具有明顯的實用性,廣泛應(yīng)用于各大互聯(lián)網(wǎng)企業(yè)之中,以Google創(chuàng)設(shè)的GFS管理技術(shù)為例,其具有成本低廉的優(yōu)勢,已成為使用量較大的服務(wù)器,為客戶建立了高效的文件管理系統(tǒng),并且具備較高的拓展性能。在這一系統(tǒng)中,很多數(shù)據(jù)存儲于不同的服務(wù)器之中,呈現(xiàn)分塊式的狀態(tài),客戶可利用追加更新和關(guān)聯(lián)連接的方式開展數(shù)據(jù)管理工作。
2.2 分布式數(shù)據(jù)處理
在大數(shù)據(jù)信息系統(tǒng)中,實現(xiàn)了對各類數(shù)據(jù)的封裝操作,基于此用戶可享受隨時、隨需且標(biāo)準(zhǔn)化的檢索與分析服務(wù)。例如在分布式數(shù)據(jù)處理系統(tǒng)中,主要采用流處理技術(shù)和批處理技術(shù),其中前者將大數(shù)據(jù)視作不間斷的流,對進(jìn)入系統(tǒng)的數(shù)據(jù)流進(jìn)行實時處理,并及時返回結(jié)果,進(jìn)而提升了數(shù)據(jù)處理的及時性;而后者的核心則在于劃分?jǐn)?shù)據(jù)的方式、分配數(shù)據(jù)的方式和處理數(shù)據(jù)的技術(shù),該技術(shù)先存儲需要處理的數(shù)據(jù),再根據(jù)特定的分割方法,將數(shù)據(jù)分割為多個數(shù)據(jù)塊,接下來將各個數(shù)據(jù)塊分給不同的處理器進(jìn)行并行處理,進(jìn)而降低了數(shù)據(jù)的關(guān)聯(lián)關(guān)系,使得數(shù)據(jù)具有極高的集群性和可調(diào)度性。
2.3 分布式數(shù)據(jù)庫
通常情況下,傳統(tǒng)數(shù)據(jù)庫以關(guān)系型為主,考慮到大數(shù)據(jù)具有體量巨大,種類繁多的特點,傳統(tǒng)類型的數(shù)據(jù)庫在數(shù)據(jù)處理時存在諸多弊端,并且大數(shù)據(jù)還具有價值密度低的特質(zhì),對數(shù)據(jù)庫本身提出了更高要求。因此在大數(shù)據(jù)處理中,必須建立新型的數(shù)據(jù)庫模式,其中分布式數(shù)據(jù)庫系統(tǒng)具有明顯的優(yōu)勢,該系統(tǒng)模型簡便,在數(shù)據(jù)管理中將數(shù)據(jù)視作字符串,并且在字符串解釋過程中采取間接手段,從而保證了數(shù)據(jù)的半結(jié)構(gòu)化特征,簡化了整個數(shù)據(jù)庫的運行程序,提高了數(shù)據(jù)處理效率。
3 結(jié)束語
綜上所述,大數(shù)據(jù)技術(shù)具有巨大的潛在價值,合理有效地開展大數(shù)據(jù)分析與處理工作,能夠幫助客戶了解數(shù)據(jù)背后的隱藏信息,進(jìn)而制定精準(zhǔn)且可行的決策,推動社會各領(lǐng)域的信息化發(fā)展。
參考文獻(xiàn)
[1]禹祿君.基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)研究[J].湖南郵電職業(yè)技術(shù)學(xué)院學(xué)報,2015(03):40-42.
[2]王本勝,殷階,朱旭,等.指揮信息系統(tǒng)大數(shù)據(jù)技術(shù)發(fā)展趨勢[J].指揮信息系統(tǒng)與技術(shù),2014,5(03):12-16.
[3]盧川英.大數(shù)據(jù)環(huán)境下的信息系統(tǒng)安全保障技術(shù)[J].價值工程,2016,35(04):188-190.
>> 大數(shù)據(jù)關(guān)鍵技術(shù) 大數(shù)據(jù)關(guān)鍵技術(shù)分析及系統(tǒng)實例分析 淺談大數(shù)據(jù)基礎(chǔ)理論與關(guān)鍵技術(shù)發(fā)展 電力信息大數(shù)據(jù)高速存儲及檢索關(guān)鍵技術(shù)研究 電力大數(shù)據(jù)可視化系統(tǒng)開發(fā)關(guān)鍵技術(shù)研究及趨勢 投資統(tǒng)計大數(shù)據(jù)處理關(guān)鍵技術(shù) 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù) 淺析云環(huán)境下的大數(shù)據(jù)關(guān)鍵技術(shù) 面向大數(shù)據(jù)的Deep Web數(shù)據(jù)系統(tǒng)關(guān)鍵技術(shù)研究 大數(shù)據(jù)安全和隱私保護(hù)技術(shù)體系的關(guān)鍵技術(shù)研究 移動數(shù)據(jù)庫關(guān)鍵技術(shù)及應(yīng)用探討 社會網(wǎng)絡(luò)大數(shù)據(jù)分析框架及其關(guān)鍵技術(shù) 農(nóng)業(yè)云大數(shù)據(jù)自組織推送關(guān)鍵技術(shù)綜述 基于大數(shù)據(jù)的信息系統(tǒng)關(guān)鍵技術(shù)研究 云計算環(huán)境下的大數(shù)據(jù)可靠存儲關(guān)鍵技術(shù)概述 面向大數(shù)據(jù)的分布式系統(tǒng)設(shè)計關(guān)鍵技術(shù)研究 大數(shù)據(jù)時代下軟件工程關(guān)鍵技術(shù)分析 移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù) 電信運營商大數(shù)據(jù)變現(xiàn)之關(guān)鍵技術(shù) 移動通信網(wǎng)絡(luò)中大數(shù)據(jù)處理的關(guān)鍵技術(shù) 常見問題解答 當(dāng)前所在位置:l.
[4]Big data[EB/OL]..
[18]丁智,林治.MapRdeuce編程模型、方法及應(yīng)用綜述[J].電腦知識與技術(shù),2014,10(30):70607064.
[19]江舢,金晶,劉鵬展,等.分布式海量數(shù)據(jù)批處理技術(shù)綜述[Z].中國科技論文在線,2012.
[20]吳哲夫,肖鷹,張彤.大數(shù)據(jù)和云計算技術(shù)探析[J].互聯(lián)網(wǎng)天地,2015(4):611.
[21]馬紅玉,張柳.大數(shù)據(jù)中的可視化分析技術(shù)[J].山東農(nóng)業(yè)大學(xué)學(xué)報:自然科學(xué)版,2014,45(s):5658.