首頁 > 精品范文 > 挖掘技術(shù)論文
時間:2023-01-30 05:03:41
序論:寫作是一種深度的自我表達。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇挖掘技術(shù)論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法
隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫的規(guī)模不斷擴大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價值的潛在知識,數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運而生。
一、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進而預(yù)測未來可能發(fā)生的行為。數(shù)據(jù)挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據(jù)挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關(guān)系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預(yù)測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。
2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過關(guān)聯(lián)得到的屬性之間的關(guān)系都有實際應(yīng)用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關(guān)聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標準將其劃分成幾個組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對樣本結(jié)構(gòu)做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據(jù)的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結(jié)點排列到某個葉子結(jié)點來分類實例,葉子結(jié)點即為實例所屬的分類。樹上的每個結(jié)點說明了對實例的某個屬性的測試,該結(jié)點的每一個后繼分支對應(yīng)于該屬性的一個可能值,分類實例的方法是從這棵樹的根結(jié)點開始,測試這個結(jié)點指定的屬性,然后按照給定實例的該屬性值對應(yīng)的樹枝向下移動。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。
5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學習的數(shù)學模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進行分析,并可以完成對人腦或其他計算機來說極為復(fù)雜的模式抽取及趨勢分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學習也可以是無指導(dǎo)聚類,無論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應(yīng)能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設(shè)來生成后續(xù)的假設(shè)。每一步,通過使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個部分,來更新當前群體的一組假設(shè),來實現(xiàn)各個個體的適應(yīng)性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產(chǎn)生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據(jù)挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗知識的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問題。粗糙集用于從數(shù)據(jù)庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫中的屬性分為條件屬性和結(jié)論屬性,對數(shù)據(jù)庫中的元組根據(jù)各個屬性不同的屬性值分成相應(yīng)的子集,然后對條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎(chǔ)上發(fā)展出來的一種新的機器學習方法。它基于結(jié)構(gòu)風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據(jù)具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結(jié)束語
目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。
常見數(shù)據(jù)挖掘技術(shù)包括:分類樹技術(shù)、關(guān)聯(lián)發(fā)現(xiàn)技術(shù)、聚類技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、最優(yōu)集合規(guī)約技術(shù)以及可視數(shù)據(jù)挖掘技術(shù)等。軟件度量數(shù)據(jù)往往具有多維度、高耦合性,軟件工程數(shù)據(jù)挖掘中會采用一些特殊處理技術(shù),包括統(tǒng)計分析、回歸建模、分類樹以及神經(jīng)網(wǎng)絡(luò)等。在具體軟件工程實踐中,選擇何種挖掘技術(shù),其決定性因素為想要達成的目標。
2數(shù)據(jù)挖掘?qū)崿F(xiàn)過程
通常,數(shù)據(jù)挖掘過程包括4個步驟,即選擇數(shù)據(jù)、預(yù)處理、實施挖掘以及吸收數(shù)據(jù)。數(shù)據(jù)挖掘整個過程具有交互性,有時數(shù)據(jù)需要重新選擇,有時也要對數(shù)據(jù)預(yù)處理進行改進,也可能出現(xiàn)算法反復(fù)被調(diào)整現(xiàn)象,基于這種特征,數(shù)據(jù)挖掘時要設(shè)置反饋環(huán)。挖掘數(shù)據(jù)第1步是將管理和目標反映到1個(或多個)挖掘任務(wù)中,整個過程可主要劃分成為六種:1)評估、預(yù)測。評估包括對軟件產(chǎn)品、過程以及資源的屬性進行相應(yīng)檢查就是整個評估過程,同時也需要根據(jù)這些屬性,賦值給未知屬性,當然這些未知屬性需要進行量化。評估工作完成后,要對屬性值進行預(yù)測。2)分類。檢查1個特定實體屬性,根據(jù)結(jié)果將其劃分到另1個類別或范疇(事先定義好)中。3)關(guān)聯(lián)發(fā)現(xiàn)。關(guān)聯(lián)發(fā)現(xiàn)能夠識別出特定內(nèi)容中互相存在關(guān)聯(lián)某些屬性。如,可將找出在軟件開發(fā)屬性和產(chǎn)品屬性相互關(guān)聯(lián)的內(nèi)容找出來。4)聚類。將1個結(jié)構(gòu)不相同的群體劃分到另1個具有相同結(jié)構(gòu)的子群集合中,這個過程叫做聚類,它的劃分依據(jù)是成員之間具有高度相似性。5)數(shù)據(jù)可視化。數(shù)據(jù)可視化是利用可視化描述方法來定義復(fù)雜信息。6)可視數(shù)據(jù)探察。可視化數(shù)據(jù)探察是對描述工作的相應(yīng)拓展,可利用數(shù)據(jù)可視化交互控制來分析和檢視海量數(shù)據(jù)[3]。它應(yīng)用具有可視化功能和數(shù)據(jù)挖掘技術(shù)來對數(shù)據(jù)進行處理。
3挖掘技術(shù)在軟件工程中應(yīng)用
上文提及到軟件工程度量,部分可利用信息已在海量數(shù)據(jù)中被提取出來,但普遍認為更為有效且數(shù)量眾多的數(shù)據(jù)依然在軟件工程相關(guān)數(shù)據(jù)庫中隱藏,而沒有被發(fā)現(xiàn)。實際上,數(shù)據(jù)挖掘就是1種被公認為提升軟件工程度量的技術(shù)。圖1為數(shù)據(jù)挖掘在軟件工程中的應(yīng)用。
3.1數(shù)據(jù)挖掘繁榮原因1)計算機硬件系統(tǒng)和軟件系統(tǒng)的基礎(chǔ)設(shè)施建立具備發(fā)現(xiàn)驅(qū)動、分析數(shù)據(jù)等功能;2)每種技術(shù)都在實際應(yīng)用中不斷得到改進,其使用能力不斷提升。如,模式識別、神經(jīng)網(wǎng)絡(luò)等有明顯進步趨勢;3)數(shù)據(jù)存儲、貯藏、集成成本不高,海量數(shù)據(jù)可輕松獲得。數(shù)據(jù)挖掘技術(shù)被人們認識,并在實踐中逐漸被重視,同時也給研究和進一步提高數(shù)據(jù)挖掘技術(shù)提供了便利條件。
3.2面臨挑戰(zhàn)軟件工程自身存在很多數(shù)據(jù)上的特殊性,給數(shù)據(jù)挖掘領(lǐng)域研究工作帶來制約和影響,主要表現(xiàn)在以下三個方面:1)數(shù)據(jù)復(fù)雜。軟件工程數(shù)據(jù)主要分為兩個組成部分,即結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括缺陷報告、版本信息等內(nèi)容,而非結(jié)構(gòu)化數(shù)據(jù)則包含數(shù)據(jù)代碼、相應(yīng)注釋以及文檔等內(nèi)容。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并不能同時適用一種算法,而且兩種數(shù)據(jù)間還存在對應(yīng)聯(lián)系。如,1個缺陷報告中往往包括缺陷代碼段。而結(jié)構(gòu)化數(shù)據(jù)里常常涵蓋部分非結(jié)構(gòu)化信息,非結(jié)構(gòu)化數(shù)據(jù)中亦是如此,這也是今后工作中需要重點解決的問題之一。2)非傳統(tǒng)分析存在局限。數(shù)據(jù)挖掘最終想實現(xiàn)的目標就是將轉(zhuǎn)化而來的信息傳達給用戶,實現(xiàn)信息共享。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在使用過程中,信息手段比較單一,如文字、圖表等表達形式。其實,軟件開發(fā)商對信息的要求很高,1個統(tǒng)計結(jié)果根本不能滿足其工作需求。為促進軟件開發(fā)不斷向上發(fā)展,開發(fā)人員需要相關(guān)信息作為參考依據(jù),包括開發(fā)實際案例、編程所需模板、系統(tǒng)缺陷定位以及軟件結(jié)構(gòu)設(shè)計等。研究數(shù)據(jù)挖掘技術(shù),提升其實際使用功能,需要不斷提交新信息、新知識,并改進相應(yīng)手方法。3)挖掘結(jié)果評價標準不夠具體。軟件工程數(shù)據(jù)挖掘尚未形成完善的結(jié)果表示體系,其評價體系也有待加強。人員在軟件開發(fā)過程中需要大量信心,這些信息非常具體且復(fù)雜,表示方法不盡相同,互相之間難以做出對比,也很難用定量方法去分析挖掘結(jié)果。
4結(jié)束語
關(guān)鍵詞 技術(shù)情報分析;數(shù)據(jù)挖掘
中圖分類號TP392 文獻標識碼A 文章編號 1674-6708(2013)92-0211-02
1 概述
在面對海量的情報信息資源時,如何高效、準確的開展分析工作,為管理決策人員提供支持,已成為當今科技工作的重要組成部分??梢哉f,情報分析方法和相關(guān)工具的合理使用決定了情報獲取的準確性和有效性,并將直接影響制定戰(zhàn)略決策的有效性和科學性。
技術(shù)情報分析系統(tǒng)主要進行與技術(shù)相關(guān)科技論文、專利、互聯(lián)網(wǎng)情報數(shù)據(jù)的分析,實現(xiàn)分析方法、算法、分析結(jié)果的表現(xiàn)形式以及分析報告自動生成等技術(shù)。該情報分析系統(tǒng)除了基本的維度統(tǒng)計分析外,更多的側(cè)重于利用知識發(fā)現(xiàn)、數(shù)據(jù)挖掘等技術(shù)進行情報數(shù)據(jù)的深度處理與分析。通過情報分析系統(tǒng)開發(fā)設(shè)計,結(jié)合數(shù)據(jù)挖掘等技術(shù)的合理使用,使得系統(tǒng)使用者能夠快速、有效、全面地獲取技術(shù)的情報信息。
2 系統(tǒng)的設(shè)計與功能描述
2.3 數(shù)據(jù)挖掘技術(shù)設(shè)計
2.3.1數(shù)據(jù)文本特征表示
在進行文本挖掘時,對文本特征進行處理,實現(xiàn)對非結(jié)構(gòu)化的文本向結(jié)構(gòu)化轉(zhuǎn)換。情報分析系統(tǒng)采用向量空間模型(Vector Space Model,VSM)進行文本的表示,并利用倒排文檔頻率TFIDF進行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎(chǔ)。
2.3.2關(guān)聯(lián)算法
在挖掘論文專利作者之間、機構(gòu)之間、國家之間的研究內(nèi)容關(guān)聯(lián)性上,采用了基于文本挖掘的關(guān)聯(lián)算法。通過對技術(shù)關(guān)鍵詞的共生關(guān)系(Terms Co-occurrences)計算來識別、確定一組文獻內(nèi)部所包含的技術(shù)組(群)。
2.3.3 層次結(jié)構(gòu)可視化算法
情報分析系統(tǒng)中關(guān)于論文和專利的引證分析、專利同族分析采用了層次結(jié)構(gòu)可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結(jié)構(gòu)在雙曲空間進行布局,然后映射到歐式空間的龐萊卡圓盤進行顯示。歐式空間中兩個相同大小的區(qū)域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越?。环粗?,雙曲空間中兩個大小相同的區(qū)域離原點越近在龐萊卡圓盤中所占用的空間越大。
4 結(jié)論
本文提出運用數(shù)據(jù)挖掘方法實現(xiàn)對大量數(shù)據(jù)的分析和判斷,可有效幫助科技情報機構(gòu)和人員提高綜合情報分析能力和決策的質(zhì)量。同時,該方法可按照不同需要進行功能拓展,實現(xiàn)向更多的技術(shù)情報領(lǐng)域延伸。
參考文獻
[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區(qū)知識發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會議(PAKDD),IOS Press出版, 2007.
[2]樂明揚.公安情報分析中的數(shù)據(jù)挖掘應(yīng)用研究.信息與電腦.2012(8).
[3]蒲群瑩.基于數(shù)據(jù)挖掘的競爭情報系統(tǒng)模型[J].情報雜志.2005,1.
關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學管理;高校教學
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2012)30-7150-04
隨著數(shù)字信息化社會的飛速發(fā)展,計算機技術(shù)和數(shù)據(jù)庫管理系統(tǒng)被廣泛應(yīng)用于科學探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫技術(shù),通過對教務(wù)管理的大量數(shù)據(jù)進行多層次、多維度的加工處理,從而實現(xiàn)人性化管理,為科學決策提供支持。
畢業(yè)論文在教學體系中占有十分重要的位置,是本科生培養(yǎng)計劃中衡量教學質(zhì)量的重要指標。提高畢業(yè)論文教學質(zhì)量是一項系統(tǒng)工程,為研究在當前的教學條件下如何提高畢業(yè)論文教學質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對影響畢業(yè)論文成績管理的多方面因素進行了深入分析和挖掘,以期發(fā)現(xiàn)對學校畢業(yè)論文教學管理有用的知識,將這些知識應(yīng)用于本科學生畢業(yè)論文教學實踐中,為學校管理者提供有用的信息,進而獲得更好的管理效益,為學校未來的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。
1 數(shù)據(jù)挖掘簡介
數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過分析每一個具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫研究中的一個很有應(yīng)用價值的新領(lǐng)域。
1.1 數(shù)據(jù)挖掘的定義
H包含如下功能:
綜上所述,數(shù)據(jù)挖掘具有三大特點:其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個對大量數(shù)據(jù)處理的過程,有特定的步驟[3]。
1.2 數(shù)據(jù)挖掘的主要方法
數(shù)據(jù)挖掘是一個多學科交叉領(lǐng)域,它由人工智能、機器學習的方法起步,并與統(tǒng)計分析方法、模糊數(shù)學和可視化技術(shù)相融合,以數(shù)據(jù)庫為研究對象,圍繞面對應(yīng)用,為決策者提供服務(wù)。
數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計分析方法、歸納學習方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學方法。歸納學習法是目前重點研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學習法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。
2 決策樹算法基本理論
2.1 決策樹方法介紹
決策樹[4]方法是以事例學習為基礎(chǔ)的歸納推算法,著眼于從一組無序的,無規(guī)則的事例中推斷出類似條件下會得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來作預(yù)測。建模過程中,即樹的生長過程是不斷的把數(shù)據(jù)進行切分,采用“自頂向下,分而治之”的方法將問題的搜索空間劃分為若干個互不交叉的子集,通常用來形成分類器和預(yù)測模型。如圖1所示,為決策樹的示意圖。
決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識的表現(xiàn)形式。為了對未知樣本進行分類,生成具體的分類規(guī)則,信息樣本的各個屬性值要在決策樹上進行測試。主要分為兩個階段:在第一階段中生成樹。決策樹最上面的節(jié)點為根節(jié)點,是整個決策樹的開始,然后遞歸的進行數(shù)據(jù)分區(qū),每次切分對應(yīng)一個問題,也對應(yīng)著一個節(jié)點;在第二階段中對樹進行修剪,此過程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過匹配,進而保證生成決策樹的有效性和合理性。當一個節(jié)點中的所有數(shù)據(jù)都屬于同一類別,或者沒有屬性可以再用于數(shù)據(jù)進行分割時,分割工作停止。具體的工作流程如圖2所示。
2.2 C4.5算法
1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運用信息熵理論,選擇當前樣本中具有信息增益值的屬性作為測試屬性,對樣本的劃分則依據(jù)測試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來的,它繼承了ID3算法的全部優(yōu)點,并增加了新的功能改進了ID3算法中的不足,可以進行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機的決策樹算法中,C4.5算法不僅分類準確而且執(zhí)行速度快。
C4.5通過兩個步驟來建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來記錄字段不同取值的選擇,首先計算各個屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點,自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:
首先計算出給定樣本所需的期望信息,設(shè)S為一個包含s個數(shù)據(jù)樣本的集合,對于類別屬性,可以取m個不同取值,分別對應(yīng)于m個不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個數(shù)為[si],期望信息為:
其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計。
接著,計算當前樣本集合所需用的信息熵,設(shè)一個屬性A具有n個不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計算的熵為:
然后利用屬性A對當前分支結(jié)點進行相應(yīng)樣本集合劃分計算信息增益:
最后,求信息增益率,表達式為:
C4.5算法的偽代碼如下:
輸入:訓(xùn)練樣本Samples;目標屬性Target—attribute;候選屬性的集合Attributes
輸出:一棵決策樹
1)創(chuàng)建根節(jié)點root;
2)If Samples都在同一類C Then;
3)返回label=類C的單結(jié)點樹root;
4)If Attributes為空Then;
5)返回單結(jié)點樹root,[label=Samples]中最普遍的Target-Atribute值;
6)Else;
7)For each測試屬性列表Attributes中的屬性;
8)IF測試屬性是連續(xù)的Then;
9)對測試屬性進行離散化處理,找出使其信息增益比率最大的分割閾值;
10)Else;
11)計算測試屬性的信息增益比率;
20)添加子樹Generate Tree C4.5;
21)對已建立的決策樹計算每個結(jié)點的分類錯誤,進行剪枝,并返回根結(jié)點Root。
3 畢業(yè)論文成績管理系統(tǒng)的設(shè)計和實現(xiàn)
利用數(shù)據(jù)挖掘技術(shù)對學生的成績數(shù)據(jù)進行提煉,所產(chǎn)生的結(jié)果和信息會對以后的教學管理工作提供有用的信息,進而獲得更好的管理效益。解決問題的重點在于怎樣對學生的畢業(yè)論文成績進行全面且深度的分析,從而挖掘出成績與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時,主要操作步驟如下:
1)確定挖掘來源:清晰地定義挖掘?qū)ο?,明確挖掘目標是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績,旨在通過對大量成績數(shù)據(jù)進行各層次的挖掘,全面了解具體影響學生畢業(yè)論文成績的各方面因素,正確的針對問題擬定分析過程。
2)獲取相關(guān)知識:數(shù)據(jù)是挖掘知識最原始的資料,根據(jù)確定的數(shù)據(jù)分析對象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問題的數(shù)據(jù)收集完成之后,與目標信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對學生進行調(diào)查才能的得到。
3)數(shù)據(jù)預(yù)處理:此過程中是對已收集的大量數(shù)據(jù)進行整合與檢查。因為存放在數(shù)據(jù)庫中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對數(shù)據(jù)庫中數(shù)據(jù)進行清理、整理和歸并,以提高挖掘過程的精度和性能。
4)數(shù)據(jù)轉(zhuǎn)換:對預(yù)處理后的數(shù)據(jù)建立分析模型,對于特定的任務(wù),需要選擇合適的算法來建立一個準確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進行分類建模來解決相應(yīng)的問題。
5)分類挖掘知識和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實現(xiàn)的功能和任務(wù)來確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當?shù)某绦蛟O(shè)計語言來實現(xiàn)該算法,對凈化和轉(zhuǎn)換過得數(shù)據(jù)訓(xùn)練集進行挖掘,獲得有價值的分析信息。
6)知識表示:將數(shù)據(jù)挖掘得到的分析信息進一步的解釋和評價,生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實踐。
7)知識應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學管理中,教師可以利用所得到的知識針對性的開展畢業(yè)設(shè)計的教學活動,進一步指導(dǎo)教學工作,提高教學水平和學生的畢業(yè)論文質(zhì)量。
4 結(jié)論
最終發(fā)現(xiàn)影響學生畢業(yè)論文成績主要的因素不是指導(dǎo)教師的職稱,學生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學校教學管理工作應(yīng)加重對教師的素質(zhì)及能力培養(yǎng),合理的分配每個教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學生整體論文質(zhì)量的提高。
在高校教學數(shù)字化的時代趨勢下,利用數(shù)據(jù)挖掘技術(shù)來挖掘提取教學工作中的全面而有價值信息,可以為教育管理者的教學工作提供有效的參考信息,改進教學管理方法,提高教學質(zhì)量和學生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。
參考文獻:
[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學,2008.
[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學系統(tǒng)中的應(yīng)用[J].計算機工程,2003.29(11):87-89.
[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計算機應(yīng)用研究,2005(2):150-154.
[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學.機器學習[D].曾華軍,張銀奎,譯,北京:機械工業(yè)出版社,2003.
攻略1 醫(yī)學論文的基本要求
1.1 創(chuàng)新性 醫(yī)學論文的創(chuàng)新性是指文章要有新意,要發(fā)展醫(yī)學成就,破解醫(yī)學問題。醫(yī)學論文有無創(chuàng)新,選題是關(guān)鍵。選題創(chuàng)新是醫(yī)學論文寫作的靈魂,是衡量醫(yī)學論文價值的重要標準??审w現(xiàn)在:①理論方面的選題應(yīng)有創(chuàng)新見解,既要反映作者在某些理論方面的獨創(chuàng)見解,又要提出這些見解的依據(jù);②應(yīng)用方面的選題應(yīng)有創(chuàng)新技術(shù)等,也就是要寫出新發(fā)明、新技術(shù)、新產(chǎn)品、新設(shè)備的關(guān)鍵,或揭示原有技術(shù)移植到新的醫(yī)學領(lǐng)域中的效果;③創(chuàng)新性還包括研究方法方面的改進或突破。
1.2 可行性 所謂選題的可行性,是指能夠充分發(fā)揮作者的綜合條件和可以勝任及如期完成醫(yī)學論文寫作的把握程度。選題切忌好高鶩遠,脫離實際,但也不應(yīng)過低,影響主客觀的正常發(fā)揮,降低了醫(yī)學論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識素質(zhì)結(jié)構(gòu)、研究能力、技術(shù)水平及特長和興趣等;②客觀條件,包括經(jīng)費、資料、時間、設(shè)備等。
1.3 實用性 撰寫醫(yī)學論文的目的是為了交流及應(yīng)用。要從實際出發(fā),選擇夠指導(dǎo)科研、指導(dǎo)臨床、造福人類的主題,因此,選題的實用性尤為重要。
1.4 科學性 醫(yī)學論文是臨床和醫(yī)學科學研究工作的客觀反映,其寫作的具體內(nèi)容應(yīng)該是取材客觀真實、主題揭示本質(zhì)、科研設(shè)計合理、論證科學嚴謹、表達邏輯性強、經(jīng)過實踐檢驗。所以,嚴格遵守選題的科學性原則,是醫(yī)學論文寫作的生命。
1.5 前瞻性 要選擇有研究價值及發(fā)展前途的主題,應(yīng)積極開發(fā)研究新領(lǐng)域、新學科和新理論。
攻略2 選題的基本方法
2.1 根據(jù)課題研究的結(jié)論來確定主題 這是常用的方法,可分為:①以科研的結(jié)論或部分結(jié)論作為醫(yī)學論文的主題;②科研結(jié)果與開題時預(yù)測不一致,待查出原因后,再尋找主題;③科研達不到預(yù)期結(jié)果,可總結(jié)經(jīng)驗,從反面挖掘主題。
2.2 在科研過程中選題 醫(yī)學科研的過程中,有時會出現(xiàn)意外的現(xiàn)象或問題,作者如果能夠細心觀察、及時發(fā)現(xiàn),可以在這些偶然中獲得新的選題。
2.3 在臨床實踐中選題 臨床工作是醫(yī)學論文寫作取之不盡的源泉,作者在臨床中會經(jīng)常遇到許多需要解決的實際應(yīng)用問題或理論問題,對此,只要從本學科實際出發(fā),用心思考,會從中產(chǎn)生很多好的主題。其包括:①探討發(fā)病機制與預(yù)后情況;②分析臨床癥狀與表現(xiàn);③研究診斷方法和治療方法;④疾病的多因素分析等。
2.4 從文獻資料中選題 醫(yī)學文獻是人們長期積累的寶貴財富,是醫(yī)學論文選題的重要來源。閱讀最新文獻資料,可以了解當前醫(yī)學科學研究的進展情況,開拓思路、激發(fā)靈感,從而挖掘提煉出好的醫(yī)學論文主題。
攻略3 醫(yī)學論文的一般體裁
3.1 實驗研究 一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學等實驗研究。主要包括:①對各種動物進行藥理、毒理實驗,外科手術(shù)實驗;②對某種疾病的病原或病因的體外實驗;③某些藥物的抗癌、抗菌、抗寄生蟲實驗;④消毒、殺蟲和滅菌的實驗。
3.2 臨床分析 對臨床上某種疾病病例(百例以上為佳)的病因、臨床表現(xiàn)、分型、治療方法和療效觀察等進行分析、討論,總結(jié)經(jīng)驗教訓(xùn),并提出新建議、新見解,以提高臨床療效。
3.3 療效觀察 指使用某種新藥、新療法治療某種疾病,對治療的方法、效果、劑量、療程及不良反應(yīng)等進行觀察、研究,或設(shè)立對照組對新舊藥物或療法的療效進行比較,對比療效的高低、療法的優(yōu)劣、不良反應(yīng)的種類及程度,并對是否適于推廣應(yīng)用提出評價意見。
3.4 病例報告 主要報告罕見病及疑難重癥;雖然曾有少數(shù)類似報道但尚有重復(fù)驗證或加深認識的必要。
3.5 病例(理)討論 臨床病例討論主要是對某些疑難、復(fù)雜、易于誤診誤治的病例,在診斷和治療方面進行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對少見或疑難疾病的病理檢查、診斷及相關(guān)討論為主。
3.6 調(diào)查報告 在一定范圍的人群里,不施加人工處理因素,對某一疾病(傳染病、流行病、職業(yè)病、地方病等)的發(fā)病情況、發(fā)病因素、病理、防治方法及其效果進行流行病學調(diào)查研究,給予評價,并對防治方案等提出建議。
在近年信息處理與分析相關(guān)技術(shù)領(lǐng)域的進展中,文本挖掘是最引人注目的領(lǐng)域之一。文本挖掘是一個方法群,涉及統(tǒng)計學、自然語言處理、信息抽取、可視化等多項信息技術(shù)。同很多新興領(lǐng)域一樣,文本挖掘目前并沒有統(tǒng)一的定義,沒有完全一致的方法與模型,但是,F(xiàn)eldman和sanger那個很籠統(tǒng)的定義:“可將文本挖掘大致定義為一個知識密集的過程,在此過程中用戶與文檔集合通過分析工具進行交互”,清晰表明了這種方法與信息分析的內(nèi)在聯(lián)系。
信息分析方法可廣泛用于決策支持和科學研究,在社會科學問題的研究中,它也具有一般社會科學研究方法所不具備的某些方法論優(yōu)勢。但情報學產(chǎn)生至今的數(shù)十年時間里,信息分析方法一直沒有成為社會科學研究的主流方法,造成這一現(xiàn)象的原因,除了情報學對本領(lǐng)域的理論與方法缺乏有效的宣傳之外,信息分析方法本身的效率問題是一個關(guān)鍵因素。由于社會科學所需要的信息分析方法的效率不高,制約了它們大規(guī)模進入社會科學研究的應(yīng)用領(lǐng)域。值得慶幸的是,隨著計算機技術(shù)的日漸成熟,高效率的文本挖掘方法出現(xiàn)了。盡管文本挖掘方法本身尚未完全成熟,仍在發(fā)展過程中,它在專門領(lǐng)域的應(yīng)用也需要情報學家根據(jù)信息分析的特點加以完善,但它作為一種優(yōu)秀的社會科學研究方法的前景已經(jīng)展示無疑了。
2010年,筆者承擔了國家社會科學重點項目“我國圖書館核心價值體系構(gòu)建研究”??紤]到我國圖書館核心價值會受到我國社會主流價值的制約,我們需要判斷國際上通行的圖書館核心價值是否為我國社會主流價值體系所認同。這就需要從國際上所有已經(jīng)產(chǎn)生的圖書館核心價值中提取核心價值文本,并將其置入我國社會核心價值體系中進行考察。由于我國社會并沒有形成“社會核心價值”,我們假定代表我國社會主流價值體系的文本,比如《人民日報》全文庫或新華網(wǎng),包含了我國社會的核心價值體系,而這類代表我國主流價值體系的文本必定是海量的、非結(jié)構(gòu)化的,除非采用專門的方法與工具,否則無法發(fā)現(xiàn)這些文本中所包含的社會主流價值,也無法判斷它們與圖書館核心價值的聯(lián)系。
關(guān)鍵詞:科技期刊;媒體融合;知識服務(wù);精準傳播
近年來,隨著計算機技術(shù)的進步,科技期刊出版正在經(jīng)歷著前所未有的巨大變革。目前,信息技術(shù)已呈現(xiàn)出“人-機-物”三元融合的態(tài)勢,數(shù)據(jù)分析工具和基于云計算的數(shù)據(jù)資源成為期刊出版的重要特征[1],期刊出版的數(shù)字化和集群化發(fā)展成為當下期刊發(fā)展的主流趨勢,人工智能也將在學術(shù)期刊的出版、存取、質(zhì)量評價等多個環(huán)節(jié)上得到廣泛應(yīng)用,并推動科技期刊出版方式的變革[2]。目前,在科技期刊界,學者們就如何促進科技期刊媒體融合發(fā)展開展了大量的研究,既包括理論層面的探討,又包括從實踐和案例的角度開展的應(yīng)用研究[3-6]。與此同時,我們注意到,全球的科學產(chǎn)出以極快的速度增長,從第二次世界大戰(zhàn)結(jié)束以來,全球的科學產(chǎn)出相當于每9年就會翻1番[7],讀者也更容易被無用的信息轟炸,難以在期刊論文的海洋中高效準確地找到自己需要的內(nèi)容,科技期刊要想擴大自身的影響力也愈來愈難。信息爆炸時代,科技期刊關(guān)注讀者“需要什么”比“提供了什么”更重要。在智能技術(shù)變革的時展潮流中,科技期刊應(yīng)如何順應(yīng)時展趨勢,利用智能技術(shù)整合資源,更好地滿足讀者的需求,擴大期刊的影響力,創(chuàng)造科技期刊人、出版商、作者、讀者的共贏局面?本文從以上問題切入,嘗試從擴展學術(shù)搜索的路徑、構(gòu)建個性化的精準推送平臺和多元化的傳播模式、向用戶提供有針對性的服務(wù)方面探索在媒體融合形勢下如何提升科技期刊的精準傳播能力,以期為我國科技期刊媒體融合建設(shè)增瓦添磚。
1借助人工智能,擴展學術(shù)搜索的路徑
互聯(lián)網(wǎng)時代改變了人們獲取信息的方式,搜索引擎在促進科技期刊的傳播、提高影響力等方面的功能逐漸凸顯。雖然現(xiàn)有的一些搜索門戶網(wǎng)站諸如Webofscience、PubMed、谷歌學術(shù)、各圖書館網(wǎng)站、中國知網(wǎng)、萬方數(shù)據(jù)知識服務(wù)平臺等搜索引擎可以幫助讀者檢索科技論文,但是仍不能滿足用戶多樣化的檢索需求。Tancheva等[8]針對康奈爾大學圖書館開展的一項調(diào)查研究發(fā)現(xiàn)受訪者“往往既對搜索方法的效率感到滿意,同時又對搜索的棘手和費力感到不滿……當研究人員無法完成一個特定的搜索任務(wù),他們很可能放棄現(xiàn)有的方法(或工具或技術(shù)),而不是找出如何使它工作”。為了解決這一問題,需要開發(fā)新的模式解決學術(shù)出版的過量負載,利用智能技術(shù)優(yōu)化搜索引擎的現(xiàn)有功能。目前很多科技公司都在探索開發(fā)基于人工智能的學術(shù)搜索引擎和知識服務(wù)。例如Springer網(wǎng)絡(luò)平臺不斷對其功能進行集成,并提供個性化服務(wù)功能;Elsevier等出版商為用戶等提供搜索引擎培訓(xùn)課程;微軟學術(shù)(MicrosoftAcademic)通過在實體之間建立有意義的關(guān)聯(lián),自動生成可視化的知識圖譜,引導(dǎo)學者閱讀[2];2014年,Wiley線上圖書館為用戶提供了增強型HTML文章服務(wù)(AnywhereArticle),它將可讀性、交互性和可移植性設(shè)為用戶體驗的核心,使讀者能夠在頁面中快速找到最重要的信息[9]。一些關(guān)于科學出版的新模式和平臺被相繼開發(fā),如Chorus[10]通過集成服務(wù)和開放APIs,優(yōu)化了科技論文被搜索的路徑,并為政府機構(gòu)、出版商、研究人員、圖書館員和作者提供可持續(xù)的解決方案。目前我國已經(jīng)形成一些專業(yè)的期刊集群,一部分學術(shù)期刊數(shù)據(jù)庫平臺也開始進行語義出版形式的探索,對科技期刊內(nèi)容進行深度加工和挖掘。不同的科技期刊具有不同的特點,在學術(shù)期刊的數(shù)據(jù)庫平臺建設(shè)過程中需要平臺開發(fā)團隊與期刊編輯充分交流[11],發(fā)揮編輯的優(yōu)勢和主導(dǎo)作用,凸顯本學科的學科特色。
2利用智能算法,構(gòu)建個性化的精準推送平臺
技術(shù)是科技期刊創(chuàng)新發(fā)展的重要推手,技術(shù)應(yīng)用能力也成為科技期刊發(fā)展的競爭資源,充分利用技術(shù)強化科技期刊的知識服務(wù)和加工能力,創(chuàng)新出版和傳播模式,滿足數(shù)字化時代的讀者需求,對于科技期刊的精準傳播和融合發(fā)展非常重要。在人工智能背景下,可以借助于算法實現(xiàn)科技期刊出版的智能化。算法的設(shè)計程序與設(shè)計者的思維密不可分,設(shè)計者選擇數(shù)據(jù)樣本、賦予數(shù)據(jù)意義、設(shè)計模型與算法,擁有數(shù)據(jù)并設(shè)定算法的智能化平臺具有很強的主導(dǎo)性[12],因此設(shè)計者需要盡可能考慮并消除算法偏見和利益沖突對精準傳播帶來的負面影響。日前,騰訊研究院和騰訊AILab聯(lián)合的人工智能倫理報告指出“人工智能等新技術(shù)需要價值引導(dǎo),做到可用、可靠、可知、可控”[13]。目前“智能算法+學術(shù)期刊”已成為創(chuàng)新趨勢,學術(shù)期刊可構(gòu)建信息數(shù)據(jù)基礎(chǔ)環(huán)境,進一步完成動態(tài)精準信息推薦,最后以傳受關(guān)系交互實現(xiàn)長期有效的黏性連接[14]。一方面可以通過算法整合資源,實現(xiàn)大量科技期刊的數(shù)字資源的聚合;另一方面可以通過算法分析用戶的閱讀興趣、研究領(lǐng)域,基于用戶的需求建立相關(guān)用戶數(shù)據(jù)信息,從而進一步將數(shù)字資源和用戶數(shù)據(jù)相匹配,實現(xiàn)科技期刊的智能化精準傳播。如中國知網(wǎng)推出的“CNKI全球?qū)W術(shù)快報”整合全球文獻和超星集團推出的“域出版”超星學習通學術(shù)平臺[15],用戶不僅可以在其App上進行文獻檢索、分版閱讀、專題閱讀等,還可以與作者進行互動交流。此外,還可以利用智能算法設(shè)計追蹤用戶的信息反饋,通過學術(shù)平臺進一步增加用戶的體驗感,提升科技期刊的精準傳播能力。
3創(chuàng)新知識加工,構(gòu)建多元化的傳播模式
在人工智能和融媒體時代,除了運用智能技術(shù)構(gòu)建個性化的知識服務(wù)平臺,科技期刊也需要充分發(fā)揮社交媒體的作用,通過加強期刊網(wǎng)站建設(shè)、建立App客戶端、微信、微博等新媒體傳播平臺,可以根據(jù)各自領(lǐng)域的特點,對科技論文進行多次加工和編輯,構(gòu)建個性化的傳播方式。如論文編輯平臺Kudos為作者提供了一種利用社交媒體使他們的論文更易下載和傳播的工具,通過為作者已發(fā)表的文章創(chuàng)建介紹并添加簡短的標題、易懂的摘要和補充內(nèi)容,可以使他們的文章對讀者更具吸引力[16],學術(shù)出版平臺也可以通過建立二維碼,為讀者提供開放增值服務(wù),使讀者進一步了解論文的數(shù)據(jù)、圖片等資料,實現(xiàn)與用戶的精準對接。如中國煤炭行業(yè)知識服務(wù)平臺為該平臺上的每篇論文制作了二維碼,用戶閱讀紙刊論文時,通過掃描其中的二維碼可以免費下載PDF、HTML文件,此外讀者還可以通過掃描二維碼向作者提問或向責任編輯反饋意見[17]。目前,郵件推送也正在成為科技期刊提升精準傳播能力的一個重要手段,國內(nèi)一些期刊在這方面做了大膽的嘗試。例如:《計算機工程》基于語義分析和智能分詞等技術(shù),設(shè)計了一套期刊內(nèi)容精準推送系統(tǒng),將讀者—文章—標準關(guān)鍵詞進行匹配,通過郵件為潛在讀者推送與其研究方向相關(guān)的最新研究論文[18];《應(yīng)用生態(tài)學報》通過運用大數(shù)據(jù)和數(shù)理統(tǒng)計方法,構(gòu)建了科技期刊論文單篇推送客體指標體系,通過郵件對讀者進行單篇精準推送,取得了較好的傳播效果[19]。此外,利用音頻、視頻、科學可視化等多媒體技術(shù)可以在短時間內(nèi)表達豐富的科學信息,增加科技論文的廣泛傳播。如虛擬現(xiàn)實/增強現(xiàn)實(VR/AR)為讀者提供沉浸式的閱讀環(huán)境,提升讀者的體驗感,從而吸引了更多讀者的關(guān)注。中國科學技術(shù)大學王國燕博士及其團隊開展的前沿科學可視化研究和設(shè)計,使科技論文通過圖像的形式向讀者展現(xiàn),提高了科技論文的交流和傳播,她通過對頂級科技期刊《Nature》《Science》《Cell》的一項實證研究發(fā)現(xiàn),科技期刊封面故事和封面圖像的使用可以提高論文的引用率[20]?!渡虾4髮W學報(自然科學版)》借助第三方AR展示平臺實現(xiàn)了學術(shù)期刊的多模式AR融合出版,取得了很好的效果[21]。
4滿足用戶需求,提供有針對性的服務(wù)