首頁(yè) > 精品范文 > 編碼技術(shù)論文
時(shí)間:2022-02-16 04:27:12
序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇編碼技術(shù)論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。
關(guān)鍵詞:網(wǎng)絡(luò)編碼無(wú)線網(wǎng)絡(luò)信息交換
一、網(wǎng)絡(luò)編碼技術(shù)與傳統(tǒng)網(wǎng)絡(luò)的差異
在傳統(tǒng)的計(jì)算機(jī)網(wǎng)絡(luò)數(shù)據(jù)傳輸過程中,要借助路由器進(jìn)行數(shù)據(jù)傳遞,根據(jù)數(shù)據(jù)的目標(biāo)地址,路由器將數(shù)據(jù)包向各個(gè)鏈路發(fā)送。由于沒有統(tǒng)一的安排和協(xié)調(diào),在同一鏈路中會(huì)出現(xiàn)很多數(shù)據(jù)包,必須排隊(duì)等待通過的情況,這就制約了計(jì)算機(jī)網(wǎng)絡(luò)的傳輸速度和效率的提升。2000年,新型網(wǎng)絡(luò)編碼技術(shù)一經(jīng)出現(xiàn)就得到了廣泛關(guān)注。網(wǎng)絡(luò)編碼技術(shù)著力解決的問題是有效地將同時(shí)到達(dá)路由器的數(shù)據(jù)同時(shí)發(fā)送出去,不讓數(shù)據(jù)產(chǎn)生擁塞,從而提高數(shù)據(jù)傳輸速度。
二、網(wǎng)絡(luò)編碼技術(shù)在無(wú)線網(wǎng)絡(luò)中的應(yīng)用
2.1網(wǎng)絡(luò)編碼的概念
網(wǎng)絡(luò)編碼是一種融合了路由和編碼的信息交換技術(shù),它的核心思想是在網(wǎng)絡(luò)中的各個(gè)節(jié)點(diǎn)上對(duì)各條信道上收到的信息進(jìn)行線性或者非線性的處理,然后轉(zhuǎn)發(fā)給下游節(jié)點(diǎn),中間節(jié)點(diǎn)扮演著編碼器或信號(hào)處理器的角色。
2.2網(wǎng)絡(luò)編碼應(yīng)用于無(wú)線網(wǎng)絡(luò)的優(yōu)勢(shì)
網(wǎng)絡(luò)編碼融合了路由和編碼的概念,使網(wǎng)絡(luò)節(jié)點(diǎn)不僅可以對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ)轉(zhuǎn)發(fā),還可以進(jìn)行編碼處理,已證明了使用線性網(wǎng)絡(luò)編碼已經(jīng)能足夠達(dá)到網(wǎng)絡(luò)多播容量。但網(wǎng)絡(luò)編碼的好處不止這些,尤其是當(dāng)網(wǎng)絡(luò)編碼應(yīng)用于無(wú)線網(wǎng)絡(luò)時(shí)。網(wǎng)絡(luò)編碼首先應(yīng)被應(yīng)用在無(wú)線網(wǎng)絡(luò)環(huán)境。無(wú)線網(wǎng)絡(luò)的特性是不可靠性和廣播特性,使網(wǎng)絡(luò)編碼非常適合應(yīng)用在無(wú)線網(wǎng)絡(luò)上,因?yàn)闊o(wú)線鏈路的不可靠性和物理層廣播特性非常適合使用編碼的方法。應(yīng)用網(wǎng)絡(luò)編碼,可以解決傳統(tǒng)路由、跨層設(shè)計(jì)等技術(shù)無(wú)法解決的問題,提高網(wǎng)絡(luò)編碼在無(wú)線網(wǎng)絡(luò)中的應(yīng)用。無(wú)線網(wǎng)絡(luò)的廣播特性使其非常適合使用網(wǎng)絡(luò)編碼,當(dāng)一個(gè)節(jié)點(diǎn)傳輸一個(gè)數(shù)據(jù)包給它的一個(gè)鄰居節(jié)點(diǎn)時(shí),它的其它鄰居節(jié)點(diǎn)也可以接收到這個(gè)數(shù)據(jù)包。因此,當(dāng)一個(gè)節(jié)點(diǎn)的鄰居節(jié)點(diǎn)對(duì)不同的數(shù)據(jù)包感興趣時(shí),可以將這些數(shù)據(jù)包編碼后再一起傳輸,這樣子可以使其所有的鄰居節(jié)點(diǎn)都收到感興趣的數(shù)據(jù)包并可以節(jié)約無(wú)線資源。
應(yīng)用網(wǎng)絡(luò)編碼,可以解決傳統(tǒng)路由、跨層設(shè)計(jì)等技術(shù)無(wú)法解決的問題,提高網(wǎng)絡(luò)性能。網(wǎng)絡(luò)編碼在無(wú)線網(wǎng)絡(luò)中的應(yīng)用可以提高網(wǎng)絡(luò)的吞吐量,尤其是組播吞吐量??梢詼p少數(shù)據(jù)包的傳播次數(shù),降低無(wú)線發(fā)送能耗。當(dāng)網(wǎng)絡(luò)部分節(jié)點(diǎn)或鏈路失效時(shí)采用隨機(jī)網(wǎng)絡(luò)編碼,最終在目的節(jié)點(diǎn)仍然能恢復(fù)原始數(shù)據(jù),增強(qiáng)網(wǎng)絡(luò)的容錯(cuò)性和魯棒性。網(wǎng)絡(luò)編碼對(duì)無(wú)線網(wǎng)絡(luò)的性能改善主要體現(xiàn)在提高網(wǎng)絡(luò)編碼的吞吐量上,網(wǎng)絡(luò)編碼已經(jīng)被證明對(duì)于提高某些網(wǎng)絡(luò)的吞吐量有著很大的作用。運(yùn)用網(wǎng)絡(luò)編碼可以在很大程度上提高網(wǎng)絡(luò)吞吐量,但是同時(shí)會(huì)增加網(wǎng)絡(luò)的復(fù)雜性。不少研究者在研究提高無(wú)線網(wǎng)絡(luò)的組播吞吐量的同時(shí),研究如何降低因采用網(wǎng)絡(luò)編碼帶來(lái)的復(fù)雜性。在網(wǎng)絡(luò)狀況惡劣的條件下,網(wǎng)絡(luò)編碼和路由之間組播吞吐量的差別不大,網(wǎng)絡(luò)編碼的優(yōu)勢(shì)體現(xiàn)在降低網(wǎng)絡(luò)復(fù)雜性上;在網(wǎng)絡(luò)狀況較好的條件下,網(wǎng)絡(luò)編碼相對(duì)于路由方法,在很大程度上,提高了組播吞吐量。這為根據(jù)網(wǎng)絡(luò)狀況動(dòng)態(tài)調(diào)整網(wǎng)絡(luò)編碼算法提供了可能。
2.3網(wǎng)絡(luò)編碼如何提高無(wú)線網(wǎng)絡(luò)的安全性
網(wǎng)絡(luò)編碼在提高無(wú)線網(wǎng)絡(luò)的安全性研究方面亦取得了一定的成果。在無(wú)線網(wǎng)絡(luò)組播中,對(duì)于數(shù)據(jù)包的惡意修改的檢測(cè),過去是使用基于消息認(rèn)證碼或者數(shù)字簽名的方法?;诰W(wǎng)絡(luò)編碼產(chǎn)生了一種基于數(shù)據(jù)包的隨機(jī)網(wǎng)絡(luò)編碼檢測(cè)策略,這種方法計(jì)算量小,而且檢測(cè)概率可以根據(jù)通信控制開銷、網(wǎng)絡(luò)編碼復(fù)雜程度和檢測(cè)時(shí)間這些因素進(jìn)行調(diào)控。但這種方法亦存在不足。這種方法要求接收節(jié)點(diǎn)需要預(yù)先獲得至少一個(gè)沒有被惡意修改過的數(shù)據(jù)包,并且數(shù)據(jù)包的內(nèi)容不能被攻擊者知曉,因此,這種方法對(duì)抗攻擊效果不好。
無(wú)線網(wǎng)絡(luò)廣播重傳處理中,多個(gè)接收節(jié)點(diǎn)中的任意一個(gè)節(jié)點(diǎn)的丟包都要求源節(jié)點(diǎn)重傳數(shù)據(jù)包,需要廣播發(fā)送較多的重傳次數(shù).本文將隨機(jī)線性網(wǎng)絡(luò)編碼技術(shù)應(yīng)用在無(wú)線網(wǎng)絡(luò)廣播重傳中,提出一種新穎的廣播重傳方法(RLNCBR)。該方法中,源節(jié)點(diǎn)記錄多個(gè)接收節(jié)點(diǎn)中丟包最多的接收節(jié)點(diǎn)丟包數(shù),再按照隨機(jī)線性網(wǎng)絡(luò)編碼的方法編碼組合該丟包數(shù)個(gè)線性編碼包。源節(jié)點(diǎn)廣播重傳,接收節(jié)點(diǎn)采用運(yùn)算編碼線性組合的方法獲得信息包數(shù)據(jù)。數(shù)學(xué)分析表明,該方法能保證所有接收節(jié)點(diǎn)的編碼可解性,同時(shí)重傳次數(shù)可達(dá)到理論最優(yōu)性。模擬測(cè)試結(jié)果表明:與傳統(tǒng)重傳方法相比,RLNCBR有效地減少了信息包的平均傳輸次數(shù),提高了傳輸效率。
三、網(wǎng)絡(luò)編碼在無(wú)線網(wǎng)絡(luò)的應(yīng)用發(fā)展方向
網(wǎng)絡(luò)編碼正在給現(xiàn)有的網(wǎng)絡(luò)帶來(lái)革命性的變化:網(wǎng)絡(luò)編碼從用來(lái)達(dá)到有線網(wǎng)絡(luò)中的組播容量,發(fā)展到在有線和無(wú)線網(wǎng)絡(luò)中提高吞吐量、節(jié)省能量、增強(qiáng)魯棒性和安全性,甚至改變網(wǎng)絡(luò)結(jié)構(gòu)、改變網(wǎng)絡(luò)協(xié)議設(shè)計(jì)方法。網(wǎng)絡(luò)編碼在無(wú)線網(wǎng)絡(luò)中的應(yīng)用還存在著以下的幾個(gè)問題:網(wǎng)絡(luò)編碼的具體實(shí)現(xiàn)和降低網(wǎng)絡(luò)編碼的復(fù)雜性?,F(xiàn)在已經(jīng)提出了很多網(wǎng)絡(luò)編碼方法,有集中式線性網(wǎng)絡(luò)編碼和分布式隨機(jī)網(wǎng)絡(luò)編碼,但是如何在實(shí)際網(wǎng)絡(luò)環(huán)境中實(shí)現(xiàn)網(wǎng)絡(luò)編碼,需要考慮許多實(shí)際應(yīng)用問題,例如同步、控制開銷等。網(wǎng)絡(luò)編碼在實(shí)際網(wǎng)絡(luò)環(huán)境中如何實(shí)現(xiàn)是一個(gè)很迫切的問題。采用網(wǎng)絡(luò)編碼可以在很大程度上提高網(wǎng)絡(luò)性能,但設(shè)計(jì)和實(shí)現(xiàn)上的復(fù)雜性也隨之增加。如何在不顯著增加網(wǎng)絡(luò)開銷,綜合考慮效率和性能的前提下,實(shí)現(xiàn)網(wǎng)絡(luò)編碼問題是將來(lái)需要進(jìn)行深入研究的方向。
四、結(jié)束語(yǔ)
無(wú)線網(wǎng)絡(luò)環(huán)境由于環(huán)境的多變性,使得數(shù)據(jù)包在傳輸過程中更加容易丟失。目前,重傳常被用來(lái)實(shí)現(xiàn)無(wú)線廣播的錯(cuò)誤處理,普通重傳方法思想基于發(fā)送方通過反饋得到接收方的出錯(cuò)情況,重傳出錯(cuò)的數(shù)據(jù)報(bào)文來(lái)恢復(fù)出錯(cuò)的報(bào)文。:
網(wǎng)絡(luò)編碼技術(shù)是近十年來(lái)飛速發(fā)展的一個(gè)研究課題。雖然還沒有應(yīng)用到實(shí)際的通信網(wǎng)絡(luò)中,但已引起了較大的關(guān)注,比如美國(guó)軍方已經(jīng)意識(shí)到網(wǎng)絡(luò)編碼技術(shù)的優(yōu)勢(shì),已經(jīng)撥款研究網(wǎng)絡(luò)編碼技術(shù)在移動(dòng)自組網(wǎng)(MobileAdHocNetwork)中的應(yīng)用。因此,我們也應(yīng)當(dāng)及時(shí)跟蹤國(guó)際上的網(wǎng)絡(luò)編碼技術(shù)的發(fā)展趨勢(shì)。同時(shí),結(jié)合各種應(yīng)用深入思考網(wǎng)絡(luò)所涉及的各種安全技術(shù)問題。
參考文獻(xiàn)
[1]范明,盂小峰.數(shù)據(jù)挖掘概念與技術(shù)[M].機(jī)械工業(yè)出社,2001.8.
[2]胡國(guó)強(qiáng).數(shù)據(jù)挖掘在遠(yuǎn)程教育決策支持系統(tǒng)的運(yùn)用[J].開放教育研究,2003,(5)44-45.
[3]YEUNGRW,ZHANGZ.Distributedsourcecodingforsatellitecommunications[J].IEEETransactionsonInformationTheory,1999,45(3):1111-1120.
關(guān)鍵詞: H.264標(biāo)準(zhǔn);視頻壓縮;視頻編碼
0 引言
以數(shù)字視頻的采集、壓縮、處理為核心的現(xiàn)代視頻監(jiān)控技術(shù),采用先進(jìn)圖像處理芯片對(duì)視頻進(jìn)行壓縮處理,把智能圖像處理技術(shù)用于圖像顯示、監(jiān)控成為嵌入式視頻監(jiān)控系統(tǒng)的重點(diǎn)研究方向[1]。無(wú)論是MPEG1、MPEG2或者是MPEG4、H.263都已經(jīng)無(wú)法滿足運(yùn)動(dòng)圖像壓縮的要求,這時(shí)新一代的H.264標(biāo)準(zhǔn)便被制定,H.264作為新一代的編碼方式,有效提升了視頻壓縮率,僅需原先的一半帶寬即可播放相同質(zhì)量的視頻,而且視頻編碼的碼率更加靈活,架構(gòu)主要包括,幀內(nèi)預(yù)測(cè)、幀間預(yù)測(cè)、轉(zhuǎn)換、量化、去區(qū)塊濾波器、熵編碼等模塊,下面將研究H.264視頻編碼的關(guān)鍵技術(shù)及其應(yīng)用前景。[2]
1 H.264壓縮標(biāo)準(zhǔn)
H.264是兩個(gè)組織專家ITU-T和ISO為多媒體傳輸設(shè)計(jì)的數(shù)字視頻編碼標(biāo)準(zhǔn)[3],全稱是MPEG-4AVC,翻譯成中文意思是“活動(dòng)圖像專家組-4的高等視頻編碼”,或稱為MPEG-4Part10。各種分辨率的視頻圖像格式都可以被H.264視頻編碼標(biāo)準(zhǔn)支持,包括sub-QCIF、QCIF、CIF、4CIF、16CIF等[4]。H.264是一種視頻壓縮標(biāo)準(zhǔn),同時(shí)也是一種被廣泛使用的高精度視頻的錄制、壓縮和格式。H.264比其他編碼標(biāo)準(zhǔn)有著更高的視頻質(zhì)量和更低的碼率,被廣泛用于網(wǎng)絡(luò)流媒體數(shù)據(jù)、各種高清晰度電視陸地廣播以及衛(wèi)星電視廣播等領(lǐng)域。H.264的特點(diǎn)是能低碼率、高清晰持續(xù)提供較高的視頻質(zhì)量,能大大加強(qiáng)圖像的編碼效率和改善圖像數(shù)據(jù)在網(wǎng)絡(luò)中的傳輸效率。[1],使網(wǎng)絡(luò)更加靈活、適應(yīng)性更強(qiáng),最大的好處就是節(jié)約了成本,彌補(bǔ)了技術(shù)差距,讓存儲(chǔ)與視頻管理變得更高效。
2 H.264編碼器的結(jié)構(gòu)和特點(diǎn)
H.264只是規(guī)定了輸入碼流的格式及編碼之后輸出比特流的句法結(jié)構(gòu),其標(biāo)準(zhǔn)的編碼思路是混合編碼模式,以幀間和幀內(nèi)預(yù)測(cè)來(lái)清除空間和時(shí)間的冗余分量,用變換和量化編碼來(lái)清除頻域冗余分量。H.264視頻編碼在一定情況下提高了視頻壓縮編碼性,其視頻解碼與編碼實(shí)現(xiàn)的過程相反,依據(jù)幀內(nèi)編碼進(jìn)行逆量化,反變換,重構(gòu)幀,最后經(jīng)塊濾波器平滑濾波后得到重建圖像,[1]H.264編碼器的功能組成框圖如1。
3 H.264編碼器關(guān)鍵環(huán)節(jié)分析
3.1 幀內(nèi)預(yù)測(cè) 比起H.263,H.264提供了更多不同的工具來(lái)降低碼率,以編碼單位來(lái)說,h.264中每個(gè)宏塊(macroblock/mb)大小都是固定的16×16像素,能夠?qū)崿F(xiàn)高分辨率視頻的壓縮,對(duì)于幀間編碼來(lái)說,它允許變換塊的大小根據(jù)運(yùn)動(dòng)補(bǔ)償塊的大小進(jìn)行自適應(yīng)的調(diào)整;對(duì)于幀內(nèi)編碼來(lái)說,它允許變換塊的大小根據(jù)幀內(nèi)預(yù)測(cè)殘差的特性進(jìn)行自適應(yīng)的調(diào)整。
3.2 幀間預(yù)測(cè) H.264標(biāo)準(zhǔn)與早期標(biāo)準(zhǔn)不同之處在于,它所使用的是塊結(jié)構(gòu)運(yùn)動(dòng)補(bǔ)償,運(yùn)算精度精確到1/4像素點(diǎn)上。[8]不僅如此,H.264標(biāo)準(zhǔn)還使用了多幀預(yù)測(cè)的方法,能夠明顯改善預(yù)測(cè)增益。[5]
3.3 整數(shù)變換與量化 H.264中整型變換與之前的MPEG系列標(biāo)準(zhǔn)所采用的DCT變換都有區(qū)別:
①它是整形變換(所有的操作都為整數(shù)運(yùn)算,不存在解碼精度損失)。②用整數(shù)算術(shù)變換可以確保編解碼之間實(shí)現(xiàn)零失配。③變換的核心運(yùn)算部分只用到加法和移位運(yùn)算,不需要乘除運(yùn)算。④到量化器的縮放乘積因子為整數(shù),減少了乘積因子的數(shù)據(jù)位數(shù)。[4]量化的目的是減小信號(hào)的值域,以更少的比特來(lái)表示信號(hào),從而達(dá)到減少數(shù)據(jù)量的目的。H.264中量化的步長(zhǎng)總共有52種,其按照12.5%遞增,并且變換系數(shù)的讀取有雙掃描和之字形兩種方式。
3.4 熵編碼 熵編碼是對(duì)數(shù)據(jù)的冗余信息進(jìn)行壓縮的方法,變長(zhǎng)編碼和Huffman編碼相結(jié)合進(jìn)行,以較短的字長(zhǎng)表示出現(xiàn)概率較大的數(shù)據(jù),較長(zhǎng)的字長(zhǎng)表示出現(xiàn)概率較小的數(shù)據(jù)來(lái)達(dá)到降低數(shù)據(jù)量的目的。
CAVLC是一種變長(zhǎng)編碼。先對(duì)變換系數(shù)進(jìn)行zig-zag掃描。用行程碼(L,V)表示掃描以后的數(shù)據(jù),V代表數(shù)值,L代表該數(shù)出現(xiàn)的次數(shù)。因?yàn)橐曨l塊在整形變換和量化后,大部分變換系數(shù)成為0,只有很少的數(shù)據(jù)在低頻部分,用行程數(shù)L代表連續(xù)出現(xiàn)的0的個(gè)數(shù),V代表0串后挨著的非零值,接著對(duì)L和V分別采用Huffman編碼進(jìn)一步壓縮,有不同的碼表可以查詢亮度塊和色度塊。行程編碼大大降低了編碼的碼字字長(zhǎng)。CABAC是一種二進(jìn)制算術(shù)編碼,其通過構(gòu)建模型來(lái)預(yù)測(cè)當(dāng)前的視頻信號(hào)。相對(duì)于CAVLC編碼,CABAC的編碼效率更高,更節(jié)省碼率。[4]
3.5 碼率控制 H.264視頻編碼標(biāo)準(zhǔn)雖然對(duì)于編碼器的結(jié)構(gòu)實(shí)現(xiàn)模式?jīng)]有具體的規(guī)定,但編碼器實(shí)現(xiàn)的核心問題要解決編碼器的結(jié)構(gòu)、相應(yīng)的視頻編碼如何控制。H.264編碼器采用基于拉各朗日Lagrangian優(yōu)化算法的率失真優(yōu)化模型實(shí)現(xiàn)視頻編碼的控制,其實(shí)現(xiàn)方法簡(jiǎn)單而且效率高。[5]
H.264編碼標(biāo)準(zhǔn)由于以上關(guān)鍵技術(shù)的支持,獲得了較高性能編碼,但編碼器復(fù)雜度增加,約為MPEG2的4倍,MPEG4的2倍。其高復(fù)雜度原因有兩個(gè)方面,一是編碼選項(xiàng)復(fù)雜,二是計(jì)算量高。具體內(nèi)容有宏塊的劃分及搜索模式的組合的選取、高精度亞像素運(yùn)動(dòng)補(bǔ)償和多參考頓預(yù)測(cè),H.264更細(xì)化,更精確的數(shù)據(jù)壓縮導(dǎo)致了計(jì)算量高。[6]
4 應(yīng)用前景
H.264作為一種具有高效壓縮性能的視頻壓縮編碼技術(shù),其在制定的過程中就充分參考和吸收了H系列和MPEG系列的優(yōu)秀研究成果,修改或重新制定了其中不合理的部分,使其有很好的壓縮性能。H.264能夠比H.263和MPEG-4大約省去50%的碼率。[7]H.264的高效的視頻壓縮能力和優(yōu)異的網(wǎng)絡(luò)適應(yīng)性,為視頻數(shù)據(jù)傳輸?shù)目煽啃蕴峁┝吮U?,其可廣泛應(yīng)用于數(shù)字?jǐn)z像、英特網(wǎng)、數(shù)字視頻錄像、DVD及電視廣播等領(lǐng)域的圖像壓縮。
5 結(jié)束語(yǔ)
網(wǎng)絡(luò)視頻監(jiān)控系統(tǒng)要達(dá)到良好的監(jiān)控效果,僅提高攝像頭的分辨率是不行的,只有通過改善數(shù)字視頻的壓縮技術(shù),降低視頻傳輸?shù)恼`碼率,提高視頻的質(zhì)量,才能推動(dòng)網(wǎng)絡(luò)視頻走向智能化。[1]H.264標(biāo)準(zhǔn)的推出是視頻編碼標(biāo)準(zhǔn)的一次重要的進(jìn)步,盡管其算法復(fù)雜,但是能夠大幅度提高編碼效率,使得應(yīng)用范圍更加的廣泛。
參考文獻(xiàn):
[1]李紅京.基于H.264視頻壓縮技術(shù)的網(wǎng)絡(luò)視頻傳輸系統(tǒng)設(shè)計(jì)[J].河北工業(yè)科技,2011,28(4):236-239.
[2]齊淋淋,向健勇,唐巍.H.264視頻壓縮關(guān)鍵技術(shù)及其應(yīng)用前景[J].電子科技,2005(10)13-16.
[3]黨曉軍,尹俊文.基于H264的嵌入式視頻監(jiān)控系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與應(yīng)用進(jìn)展,2008:407-412.
[4]劉繼紅,孫海龍,屈鵬.TD-MBMS中H.264視頻壓縮的實(shí)現(xiàn)過程[J].信息通信,2008,4:14-16.
[5]牛建民.H.264視頻壓縮算法應(yīng)用研究[M].同濟(jì)大學(xué)工程碩士學(xué)位論文,2007,5.
[6]蔣文倩.基于H.264視頻采集與無(wú)線傳輸系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[M].武漢理工大學(xué)碩士學(xué)位論文,2013,3.
關(guān)鍵詞:H.264,運(yùn)動(dòng)估計(jì),整像素預(yù)測(cè)
1、引言
H.264是一種高性能的視頻編解碼技術(shù), 它是ITU-T的VCEG(視頻編碼專家組)和ISO/IEC的MPEG(活動(dòng)圖像編碼專家組)的聯(lián)合視頻組(JVT:joint video team)開發(fā)的一個(gè)新的數(shù)字視頻編碼標(biāo)準(zhǔn),它既是ITU-T的H.264,又是ISO/IEC的MPEG-4的第10 部分。論文寫作,整像素預(yù)測(cè)。
作為新一代的視頻編碼標(biāo)準(zhǔn),它具有很高的數(shù)據(jù)壓縮比率和優(yōu)異的性能,廣泛應(yīng)用于視頻會(huì)議、視頻點(diǎn)播、高清視頻、移動(dòng)播放器等多個(gè)領(lǐng)域。
H.264最大的優(yōu)勢(shì)是具有很高的數(shù)據(jù)壓縮比率,在同等圖像質(zhì)量的條件下,H.264的壓縮比是MPEG-2的2倍以上,是MPEG-4的1.5~2倍。論文寫作,整像素預(yù)測(cè)。和MPEG-2和MPEG-4ASP等壓縮技術(shù)相比,H.264壓縮技術(shù)將大大節(jié)省用戶的下載時(shí)間和數(shù)據(jù)流量收費(fèi)。論文寫作,整像素預(yù)測(cè)。尤其值得一提的是,H.264在具有高壓縮比的同時(shí)還擁有高質(zhì)量流暢的圖像。
在H.264的編碼芯片結(jié)構(gòu)中,相比幀內(nèi),幀間(Inter Prediction)編碼的效率高,但是運(yùn)算復(fù)雜度也比較高。幀間編碼的核心運(yùn)算部分是“ME”(motion estimation)即運(yùn)動(dòng)估計(jì),占用最多的邏輯與時(shí)鐘資源。幀間預(yù)測(cè)的運(yùn)動(dòng)估計(jì)過程分為整像素運(yùn)動(dòng)估計(jì)(IME)和分像素運(yùn)動(dòng)估計(jì)(FME),首先找到整像素的最佳MV,然后再進(jìn)行分像素的搜索。除了巨大的計(jì)算復(fù)雜度,編碼過程也很長(zhǎng),包括預(yù)測(cè),重構(gòu)和熵編碼。
2、運(yùn)動(dòng)估計(jì)運(yùn)算
H.264幀間預(yù)測(cè)是利用已編碼視頻幀/場(chǎng)和基于塊的運(yùn)動(dòng)補(bǔ)償?shù)念A(yù)測(cè)模式。由于引入了1/4像素精度、多種分割預(yù)測(cè)等先進(jìn)技術(shù),在獲得更高壓縮率的同時(shí),其算法復(fù)雜度也大大提高,使得幀間預(yù)測(cè)編碼耗時(shí)占到整個(gè)編碼計(jì)算時(shí)間的50%以上,若采用全軟件實(shí)現(xiàn)高清圖像的實(shí)時(shí)編解碼,明顯力不從心,這就要求使用高性能的硬件編解碼器來(lái)完成高清實(shí)時(shí)編解碼任務(wù),這也是本人研究的主要內(nèi)容。
編碼宏塊(16x16象素)可以分割成不同大小的塊像數(shù)據(jù),例如16x16、16x8、8x16、8x8、8x4、4x8、4x4等七種模式。而“ME”的再對(duì)各種宏塊分割方式下的每個(gè)塊象素進(jìn)行預(yù)測(cè)運(yùn)算,然后由后續(xù)模塊統(tǒng)計(jì)和比較出最優(yōu)的分割方式。
運(yùn)動(dòng)估計(jì)包括整像素預(yù)測(cè)(IME)和分像素預(yù)測(cè)(IME)兩部分,這兩部分是串行的。每一個(gè)宏塊,只有在IME 做完之后,找到最佳整像素MV,再進(jìn)行FME。
在進(jìn)行IME計(jì)算時(shí),首先要計(jì)算MVP,對(duì)于一個(gè)塊象素,預(yù)測(cè)運(yùn)算就是在參考幀中搜索出最佳匹配(即兩者差異最小)的同尺寸塊象素作為當(dāng)前塊的參考區(qū)域。如果在整個(gè)參考幀的范圍下進(jìn)行全面的搜索,固然可以得到最為匹配的區(qū)域,但是復(fù)雜度太大。事實(shí)上,相鄰塊在參考幀中的匹配區(qū)域一般位置比較接近。綜合考慮算法復(fù)雜度,編碼效果,資源使用等方面,幀間預(yù)測(cè)做了如下處理:首先根據(jù)周邊塊的Mv值預(yù)測(cè)出當(dāng)前塊的Mv值,即Mvp,然后在Mvp所指參考幀中象素點(diǎn)周邊搜索最佳塊象素。
MVP的搜索過程如圖2所示,假定E為當(dāng)前的宏塊、宏塊分割或者亞宏塊分割,除了16x8和8x16,MVP為A、B、C的MV的中值;對(duì)于16x8分割,上面部分MVP由A預(yù)測(cè),下面部分MVP由B預(yù)測(cè);對(duì)于8x16分割,左面部分MVP由B預(yù)測(cè),右面部分MVP由C預(yù)測(cè)。論文寫作,整像素預(yù)測(cè)。以MVP作為搜索的起點(diǎn)。
圖2 MVP 計(jì)算
IME在進(jìn)行當(dāng)前宏塊MB(x)的MVP計(jì)算的時(shí)候,前面的宏塊MB(x-1)包含分像素的MV還未得到,這個(gè)時(shí)候我們無(wú)法得到準(zhǔn)確的A,所以我們此時(shí)以MB(x-1)的16x16分割搜索時(shí)所得到的整像素MV來(lái)代替A,并把據(jù)此計(jì)算得到的MVP作為搜索的起點(diǎn)。
3、IME模塊及功能
IME模塊的架構(gòu)如下圖所示
圖3 IME模塊架構(gòu)圖
IME的主要功能是:
(1)數(shù)據(jù):把原始和參考YUV從inter_config模塊中取出,為PS和FME模塊準(zhǔn)備預(yù)測(cè)所需數(shù)據(jù);
(2)控制:控制幀間預(yù)測(cè)的過程
IME的模塊劃分及各自功能:
Pipe_ctrl:不同分割間的搜索和選擇 將不同分割方式的順序搜索改為并行,用兩條水線來(lái)實(shí)現(xiàn)加速 Pipe0:進(jìn)行P16x16,P8x16,P4x8 ;Pipe1:進(jìn)行P8x8,P16x8,P8x4,4x4由兩條共同完成(為了減少pipe0的等待時(shí)間,把pipe1的部分工作放到pipe0中)
MVp_ctrl:每種分割的具體搜索過程
(1)計(jì)算MVp值
(2)控制reg_ctrl模塊的數(shù)據(jù)存取
Reg_ctrl:為相連模塊準(zhǔn)備數(shù)據(jù)
(1)為整像素準(zhǔn)備數(shù)據(jù),傳輸給PS模塊;
(2)為分像素搜索準(zhǔn)備數(shù)據(jù),傳輸給FME模塊;
(3)為重構(gòu)準(zhǔn)備數(shù)據(jù),傳輸給FME模塊
4、與IME模塊相關(guān)的主要功能模塊
圖3中與IME工作相關(guān)的有兩個(gè)主要的部分,一個(gè)是Inter_config 模塊,還有一個(gè)是PS模塊,它們?cè)谙到y(tǒng)中起著重要的作用。論文寫作,整像素預(yù)測(cè)。
1. Inter_config模塊及功能描述
Inter_config模塊,即幀間數(shù)據(jù)調(diào)度模塊,其數(shù)據(jù)傳送如圖4所示,Inter_config模塊有兩部分功能:一是為IME服務(wù),把IME所需的數(shù)據(jù)從DDR取到Sram;二是為L(zhǎng)oop Filter服務(wù),把LoopFilter模塊的deblock運(yùn)算所需要的一部分?jǐn)?shù)據(jù)從DDR取到Sram以及將deblock運(yùn)算后的宏塊數(shù)據(jù)存入DDR。
圖4 Inter_config模塊數(shù)據(jù)傳送
Inter_config模塊與IME有關(guān)的工作包括:
1)取原始YUV數(shù)據(jù),Luma部分直接拉給IME_Reg_o,Chroma部分存入Sram0。
2)為IME準(zhǔn)備計(jì)算所需的9個(gè)宏塊的Luma數(shù)據(jù),并存入Sram0和Sram1。
3)將這9個(gè)宏塊的Chroma數(shù)據(jù)準(zhǔn)備到Sram1中,用于Chroma資料拼接之用。
4)接收到IME_ChromaStart_i信號(hào)有效后,開始FME運(yùn)算所需Chroma數(shù)據(jù)的相關(guān)準(zhǔn)備工作。包括:①?gòu)腟ram0中取Chroma的原始YUV送給IME;②從Sram0中取Chroma3x3Mb數(shù)據(jù)并進(jìn)行拼接(將每個(gè)block對(duì)應(yīng)的2x2像素,向右向下擴(kuò)展,變成3x3像素)后送給IME。論文寫作,整像素預(yù)測(cè)。
5)把最后一行的5個(gè)mv(當(dāng)前Mb最后一行的block的4個(gè)mv及右側(cè)相鄰的1個(gè)mv)存入Sram0,作為下一宏塊行進(jìn)行Mvp預(yù)測(cè)所需數(shù)據(jù)。
2. PS模塊功能描述
PS模塊,即預(yù)測(cè)選擇模塊,本模塊主要用于選擇當(dāng)前編碼宏塊的最佳預(yù)測(cè)方式,幀內(nèi)預(yù)測(cè)還是幀間預(yù)測(cè);若是幀間預(yù)測(cè)還需給出宏塊的最佳分割以及分割的最佳MV,除此之外,還需求殘差值,用于后面的重建。其主要功能如下:
1)接收IME模塊的整像素亮度值,以進(jìn)行整像素搜索,找出最佳的整像素MV;
2)將兩套流水線所得出的cost進(jìn)行比較,選出最佳partition;
3)接收inter_ctrl模塊中IME模塊的亞像素亮度值,以進(jìn)行亞像素搜索,找出最佳的亞像素MV以及cost,并與最佳的整像素MV的cost相比較,選擇最佳的MV;
4)將選出的最佳的cost與intra_ctrl中的最佳的cost,比較得出最佳的預(yù)測(cè)方式,幀間還是幀內(nèi);
5)若選出的是幀內(nèi),則結(jié)束當(dāng)前宏塊的幀間操作,準(zhǔn)備下一個(gè)宏塊的幀間操作;若選出的是幀間,則接收IME或FME的亮度和色度值,進(jìn)行求殘差操作,送給DCT以備后面重建。
5、總結(jié)及展望
本文對(duì)幀間編碼中IME運(yùn)算所需數(shù)據(jù)進(jìn)行探討和分析,并提出一套架構(gòu)設(shè)計(jì)方案,時(shí)序和資源使用都比較優(yōu)化。設(shè)計(jì)方案在空間上具有較高的并行度,處理能力高,非常適合實(shí)現(xiàn)高清視頻編碼。目前市場(chǎng)上對(duì)于H.264的研究開發(fā)一般都是基于PC或者DSP解決,很少有基于硬件實(shí)現(xiàn)的開發(fā),功能上還不足以實(shí)現(xiàn)高清實(shí)時(shí)信號(hào)的編碼和解碼。本設(shè)計(jì)能夠?qū)崿F(xiàn)幀間預(yù)測(cè)的關(guān)鍵部分,在后續(xù)的研究中如果能使用H.264標(biāo)準(zhǔn)在幀間預(yù)測(cè)所帶來(lái)的高壓縮率,如果能將其帶來(lái)的復(fù)雜度的增加限制在可容忍的范圍內(nèi),支持幀間預(yù)測(cè)的高清實(shí)時(shí)視頻編解碼的芯片實(shí)現(xiàn)是非常有意義的,應(yīng)用前景很廣闊。
參考文獻(xiàn)
[1]新一代視頻壓縮編碼標(biāo)準(zhǔn)——H.264/AVC 畢厚杰 人民郵電出版社
[2]Iain E.G.Richardson.H.264 and MPEG-4 Video Compression: VideoCoding for Next Generation Multimedia. U.S: Wiley Press, 2003.
[3]Tung-Chien Chen, Chung-JrLian, and Liang-Gee Chen. Hardware Architecture Design of an H.264/AVC VideoCodec. Asia and South Pacific Conference on. Design Automation, 2006.
[4]Renxiang Li, Bing Zeng, and Ming L. Liou. A new three-stepsearch algorithm for block motion estimation. IEEE Trans.Circuits Syst.Video Technol., vol. 4, No. 4,Aug 1994
《職業(yè)時(shí)空》,主管部門:河北省教育廳,主辦單位:河北職業(yè)技術(shù)學(xué)院,國(guó)內(nèi)統(tǒng)一刊號(hào):CN13-1349/C,國(guó)際標(biāo)準(zhǔn)刊號(hào):ISSN1672-8963,郵發(fā)代號(hào)18-347,半月刊,正刊。創(chuàng)刊于1995.ASPT來(lái)源刊中國(guó)期刊網(wǎng)來(lái)源刊,該刊是04年度北大中文核心期刊,《中國(guó)知網(wǎng)》、《中國(guó)學(xué)術(shù)期刊(光盤版)》全文收錄期刊,中國(guó)學(xué)術(shù)期刊綜合評(píng)價(jià)數(shù)據(jù)庫(kù)來(lái)源期刊
主要欄目:現(xiàn)代職業(yè)新理念、職場(chǎng)宏觀管理、職業(yè)政策研究、職業(yè)心理研究、職業(yè)教育研究、法制建設(shè)、主題論壇、高管論壇、爭(zhēng)鳴、觀點(diǎn)輯要、國(guó)外研究與借鑒、調(diào)查與探索等
1.來(lái)稿要求論點(diǎn)明確、數(shù)據(jù)可靠、邏輯嚴(yán)密、文字精煉,每篇論文必須包括題目、作者姓名、作者單位、單位所在地及郵政編碼、摘要和關(guān)鍵詞、正文、參考文獻(xiàn)和第一作者及通訊作者簡(jiǎn)介(包括姓名、性別、職稱、出生年月、所獲學(xué)位、目前主要從事的工作和研究方向),并請(qǐng)?jiān)谖母宓氖醉?yè)地腳處注明論文屬何項(xiàng)目、何基金(編號(hào))資助,沒有的不注明。
2.論文摘要盡量寫成報(bào)道性文摘,包括目的、方法、結(jié)果、結(jié)論4方面內(nèi)容(100字左右),應(yīng)具有獨(dú)立性與自含性,關(guān)鍵詞選擇貼近文義的規(guī)范性單詞或組合詞(3~5個(gè))。
3.文稿篇幅(含圖表)一般不超過4000字,一個(gè)版面2400字內(nèi)。文中量和單位的使用請(qǐng)參照中華人民共和國(guó)法定計(jì)量單位最新標(biāo)準(zhǔn)。外文字符必須分清大、小寫,正、斜體,黑、白體,上下角標(biāo)應(yīng)區(qū)別明顯.
4.文中的圖、表應(yīng)有自明性。圖片不超過2幅,圖像要清晰,層次要分明。
5.參考文獻(xiàn)的著錄格式采用順序編碼制,請(qǐng)按文中出現(xiàn)的先后順序編號(hào)。所引文獻(xiàn)必須是作者直接閱讀參考過的、最主要的、公開出版的文獻(xiàn)。未公開發(fā)表的、且很有必要引用的,請(qǐng)采用腳注方式標(biāo)明,參考文獻(xiàn)不少于3條。
來(lái)稿特別約定
1來(lái)稿勿一稿多投,收到稿件之后,7個(gè)工作日內(nèi)共同審稿,電子郵件回復(fù)作者。重點(diǎn)稿件將送同行專家審閱。如果10日內(nèi)沒有收到擬用稿通知(特別需要者可寄送紙質(zhì)錄用通知),則請(qǐng)與我們聯(lián)系確認(rèn)。
2.來(lái)稿文責(zé)自負(fù)。所有作者應(yīng)對(duì)稿件內(nèi)容和署名無(wú)異議,稿件內(nèi)容不得抄襲或重復(fù)發(fā)表。對(duì)來(lái)稿有權(quán)作技術(shù)性和文字性修改,作者需要安排版面數(shù),出刊日期,是否加急等情況,請(qǐng)?jiān)卩]件投稿時(shí)作特別說明
3.請(qǐng)作者自留備份稿,不退稿。
4.論文一經(jīng)發(fā)表,贈(zèng)送當(dāng)期樣刊1冊(cè)。
關(guān)鍵詞:Ad Hoc網(wǎng)絡(luò);智能手機(jī);語(yǔ)音通信系統(tǒng)
中圖分類號(hào):TP393文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012)01-0081-03
Design of a Smart Phone Voice Communication System Based on Ad Hoc Networks
LIN Qiu-peng
(College of Computer Science and Technology, Shandong Jianzhu University, Jinan 250101, China)
Abstract: Mobile flexibility of ad hoc network lead to a broad prospect of application,currently,smart phones develop rapidly and support wifi,which formed ad hoc networks will convenient and affordable. This paper analyzes the problems and key technology in the ad hoc networks famed by smart phones ,and build a ad hoc network architecture by the voice communication features in the smart phones.And I pro? posed a design of smart mobile voice communication system based on the system architecture and the characteristics of smart phones.
Key words: Ad Hoc Network; Smart Phone; Voice Communication System
Ad hoc網(wǎng)絡(luò)是一種分布式的無(wú)線移動(dòng)網(wǎng)絡(luò),它不依賴固定的基礎(chǔ)通信設(shè)施,沒有中心節(jié)點(diǎn),具有自組織能力,抗毀性強(qiáng),網(wǎng)絡(luò)中的各節(jié)點(diǎn)地位平等,且具有轉(zhuǎn)發(fā)報(bào)文的功能。一般適用于軍事通信、搶險(xiǎn)救災(zāi)、應(yīng)對(duì)突發(fā)事件等無(wú)法得到有線網(wǎng)絡(luò)支持或者臨時(shí)需要通信的環(huán)境。
隨著wlan技術(shù)及手機(jī)應(yīng)用的迅速發(fā)展,越來(lái)越多的智能手機(jī)加入了WI-FI功能,諸如主流的iOS、Android、Windows Mobile、Sym? bian等手機(jī)操作系統(tǒng)都支持無(wú)線網(wǎng)絡(luò)的接入,為手機(jī)終端組建ad hoc網(wǎng)絡(luò)提供了支持。在應(yīng)對(duì)自然災(zāi)害等緊急場(chǎng)合中,固定網(wǎng)絡(luò)往往受損,導(dǎo)致人們之間無(wú)法通信,此時(shí)利用手機(jī)組建Ad Hoc網(wǎng)絡(luò)進(jìn)行通信就變的必要可行。同時(shí),隨著手機(jī)的應(yīng)用發(fā)展,人們希望降低手機(jī)的各項(xiàng)費(fèi)用,尤其對(duì)于學(xué)生這樣的低消費(fèi)人群,在小范圍內(nèi)如果可以組建Ad Hoc網(wǎng)絡(luò)通信,便可以節(jié)省通信費(fèi)用,因此,提出一種基于Ad Hoc網(wǎng)絡(luò)的智能手機(jī)語(yǔ)音通信系統(tǒng)方案,以實(shí)現(xiàn)智能手機(jī)終端間無(wú)需借助運(yùn)營(yíng)商網(wǎng)絡(luò)支持的自組織語(yǔ)音通信。
1國(guó)內(nèi)外發(fā)展現(xiàn)狀
國(guó)內(nèi)外對(duì)無(wú)線Ad Hoc網(wǎng)絡(luò)已經(jīng)有了比較廣泛的研究并取得了大量的成果,但已有研究絕大多數(shù)針對(duì)介質(zhì)訪問控制(MAC)[18]、路由系統(tǒng)[17]、拓?fù)涔芾?、功率控制、服?wù)質(zhì)量控制[9][12][16]、安全[11]等領(lǐng)域來(lái)開展,且通常以無(wú)線Ad Hoc網(wǎng)絡(luò)作為一種網(wǎng)絡(luò)基礎(chǔ)設(shè)施支持多樣性應(yīng)用為研究背景,研究的理論成分較重。
從公開發(fā)表的文獻(xiàn)看,利用智能手機(jī)內(nèi)置的IEEE802.11構(gòu)建Ad Hoc網(wǎng)絡(luò)并實(shí)現(xiàn)節(jié)點(diǎn)之間語(yǔ)音數(shù)據(jù)傳輸?shù)某晒欢?。P.B. Vel? loso等人利用仿真實(shí)驗(yàn)研究了移動(dòng)性和QoS提供等對(duì)Ad Hoc網(wǎng)絡(luò)語(yǔ)音通信容量問題進(jìn)行了研究[1];HuiYao Zahng等人研究了不同路由協(xié)議對(duì)語(yǔ)音應(yīng)用系統(tǒng)性能的影響[2];C.H.Saleem等人研究了利用Ad Hoc組建對(duì)等網(wǎng)絡(luò)支持緊急情況下指揮控制系統(tǒng)的語(yǔ)音通信問題[4]; Feng GAO等人構(gòu)建了Symbian平臺(tái)下基于藍(lán)牙無(wú)線Ad Hoc網(wǎng)絡(luò)語(yǔ)音通信的中間件系統(tǒng)[3]。清華大學(xué)的陳萍萍在“手機(jī)終端的自組織通信協(xié)議的實(shí)現(xiàn)”[5]一文中基于Symbian智能手機(jī)終端實(shí)現(xiàn)了一種基于藍(lán)牙和WiFi的Ad Hoc網(wǎng)絡(luò)語(yǔ)音通信系統(tǒng),但其測(cè)試網(wǎng)絡(luò)規(guī)模過小。同時(shí)董梅也在Symbian平臺(tái)下實(shí)現(xiàn)了流媒體即時(shí)通信系統(tǒng)[7],但同樣存在質(zhì)量保證跟網(wǎng)絡(luò)規(guī)模問題,鑒于小規(guī)模網(wǎng)絡(luò)和大規(guī)模網(wǎng)絡(luò)的問題迥異程度較高,其實(shí)現(xiàn)方法在較大規(guī)模網(wǎng)絡(luò)中的可行性和性能需要進(jìn)一步研究;李振宇等在“一種移動(dòng)Ad Hoc網(wǎng)絡(luò)中實(shí)時(shí)語(yǔ)音通信方法的研究”[6]一文中從網(wǎng)絡(luò)層面和應(yīng)用層面兩個(gè)方面討論了機(jī)遇As Hoc網(wǎng)絡(luò)的語(yǔ)音通信方法,包括QoS控制機(jī)制等,但相關(guān)討論建立在仿真實(shí)驗(yàn)基礎(chǔ)上,并沒有構(gòu)建實(shí)驗(yàn)驗(yàn)證網(wǎng)絡(luò)。
可以看出,盡管對(duì)Ad Hoc網(wǎng)絡(luò)和VoIP[10][13]技術(shù)的研究已經(jīng)取得了大量成果,但公開發(fā)表文獻(xiàn)未見關(guān)于“基于無(wú)線Ad Hoc網(wǎng)絡(luò)的智能手機(jī)終端語(yǔ)音通信系統(tǒng)”可以實(shí)用的成果發(fā)表。
2關(guān)鍵技術(shù)
由于Ad Hoc網(wǎng)絡(luò)獨(dú)有的無(wú)中心,自組織,多跳路由,動(dòng)態(tài)拓?fù)洌厥獾臒o(wú)線信道特征,安全性差等特點(diǎn),所以需要考慮路由協(xié)議、服務(wù)質(zhì)量保證、語(yǔ)音編碼技術(shù)、安全性等多個(gè)方面的問題,其中主要對(duì)路由協(xié)議與服務(wù)質(zhì)量、語(yǔ)音編碼技術(shù)進(jìn)行重點(diǎn)研究。2.1 VOIP技術(shù)
VOIP技術(shù)是將語(yǔ)音電話建立在IP技術(shù)上的語(yǔ)音傳輸技術(shù),其基本原理是將普通電話的模擬信號(hào)轉(zhuǎn)換為數(shù)字語(yǔ)音信號(hào),通過語(yǔ)音壓縮算法將語(yǔ)音數(shù)據(jù)進(jìn)行壓縮編碼處理,然后把這些語(yǔ)音數(shù)據(jù)按相關(guān)協(xié)議進(jìn)行打包封裝處理,通過IP網(wǎng)絡(luò)把數(shù)據(jù)包傳輸?shù)侥康牡亟邮斩耍侔堰@些語(yǔ)音數(shù)據(jù)包重新裝配,經(jīng)過解碼解壓縮處理后,恢復(fù)成原來(lái)的模擬語(yǔ)音信號(hào),從而達(dá)到利用IP網(wǎng)絡(luò)進(jìn)行語(yǔ)音通信的目的。我們可以利用此技術(shù)在ad hoc網(wǎng)絡(luò)上實(shí)現(xiàn)手機(jī)的語(yǔ)音通信,通信模型如圖1。
2.2語(yǔ)音編碼方案
通過網(wǎng)絡(luò)傳輸實(shí)時(shí)語(yǔ)音與傳輸普通數(shù)據(jù)不同,應(yīng)用網(wǎng)絡(luò)的組成必須符合這種實(shí)時(shí)傳輸?shù)男枰?。語(yǔ)音的分組傳送通常要求網(wǎng)絡(luò)提供充足的帶寬。但是Ad Hoc網(wǎng)絡(luò)帶寬資源有限,在這種情況下,我們可以通過編碼壓縮技術(shù)來(lái)減少對(duì)帶寬的使用
目前,語(yǔ)音編碼方案較多,主要包括G.711(64kbps)、G.723(5.3kbps~6.3kbps)、G.728(16kbps/8kbps)、G.729(8kbps)、MP3(128-112kb? ps)等,不同編碼方案的編碼碼率不同。目前智能手機(jī)中應(yīng)用的802.11b/g協(xié)議的標(biāo)準(zhǔn)數(shù)據(jù)速率分別是11/54Mbps,而實(shí)際應(yīng)用中可能遠(yuǎn)達(dá)不到此標(biāo)準(zhǔn)。手機(jī)中GSM語(yǔ)音通話是采用G.711編碼,由于無(wú)線Ad Hoc網(wǎng)絡(luò)的鏈路容量較低,加之由于移動(dòng)性導(dǎo)致的傳輸路徑的變化,采用固定的編碼方案和編碼速率可能無(wú)法較好的在語(yǔ)音質(zhì)量和應(yīng)用系統(tǒng)性能之間進(jìn)行折中,所以可以采用G.729與G.711相結(jié)合的動(dòng)態(tài)語(yǔ)音編碼方案。在鏈路狀況好的情況下優(yōu)先考慮語(yǔ)音質(zhì)量,采用G.711編碼,當(dāng)網(wǎng)絡(luò)中發(fā)生擁堵斷路等影響傳輸速率的時(shí)候,選用低速率的G.729編碼方案。
2.3 QoS路由協(xié)議
在Ad Hoc網(wǎng)絡(luò)中,隨著節(jié)點(diǎn)移動(dòng),網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)在不斷變化。如何快速準(zhǔn)確地選擇到達(dá)目的節(jié)點(diǎn)的路由是一個(gè)重要和核心的問題,路由協(xié)議分類如圖2。
語(yǔ)音通信系統(tǒng)對(duì)傳輸性能要求較高,延遲抖動(dòng)要小、丟包率要低,在Ad Hoc語(yǔ)音通信系統(tǒng)中,Ad Hoc網(wǎng)絡(luò)中的節(jié)點(diǎn)在不斷移動(dòng),這樣就會(huì)引起網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的動(dòng)態(tài)變化,從而出現(xiàn)路由中斷,節(jié)點(diǎn)或鏈路擁塞,傳輸鏈路故障等問題,同時(shí)手機(jī)作為網(wǎng)絡(luò)節(jié)點(diǎn)能量有限,所以基于QoS/基于能量考慮的路由協(xié)議更適合于該系統(tǒng)。
QoS路由協(xié)議是一種基于數(shù)據(jù)流QoS請(qǐng)求和網(wǎng)絡(luò)可用資源進(jìn)行路由的機(jī)制。一般QoS路由協(xié)議有兩個(gè)目標(biāo):一個(gè)是找到滿足QOS要求的路徑;另一個(gè)是充分利用全局網(wǎng)絡(luò)資對(duì)現(xiàn)有路由協(xié)議的分析。結(jié)合Ad Hoc網(wǎng)絡(luò)的特殊性,通過兩個(gè)節(jié)點(diǎn)之間可能存在的多條路徑傳輸語(yǔ)音數(shù)據(jù)能夠更好地滿足需求。針對(duì)目前Ad Hoc路由協(xié)議的研究現(xiàn)狀,按需多路徑距離矢量(AOMDV)路由協(xié)議更適用于本系統(tǒng),如何找多多條路徑、如何維護(hù)多條路徑、如何實(shí)現(xiàn)多條路徑的負(fù)載平衡等問題是關(guān)鍵。
3 Ad Hoc網(wǎng)絡(luò)體系結(jié)構(gòu)
根據(jù)Ad Hoc網(wǎng)絡(luò)中手機(jī)通信的特性,構(gòu)建語(yǔ)音通信系統(tǒng)的Ad Hoc網(wǎng)絡(luò)體系結(jié)構(gòu)。將整個(gè)網(wǎng)絡(luò)分成五層。針對(duì)各層的功能,將所用協(xié)議進(jìn)行分層劃分,詳細(xì)結(jié)構(gòu)如圖3。
應(yīng)用層根據(jù)voip協(xié)議原理采用自適應(yīng)編碼方案,根據(jù)網(wǎng)絡(luò)負(fù)載情況,當(dāng)網(wǎng)絡(luò)負(fù)載輕時(shí)選用語(yǔ)音通信質(zhì)量好的G.711編碼方案,當(dāng)網(wǎng)絡(luò)出現(xiàn)擁塞等情況導(dǎo)致網(wǎng)絡(luò)傳輸下降時(shí)選用G.729編碼方案。
傳輸層根據(jù)voip原理將包進(jìn)行封裝,為了更好的實(shí)現(xiàn)語(yǔ)音通信的實(shí)時(shí)傳輸,需要加入實(shí)時(shí)控制協(xié)議RTP頭,將數(shù)據(jù)進(jìn)行RTP封裝后加入U(xiǎn)DP頭等信息進(jìn)行UDP封裝,然后交由ad hoc網(wǎng)絡(luò)進(jìn)行傳輸。網(wǎng)絡(luò)層根據(jù)ad hoc網(wǎng)絡(luò)特性采用AOMDV協(xié)議進(jìn)行路由選 路。鏈路層MAC協(xié)議采用DCF可以避免隱藏終端與暴露終端的問題。目前主流手機(jī)采用的無(wú)線協(xié)議多是802.11b/g兩種協(xié)議。
4系統(tǒng)概要設(shè)計(jì)
因?yàn)锳d Hoc網(wǎng)絡(luò)中的每一個(gè)節(jié)點(diǎn)都是獨(dú)立平等的,所以系統(tǒng)每一個(gè)模塊都應(yīng)包含客戶端和服務(wù)器端兩部分的功能。根據(jù)語(yǔ)音通信過程將系統(tǒng)分為以下四個(gè)模塊,具體如下圖4。
4.1語(yǔ)音處理模塊
手機(jī)作為客戶端,利用麥克風(fēng)對(duì)語(yǔ)音信號(hào)進(jìn)行采集,并對(duì)采集的信號(hào)進(jìn)行數(shù)字化,用合適的編碼方式對(duì)數(shù)據(jù)進(jìn)行壓縮;作為服務(wù)器端,對(duì)接收到的數(shù)據(jù)進(jìn)行解壓,將解壓后的語(yǔ)音信號(hào)在手機(jī)上通過話筒播放。
4.2實(shí)時(shí)控制模塊
源節(jié)點(diǎn)將語(yǔ)音模塊處理的數(shù)據(jù)進(jìn)行封裝處理(RTP封裝、IP封裝),將數(shù)據(jù)通過合適的端口發(fā)送到網(wǎng)絡(luò)中;中間節(jié)點(diǎn)對(duì)接收到的數(shù)據(jù)包進(jìn)行轉(zhuǎn)發(fā);目的節(jié)點(diǎn)將接收到的數(shù)據(jù)包按照正確的順序排列,去掉報(bào)頭等交給語(yǔ)音模塊進(jìn)行處理。
4.3路由模塊
客戶端(源節(jié)點(diǎn))發(fā)起路由的查詢與建立,并對(duì)路由信息進(jìn)行維護(hù);服務(wù)器端(中間節(jié)點(diǎn)、目的節(jié)點(diǎn))對(duì)源節(jié)點(diǎn)進(jìn)行響應(yīng),建立源節(jié)點(diǎn)到目的節(jié)點(diǎn)之間的數(shù)據(jù)通信線路,實(shí)現(xiàn)語(yǔ)音數(shù)據(jù)的雙向通信,根據(jù)網(wǎng)絡(luò)變化狀況對(duì)路由進(jìn)行控制維護(hù)。
4.4無(wú)線傳輸模塊
對(duì)系統(tǒng)的wifi進(jìn)行配置管理,獲得接入Ad Hoc覆蓋范圍內(nèi)手機(jī)終端的信息(SSID、MAC、IP等),網(wǎng)絡(luò)周期性的更新與維護(hù),根據(jù)路由模塊選擇的路徑發(fā)送數(shù)據(jù)包。
5結(jié)束語(yǔ)
本文根據(jù)目前智能手機(jī)的發(fā)展情況,結(jié)合ad hoc網(wǎng)絡(luò)的特性,提出一個(gè)基于ad hoc網(wǎng)絡(luò)的智能手機(jī)語(yǔ)音通信系統(tǒng)的設(shè)計(jì)方案,該方案只是一個(gè)概要設(shè)計(jì),對(duì)于路由協(xié)議、編碼方案、信令協(xié)議等問題可以進(jìn)一步研究改進(jìn)。
參考文獻(xiàn):
[1] Pedro Braconnot Velloso,Marcel0 G. Rubinstein,Otto Carlos M. B. Duarte. Analyzing voice transmission capacity on ad hoc networks. Pro? ceedings of ICCT,2003,1254-1257.
[2] HuiYao Zhang, Marek Bialkowski, Garry Einicke, John Homer. An Extended AODV Protocol for VoIP Application in Mobile Ad Hoc Net? work. 2007 International Symposium on Communications and Information Technologies ,2007,836- 841
[3] Gao Feng, Weiwei Wang, Jun Cai.Reliable Busy Tone Multiple Access Protocol for Safety Applications in Vehicular Ad Hoc Networks. IEEE Communications Society subject matter experts for publication in the IEEE ICC 2010 proceedings.
[4] Choudhry Humayun Saleem, Khadim Hussain . Using Peer to Peer Voice Over Wireless Ad Hoc Networks as an Emergency Command and Control System. Technical report, IDE0903, February 2009.
[5]陳萍萍.手機(jī)終端的自組織通信協(xié)議的實(shí)現(xiàn),[D].清華大學(xué)綜合論文,2008,6.
[6]李振宇,李思敏.一種移動(dòng)Ad Hoc網(wǎng)絡(luò)中實(shí)時(shí)語(yǔ)音通信方案的研究[J].電子測(cè)量與儀器學(xué)報(bào),2009,23(5):40-45.
[7]董梅,Symbian平臺(tái)下基于移動(dòng)Ad Hoc網(wǎng)絡(luò)的流媒體實(shí)時(shí)共享系統(tǒng)[D].北京郵電大學(xué)碩士論文,2009,2.
[8]張楠.基于Ad Hoc網(wǎng)絡(luò)技術(shù)的無(wú)線通信網(wǎng)絡(luò)平臺(tái)研究[J].科學(xué)技術(shù)與工程,2007,7(20):5043-5048.
[9]馮欣,尹方超,賀麗柏,韓永林.Ad Hoc網(wǎng)中經(jīng)典路由協(xié)議QoS性能研究[J].長(zhǎng)春理工大學(xué)學(xué)報(bào),2010,33(4):131-133.
[10]顧瑋奇,Ad Hoc網(wǎng)絡(luò)中VOIP應(yīng)用的研究][D].南京郵電大學(xué)碩士論文,2009,6.
[11]余旺科,馬文平,嚴(yán)亞俊,陳和風(fēng).AdHoc網(wǎng)絡(luò)單向安全路由協(xié)議[Jl.吉林大學(xué)學(xué)報(bào)(工學(xué)版),2011,41(1):193-197.
[12]殷脂,葉春明,溫蜜.移動(dòng)Ad Hoc網(wǎng)絡(luò)QoS路由的閉環(huán)DNA計(jì)算模型[J].上海理工大學(xué)學(xué)報(bào),2010,32(6):593-601.
[13]孫毅,方更法,石晶林.移動(dòng)自組織網(wǎng)絡(luò)上VoIP的實(shí)現(xiàn)方法研究[J].計(jì)算機(jī)工程,2005,31(18):99-101.
[14]李曉濤.基于Ad-hoc網(wǎng)絡(luò)的短距離語(yǔ)音通話系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn),中國(guó)科學(xué)論文在線,[DB/Ol].ttp://paper.省略
[15]蔣維華.多跳Ad Hoc網(wǎng)絡(luò)中實(shí)現(xiàn)語(yǔ)音通信的技術(shù)研究[D].北京科技大學(xué)碩士論文,2009,5.
[16]錢琛.Ad Hoc網(wǎng)絡(luò)語(yǔ)音通信Qos研究及模擬分析[D].南京郵電學(xué)碩士論文,2008,4.
主要欄目
綜述與評(píng)論、綜合自動(dòng)化系統(tǒng)、過程控制及應(yīng)用、智能控制技術(shù)及應(yīng)用、優(yōu)化控制技術(shù)及應(yīng)用、企業(yè)資源計(jì)劃系統(tǒng)、制造執(zhí)行系統(tǒng)、計(jì)算機(jī)控制系統(tǒng)及軟件
投稿須知
1、來(lái)稿要求論點(diǎn)明確、數(shù)據(jù)可靠、邏輯嚴(yán)密、文字精煉,每篇論文必須包括題目、作者姓名、作者單位、單位所在地及郵政編碼、摘要和關(guān)鍵詞、正文、參考文獻(xiàn)和第一作者及通訊作者(一般為導(dǎo)師)簡(jiǎn)介(包括姓名、性別、職稱、出生年月、所獲學(xué)位、目前主要從事的工作和研究方向),在文稿的首頁(yè)地腳處注明論文屬何項(xiàng)目、何基金(編號(hào))資助,沒有的不注明。
2、論文摘要盡量寫成報(bào)道性文摘,包括目的、方法、結(jié)果、結(jié)論4方面內(nèi)容(100字左右),應(yīng)具有獨(dú)立性與自含性,關(guān)鍵詞選擇貼近文義的規(guī)范性單詞或組合詞(3~5個(gè))。
3、文稿篇幅(含圖表)一般不超過5000字,一個(gè)版面2500字內(nèi)。文中量和單位的使用請(qǐng)參照中華人民共和國(guó)法定計(jì)量單位最新標(biāo)準(zhǔn)。外文字符必須分清大、小寫,正、斜體,黑、白體,上下角標(biāo)應(yīng)區(qū)別明顯。
4、文中的圖、表應(yīng)有自明性。圖片不超過2幅,圖像要清晰,層次要分明。
5、參考文獻(xiàn)的著錄格式采用順序編碼制,請(qǐng)按文中出現(xiàn)的先后順序編號(hào)。所引文獻(xiàn)必須是作者直接閱讀參考過的、最主要的、公開出版文獻(xiàn)。未公開發(fā)表的、且很有必要引用的,請(qǐng)采用腳注方式標(biāo)明,參考文獻(xiàn)不少于3條。
6、來(lái)稿勿一稿多投。收到稿件之后,5個(gè)工作日內(nèi)審稿,電子郵件回復(fù)作者。重點(diǎn)稿件將送同行專家審閱。如果10日內(nèi)沒有收到擬用稿通知(特別需要者可寄送紙質(zhì)錄用通知),則請(qǐng)與本部聯(lián)系確認(rèn)。
7、來(lái)稿文責(zé)自負(fù)。所有作者應(yīng)對(duì)稿件內(nèi)容和署名無(wú)異議,稿件內(nèi)容不得抄襲或重復(fù)發(fā)表。對(duì)來(lái)稿有權(quán)作技術(shù)性和文字性修改,雜志一個(gè)版面2500字,二個(gè)版面5000字左右。作者需要安排版面數(shù),出刊日期,是否加急等情況,請(qǐng)?jiān)卩]件投稿時(shí)作特別說明。
8、請(qǐng)作者自留備份稿,本部不退稿。
9、論文一經(jīng)發(fā)表,贈(zèng)送當(dāng)期樣刊1-2冊(cè),需快遞的聯(lián)系本部。
關(guān)鍵詞: 藏文編碼; 搜索引擎; 倒排索引; 網(wǎng)頁(yè)爬蟲
中圖分類號(hào):TP393.4 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2017)06-22-04
Research on key technologies of Tibetan web search
Zhang Yunyang
(Library of Tibet University, Lhasa, Tibet 850000, China)
Abstract: Through analyzing the characteristics of the Tibetan characters' coding in Tibetan website, and introducing the characteristics of the search engine, this paper studies the key technologies of Tibetan web search. The technologies of URL processing, the qualified crawler, inverted index, words' retrieval, sorting for results and the others for Tibetan web are discussed in detail. This paper proposes a relatively complete method for Tibetan web search, which has certain practical value for Tibetan web's information search and use.
Key words: Tibetan coding; search engine; inverted index; Web crawler
0 引言
藏族是我民族大家庭的重要成員,藏語(yǔ)言文字是藏族同胞在日常工作/生活中廣泛使用的文字。幾千年以來(lái),藏文字作為信息文化的傳播載體,對(duì)于傳承藏民族傳統(tǒng)文化、傳播現(xiàn)代科技知識(shí)和促進(jìn)地區(qū)經(jīng)濟(jì)的發(fā)展都發(fā)揮著重要的作用。在計(jì)算機(jī)世界中,藏文字區(qū)別于漢字和英文的最主要特征是字符編碼,目前國(guó)內(nèi)網(wǎng)站多數(shù)使用GBK編碼存儲(chǔ)信息,使用基于GBK的字體顯示文字。而目前的藏文網(wǎng)站,為了方便兼容和統(tǒng)一檢索,主要使用基于國(guó)際標(biāo)準(zhǔn)編碼的Microsoft Himalaya字體和珠穆朗瑪系列字體。
1 藏文網(wǎng)站字符編碼技術(shù)
藏文在計(jì)算機(jī)和國(guó)際互聯(lián)網(wǎng)的使用,在輸入法和字體方面采用基于Unicode字符集的方法較為合理,方便信息共享,方便藏文廣泛交流?;ヂ?lián)網(wǎng)世界的藏文網(wǎng)站和網(wǎng)頁(yè),現(xiàn)在都傾向于使用基于Unicode的藏文字體。
通過對(duì)國(guó)內(nèi)比較著名的藏文網(wǎng)站源碼分析發(fā)現(xiàn),主要的藏文網(wǎng)站均采用utf-8編碼,即藏文字符采用國(guó)際標(biāo)準(zhǔn)編碼Unicode字符集,而藏文字體采用基于Unicode的珠穆朗瑪系列字體和 Microsoft Himalaya字體。國(guó)內(nèi)部分藏文網(wǎng)站和網(wǎng)站的字符編碼及字體分析如下。
2 網(wǎng)頁(yè)URL處理
2.1 URL簡(jiǎn)述
URI:Universal Resource Identifier,通用資源標(biāo)志符。URI通常由三個(gè)部分組成:訪問資源的命名機(jī)制,存放資源的主機(jī)名,資源自身的名稱[1]。
URL是URI的一個(gè)子集,它是Uniform Resource Locator的縮寫,譯為“統(tǒng)一資源定位符”,即通常說的網(wǎng)址。URL是Internet上描述信息資源的字符串,主要用在各種WWW客戶程序和服務(wù)器程序上。采用URL可以用統(tǒng)一的格式來(lái)描述各種信息資源,包括文件、服務(wù)器地址和目錄等[2]。URL的格式由三部分組成:第一部分是協(xié)議(或稱為服務(wù)方式);第二部分是存有該資源的主機(jī)IP地址(有時(shí)也包括端口號(hào));第三部分是主機(jī)資源的具體地址,如目錄和文件名等。
2.2 URL處理流程
網(wǎng)頁(yè)搜索并不是對(duì)實(shí)時(shí)的網(wǎng)站信息進(jìn)行檢索,在用戶提交檢索提問詞后,實(shí)際上是轉(zhuǎn)入搜索引擎的索引數(shù)據(jù)庫(kù)檢索,這些索引數(shù)據(jù)庫(kù)通常是由網(wǎng)絡(luò)搜索引擎的爬蟲進(jìn)行采集、更新從而建立起來(lái)的。爬蟲最主要的處理對(duì)象是URL,它根據(jù)URL地址取得所需要的文件內(nèi)容,然后對(duì)它進(jìn)一步處理,網(wǎng)頁(yè)爬蟲URL處理流程如圖2所示。
3 藏文網(wǎng)頁(yè)爬蟲
3.1 爬蟲“黑洞”
爬蟲在搜集藏文網(wǎng)頁(yè)的過程中,必須考慮可能出現(xiàn)的“黑洞”情況。爬蟲黑洞是指,在抓取一張網(wǎng)頁(yè)的鏈接時(shí),鏈接本身是一個(gè)無(wú)限循環(huán),導(dǎo)致爬蟲抓取時(shí)跟著循環(huán),浪費(fèi)資源。有時(shí)一些URL看起來(lái)不同,但實(shí)際指向同一張網(wǎng)頁(yè),也會(huì)使爬蟲陷入重復(fù)抓取的境地。
為了避免爬蟲誤入黑洞,一般采取兩種策略。一是爬蟲回避動(dòng)態(tài)網(wǎng)頁(yè),因?yàn)閯?dòng)態(tài)網(wǎng)頁(yè)常常會(huì)把爬蟲帶入黑洞。識(shí)別動(dòng)態(tài)網(wǎng)頁(yè)時(shí),只需要判斷URL中是否出現(xiàn)問題,含問號(hào)的就是動(dòng)態(tài)網(wǎng)頁(yè)。二是使用Visited表記錄已經(jīng)訪問過的URL,凡是遇到新的URL存在于Visited表,就放棄對(duì)該URL的繼續(xù)處理。例如:當(dāng)遇到abcdce這樣的環(huán)路鏈接,爬蟲就會(huì)掉進(jìn)去,反復(fù)抓取c、d對(duì)應(yīng)的頁(yè)面。使用Visited表,就能避免這個(gè)問題。
3.2 限定爬蟲
藏文網(wǎng)頁(yè)搜索使用的爬蟲,是一種限定爬蟲,在爬蟲的功能定位上只抓取藏文的網(wǎng)頁(yè),本質(zhì)是對(duì)網(wǎng)頁(yè)文本所用語(yǔ)言的限定。藏文網(wǎng)頁(yè)的限定爬蟲,表面上是限定語(yǔ)言,具體操作層面需要通過限定IP、限定URL、限定charset來(lái)實(shí)現(xiàn)。
限定爬蟲就是對(duì)爬蟲所爬取的主機(jī)的范圍做一些限制,通常,限定爬蟲包含以下幾個(gè)方面[3]:①限定域名的爬蟲。比如,只抓取結(jié)尾的域名;②限定爬取層數(shù)的爬蟲。比如,限定只抓取2層的數(shù)據(jù);③限定IP的抓取。比如,只抓取自治區(qū)內(nèi)的IP;④限定語(yǔ)言的抓取。比如,只抓取中文漢字頁(yè)面。
抓取藏文網(wǎng)頁(yè)一方面要設(shè)計(jì)限定爬蟲,另一方面建立動(dòng)態(tài)更新的藏文網(wǎng)站域名庫(kù)、藏文網(wǎng)站主機(jī)IP庫(kù),配合限定爬蟲工作。目前已有部分藏文網(wǎng)站在頁(yè)面中加入了標(biāo)記,如中國(guó)藏學(xué)網(wǎng)采用的是,IT網(wǎng)采用的是,瓊邁藏族文學(xué)網(wǎng)采用的是??梢愿鶕?jù)網(wǎng)頁(yè)代碼中的標(biāo)記來(lái)識(shí)別判斷藏文網(wǎng)站。藏文網(wǎng)站域名庫(kù)和藏文網(wǎng)站主機(jī)IP庫(kù),需要人工操作,人為添加一些地址,這方面參照現(xiàn)在互聯(lián)網(wǎng)廣泛使用的“純真IP數(shù)據(jù)庫(kù)”實(shí)現(xiàn)。
3.3 藏文網(wǎng)頁(yè)倒排索引
藏文網(wǎng)頁(yè)倒排索引的建立流程如下。
第一步:抽取網(wǎng)頁(yè)正文。網(wǎng)頁(yè)正文是相對(duì)網(wǎng)頁(yè)噪聲而言。當(dāng)今的互聯(lián)網(wǎng)網(wǎng)頁(yè)上,頁(yè)面的很多篇幅用在廣告、搜索推薦和其他鏈接上。網(wǎng)頁(yè)搜索工具關(guān)注的是網(wǎng)頁(yè)本身要表達(dá)的信息,所以在通過爬蟲獲取到頁(yè)面源碼之后,要去除那些與本文無(wú)關(guān)的噪聲,抽取到網(wǎng)頁(yè)正文。
第二步:分字。藏文文字區(qū)別于漢文,漢文是一個(gè)字使用一個(gè)編碼,而藏文是對(duì)組成字的基字編碼,一個(gè)完整的藏文字可能存在多個(gè)編碼,這些編碼按組成藏文字的方法順序排列。藏文的分字通過藏文字分隔符 ‘ ’ 來(lái)實(shí)現(xiàn),如這段藏文字,中間有四個(gè)分隔符,句末有一個(gè)斷句符。在分字過程中,需要去掉一些無(wú)實(shí)際意義的字和符號(hào),只留下有明確表意的字進(jìn)行網(wǎng)頁(yè)的檢索。
第三步:對(duì)全文以字建索引。以字建索引,雖然檢索過程的匹配計(jì)算量會(huì)更大,但考慮到目前藏文網(wǎng)頁(yè)總體數(shù)量不大,應(yīng)該是一種可行的提高查全率的辦法。根據(jù)上一步得到的字,記錄每個(gè)字在文中出現(xiàn)的位置,計(jì)算每個(gè)字出現(xiàn)的次數(shù),建立鏈表。位置用于檢索時(shí)的準(zhǔn)確定位,次數(shù)用于計(jì)算字對(duì)文檔的重要性,也用于相關(guān)性排序計(jì)算。
第四步:對(duì)標(biāo)題建索引。大部分的Web文檔有文檔標(biāo)題TITLE,標(biāo)題反映了文檔的主要內(nèi)容,是搜索和導(dǎo)航的重要依據(jù)。標(biāo)題索引以詞、短語(yǔ)或句子為索引單位,具體根據(jù)詞表匹配情況確定,如果標(biāo)題匹配詞表中的規(guī)范詞則使用規(guī)范詞,如果沒有則直接以標(biāo)題建索引。藏文規(guī)范詞表是動(dòng)態(tài)更新的。檢索時(shí)以匹配標(biāo)題索引為優(yōu)先策略,先查詢標(biāo)題索引庫(kù),再查詢?nèi)乃饕龓?kù)。
第五步:索引旄新。網(wǎng)站的頁(yè)面信息是動(dòng)態(tài)更新的,由網(wǎng)絡(luò)爬蟲抓取得到的藏文網(wǎng)頁(yè)倒排索引庫(kù)也需要更新。搜索引擎的倒排索引更新有多種方式,包括修改更新、覆蓋更新和添加更新。鑒于目前上線的藏文網(wǎng)站數(shù)量少,網(wǎng)絡(luò)爬蟲工作周期短,藏文網(wǎng)頁(yè)的倒排索引庫(kù)更新可以采取添加更新加覆蓋更新的策略。每次爬蟲工作完成后,建立新的索引庫(kù),將查詢引擎鏈接指向新的索引庫(kù),同時(shí)保留近兩期的索引庫(kù),將更早的索引庫(kù)刪除。每次添加新的索引庫(kù)后,先將之前近兩期的索引庫(kù)保留一段時(shí)間備用。
4 檢索
藏文網(wǎng)頁(yè)搜索工具為用戶提供檢索藏文網(wǎng)頁(yè)信息,先根據(jù)用戶提交的檢索提問標(biāo)識(shí),去匹配索引庫(kù)中的網(wǎng)頁(yè)信息標(biāo)引標(biāo)識(shí)[4],然后將匹配上的結(jié)果按相關(guān)系數(shù)降序排列,匹配出的每一項(xiàng)條目直接指向網(wǎng)頁(yè)源地址,同時(shí)在結(jié)果頁(yè)顯示每條結(jié)果的網(wǎng)頁(yè)快照,以高亮顯示匹配字符。
4.1 檢索詞審閱
我國(guó)于2004年和2008年先后通過的《藏文編碼字符集擴(kuò)充集A》、《藏文編碼字符集擴(kuò)充集B》兩套國(guó)家標(biāo)準(zhǔn),收錄藏文字符7205個(gè),包括現(xiàn)代藏文、古藏文和梵音轉(zhuǎn)寫的藏文字符,藏文覆蓋率達(dá)到99.99%[5]。在藏文網(wǎng)頁(yè)搜索過程中,有必要對(duì)用戶輸入的藏文字進(jìn)行拼寫檢查,確認(rèn)輸入的每個(gè)字是正確的藏文字。將這兩套國(guó)家標(biāo)準(zhǔn)收錄的藏文字逐一列出,查出對(duì)應(yīng)的國(guó)際編碼,建立藏文國(guó)際編碼字表,在用戶輸入檢索詞時(shí)使用此表來(lái)進(jìn)行文字審閱。
4.2 文字匹配
藏文網(wǎng)頁(yè)搜索,實(shí)質(zhì)是將用戶輸入的檢索提問標(biāo)識(shí)與索引庫(kù)中的網(wǎng)頁(yè)標(biāo)引標(biāo)識(shí)進(jìn)行比對(duì),找出匹配的條目?,F(xiàn)有的字符編碼體系,對(duì)漢字是以整字編碼,如“漢”的GBK編碼是“BABA”,“漢”的unicode編碼是“6C49”;藏文字是對(duì)構(gòu)成字的每個(gè)構(gòu)件進(jìn)行編碼,因此一個(gè)藏文字的編碼實(shí)際是由一個(gè)或多個(gè)構(gòu)件的性,藏文字符匹配相對(duì)漢文和英文需要更大的計(jì)算量,比對(duì)一個(gè)字實(shí)際需要比對(duì)多個(gè)編碼。
文字匹配采取精確匹配和模糊匹配兩種策略。優(yōu)先采用精確匹配,將理論上最相關(guān)的結(jié)果反饋給檢索用戶。如果精確匹配命中條目很少或者沒有命中條目,采取模糊匹配策略,將近似相關(guān)的結(jié)果反饋給檢索用戶。精確匹配是找出完全包含檢索詞的結(jié)果集,模糊匹配是找出語(yǔ)義上近似的相關(guān)結(jié)果集。應(yīng)用檢索理論中的縮檢與擴(kuò)檢,當(dāng)命中結(jié)果很多時(shí),篩選最相關(guān)結(jié)果集;當(dāng)命中結(jié)果很少或完全沒有時(shí),逐步減小相關(guān)系數(shù)閾值,或多或少地為用戶提供一些近似相關(guān)結(jié)果集,盡量滿足用戶的檢索需求。
4.3 結(jié)果排序
檢索結(jié)果排序是網(wǎng)頁(yè)搜索的重要一環(huán),一般的全文檢索系統(tǒng),是按更新時(shí)間和點(diǎn)擊率對(duì)結(jié)果集排序,如利用文獻(xiàn)管理系統(tǒng)查閱圖書時(shí),查詢結(jié)果根據(jù)圖書出版時(shí)間降序排列,或者根據(jù)外借次數(shù)降序排列,突出顯示熱門圖書。但是,用戶的網(wǎng)頁(yè)搜索需求不完全是將時(shí)效性排在第一位,網(wǎng)頁(yè)爬蟲在抓取網(wǎng)頁(yè)更新索引時(shí)對(duì)每個(gè)網(wǎng)站的更新周期不一樣,等級(jí)高的網(wǎng)站被爬取的頻次高,等級(jí)低的小型網(wǎng)站被爬取的頻次低。因此,網(wǎng)頁(yè)搜索結(jié)果不能按網(wǎng)頁(yè)時(shí)間排序,用戶普遍更關(guān)注的是相關(guān)度[6]。
Google等大型搜索引擎使用復(fù)雜的PageRank算法進(jìn)行鏈接分析,遞歸地計(jì)算網(wǎng)絡(luò)上的全部站點(diǎn)排名[7]。藏文網(wǎng)頁(yè)搜索的規(guī)模較小,可以采取簡(jiǎn)單的策略。以檢索詞的匹配程度作為主列排序,以信息時(shí)間作為次列排序,按相關(guān)度從大到小排序,相關(guān)度相同的按更新日期從晚到早排序。
5 結(jié)論
互聯(lián)網(wǎng)世界的藏文字符已經(jīng)趨向于使用基于Unicode的字符集和基于utf-8編碼的字體,這有利于人們更多地使用藏文進(jìn)行交流。目前,Google搜索已經(jīng)開發(fā)了針對(duì)藏文網(wǎng)頁(yè)的搜索功能,國(guó)內(nèi)多家單位也正在研發(fā)本地化的藏文網(wǎng)頁(yè)搜索引擎。總體來(lái)講,藏文網(wǎng)頁(yè)搜索還處在探索階段,究其原因,主要有三個(gè)方面:一是多年來(lái)藏文字符編碼不統(tǒng)一,一些藏文軟件還沿用著基于國(guó)家標(biāo)準(zhǔn)的藏文字體,不兼容當(dāng)前國(guó)際標(biāo)準(zhǔn)編碼;二是藏文網(wǎng)頁(yè)/網(wǎng)站數(shù)量較少,用藏文記述的文獻(xiàn)信息體量巨大,但目前“搬”上網(wǎng)的還很少;三是藏文與漢文的混排、混檢技術(shù)還處于發(fā)展中,最直接的解決辦法是平臺(tái)上的藏文和漢文都使用基于Unicode的字符編碼,但會(huì)額外增加大量的漢文字符存儲(chǔ)開銷和網(wǎng)絡(luò)流量開銷,這也是一些大型站點(diǎn)保持使用GBK的原因。目前針對(duì)藏文信息處理的研究有很多,我們期待將來(lái)藏文在互聯(lián)網(wǎng)世界更廣泛更靈活的應(yīng)用。
參考文獻(xiàn)(References):
[1] 謝玉開.基于JAX-RS的面向資源架構(gòu)應(yīng)用研究[D].浙江理
工大學(xué)碩士學(xué)位論文,2011.
[2] 范劍波.網(wǎng)絡(luò)數(shù)據(jù)庫(kù)技術(shù)及應(yīng)用[M].西安電子科技大學(xué)出版
社,2004.
[3] 王娟,吳金鵬.網(wǎng)絡(luò)爬蟲的設(shè)計(jì)與實(shí)現(xiàn)[J].軟件導(dǎo)刊,2012.4:
136-137
[4] 王灃.運(yùn)用信息技術(shù)保護(hù)莽人語(yǔ)言文化的研究[J]. 科技情報(bào)
開發(fā)與經(jīng)濟(jì),2014.11:144-145
[5] 普頓.移動(dòng)電話上實(shí)現(xiàn)藏文信息處理的方法研究[D].大
學(xué)碩士學(xué)位論文,2009.
[6] 呂月娥,李信利.基于信息類別的網(wǎng)頁(yè)過濾算法[J].福建電腦,
2007.2:99,122