首頁 > 期刊 > 自然科學(xué)與工程技術(shù) > 信息科技 > 電子信息科學(xué)綜合 > 計算機(jī)技術(shù)與發(fā)展 > 多主題下基于LSTM語義關(guān)聯(lián)的長文本過濾研究 【正文】
摘要:現(xiàn)如今互聯(lián)網(wǎng)上出現(xiàn)了很多評論性文章,這些文章字符數(shù)多,且包含較多與主題無關(guān)的信息,會影響后續(xù)的文本分析任務(wù)的性能。因此,針對傳統(tǒng)的解決方案不能夠?qū)Χ嘀黝}長文本進(jìn)行建模,以及現(xiàn)有的神經(jīng)網(wǎng)絡(luò)無法從相對較長的時間步長中捕獲語義關(guān)聯(lián)等問題,文中提出了一種結(jié)合單層神經(jīng)網(wǎng)絡(luò)和分層長短記憶網(wǎng)絡(luò)的深度網(wǎng)絡(luò)模型,并在長文本過濾任務(wù)中進(jìn)行應(yīng)用。該模型通過詞語層LSTM網(wǎng)絡(luò)獲得句子內(nèi)部詞語之間的關(guān)系并得到具有語義的句向量,然后將句向量輸入主題依賴度計算模型和句子層LSTM網(wǎng)絡(luò)模型,進(jìn)而得到句子與各主題類別的依賴度以及待過濾句子與其他句子之間的關(guān)聯(lián)。最后,在從馬蜂窩獲取的游記數(shù)據(jù)集上進(jìn)行的實驗表明,該模型相比SVM、樸素貝葉斯、LSTM、Bi-LSTM等效果更好。
注:因版權(quán)方要求,不能公開全文,如需全文,請咨詢雜志社
主管單位:陜西省工業(yè)和信息化廳;主辦單位:中國計算機(jī)學(xué)會微機(jī)專委會;陜西省計算機(jī)學(xué)會