目前的購物車是空的!
此商品參與的優惠活動
商品庫存不足留言
內容簡介《深度學習與短文本信息挖掘》對自然語言處理中的兩種代表性的短文本信息挖掘進行研究:關係抽取和彈幕評論挖掘。針對關係抽取任務,從精度、效率、魯棒性及前沿探索四個方面進行分析並提出對應的解決方法。針對彈幕評論挖掘任務,充分地利用彈幕的實時性、交互性、高雜訊等性質,提出適用於彈幕評論的語義分析模型。針對目標任務的信息缺陷,《深度學習與短文本信息挖掘》從多角度研究和設計對應的深度學習演算法以提高信息挖掘的精度。
精彩書評本書關注于關係抽取任務和彈幕評論語義分析任務,通過兩種代表性的任務來探索短文本信息挖掘的通用方法
目錄
目錄前言致謝第1章深度學習11 1深度學習簡介11 2深度學習**模型31 2 1卷積神經網路31 2 2循環神經網路41 2 3注意力模型51 2 4膠囊網路61 2 5遷移學習與多任務學習71 2 6對抗學習及生成對抗網路 81 2 7主動學習9思考題 10第2章短文本信息挖掘112 1短文本信息挖掘簡介112 2關係抽取簡介 122 2 1關係抽取定義132 2 2神經關係抽取142 2 3遠程監督的關係抽取152 2 4關係抽取前沿162 2 5研究意義及挑戰172 3彈幕評論挖掘簡介192 3 1基於無監督學習的文本分析方法 212 3 2基於神經網路監督學習的文本分析方法252 4研究內容及結構272 4 1關係抽取272 4 2彈幕評論挖掘29思考題 31第3章相關工作323 1關係抽取研究 323 1 1監督學習323 1 2遠程監督353 2彈幕評論挖掘研究373 2 1基於評論挖掘的關鍵詞抽取方法 373 2 2基於評論挖掘的**系統383 2 3基於評論挖掘的劇透檢測方法 38思考題 39第4章關係抽取模型的精度提升404 1概述404 2多標籤關係抽取404 3基於注意力的膠囊網路模型424 3 1特徵提取層——Bi-LSTM網路434 3 2特徵聚集層——基於注意力的膠囊網路 444 3 3關係預測層——基於滑動窗口的損失函數464 4實驗474 4 1數據集474 4 2實驗設置474 4 3實驗效果494 4 4案例分析524 5本章小結53思考題 53第5章關係抽取模型的效率優化555 1概述555 2神經關係抽取模型的效率陷阱555 3基於句內問答的關係抽取模型575 3 1網路結構585 3 2複雜度分析615 4實驗635 4 1數據集635 4 2實驗設置645 4 3實驗效果655 4 4案例分析675 5本章小結67思考題 68第6章關係抽取模型的魯棒性增強696 1概述696 2遠程監督的雜訊分佈分析706 3詞彙級別雜訊解決方法 746 4句子級別雜訊解決方法 766 5先驗知識級別雜訊解決方法786 6數據分佈級別雜訊解決方法806 7多級別雜訊協同解決方法816 8實驗826 8 1數據集及評價指標836 8 2詞彙級別降噪相關實驗836 8 3句子級別降噪相關實驗856 8 4先驗知識級別降噪相關實驗886 8 5數據分佈級別降噪相關實驗896 8 6多級別抗雜訊相關實驗916 9本章小結93思考題 93第7章關係抽取模型的前沿初探947 1概述947 2錯誤標註負樣本問題957 3GAN驅動的半遠程監督學習框架967 3 1半遠程監督關係抽取原理967 3 2GAN驅動的半監督關係抽取演算法987 4基於主動學習的無偏測評方法 1007 4 1無偏測評原理1007 4 2無偏測評演算法1017 5實驗 1047 5 1數據集及評價指標1047 5 2GAN驅動的半遠程監督關係抽取相關實驗1057 5 3基於主動學習的無偏測評方法相關實驗 1097 6本章小結115思考題115第8章彈幕視頻標籤提取1168 1概述 1168 2語義關係圖的構建與圖聚類演算法1178 2 1語義關係圖的構建1178 2 2基於圖聚類演算法的彈幕主題劃分1198 2 3複雜度分析1248 3語義權重分析與標籤提取1258 3 1基於圖迭代演算法的評論影響力計算1258 3 2視頻標籤提取1278 4實驗 1288 4 1實驗參數設定與數據集構建1288 4 2實驗結果1338 5本章小結138思考題138第9章彈幕**系統1409 1概述 1409 2基於模型的協同過濾演算法1419 2 1問題描述1429 2 2基於文本的**模型1429 2 3圖文融合模型1449 2 4基於羊群效應的注意力機制1469 3實驗 1489 3 1實驗參數設定與數據集構建1489 3 2實驗結果1499 4本章小結151思考題151第10章彈幕劇透檢測15310 1概述15310 2問題定義與符號描述 15510 2 1問題定義15510 2 2符號描述15610 3劇透檢測模型15610 3 1單詞級注意力編碼器15710 3 2相似度網路15810 3 3句子級語義方差注意力機制16010 3 4數字嵌入方法16210 4實驗16210 4 1數據集構建16210 4 2數據集處理與評價指標16310 4 3模型性能比較16410 4 4注意力機制的可視化16710 5本章小結168思考題168第11章總結與展望16911 1短文關係抽取總結16911 1 1貢獻和創新點17011 1 2現有問題討論17111 2彈幕評論挖掘研究總結17211 3展望174思考題176參考文獻177彩圖
精彩書摘第1章 深度學習1 1 深度學習簡介人工智慧近年來已經逐漸被大眾所熟知,它試圖理解人類智能的本質,並使得機器具有比肩甚至超過人類的推理、感知、學習、交流等能力。相關研究覆蓋了機器視覺、智能搜索、語言理解等領域,並取得了顯著的成果。一般的人工智慧任務需要從數據中提取有用的特徵,並利用機器學習演算法來得到相關結果。對於很多任務而言,依靠專家提取數據特徵,不僅流程複雜,而且特徵選取的好壞直接關係到數據表示的質量,並影響到後續機器學習演算法的結果。與之相對的,藉助演算法讓機器自動學習數據的隱式特徵,可以充分地剔除數據中的無效信息,提煉原始數據的更好表示,從而在後續任務上有事半功倍的效果,這就是表示學習的基本思路。表示學習面臨的重要挑戰是語義鴻溝問題。語義鴻溝是指輸入數據的底層特徵和上層理解之間的差異性。以判斷兩張圖片的相似性為例,人類是通過識別圖片中的事物,提取並理解重要的語義,從而判斷兩張圖片是否相似。而機器得到的輸入是由大量像素構成的數據矩陣,不同圖片在像素級別的差異性非常大。如果表示學習只依靠像素級特徵(底層特徵)進行預測,會給後續機器學習演算法帶來更大的挑戰。因此提取一個更好的表示來反映出數據的高層語義特徵是完成人工智慧任務的關鍵所在。深度學習利用一系列較簡單的底層特徵來構建更加抽象的高層特徵,從而獲得數據的分散式特徵表示,是表示學習發展的重要成果。與淺層學習不同,深層結構可以對輸入特徵進行連續的非線性變換,從而指數級地增加表示能力。圖 1 1中給出一個含有多個隱藏層的深度學習模型。圖 1 1 中每一個節點表示一個基本的計算及計算得到的值,箭頭方向代表數據流向,即底層特徵如何參与構建高層特徵。深度是指原始數據進行非線性特徵變換的次數,即圖中從輸入到輸出的最長路徑的長度。在一些複雜任務中,傳統機器學習方法的流程往往由多個*立模塊組成,每個模塊分開學習。例如,一個典型的自然語言理解問題需要分詞、詞性標註、句法分析、語義分析等多個*立步驟。這種學習方式下每個模塊都需要單*優化,其優化目標和任務總體目標並不一致,而且前面的錯誤會對後續部分造成很大的影響。與之相反,深度學習採用端到端的學習方法,在學習過程中不進行分模塊或分階段的訓練,直接優化任務的總體目標。在端到端學習中,一般不需要明確地給出不同模塊或階段的功能,中間過程不需要人為干預。圖1 1 一個含有多個隱藏層的深度學習模型目前深度學習採用的模型主要是神經網路模型。神經網路模型是一種通用的機器學習演算法,最初目標是用於模擬人類的大腦。人類所接收到的一切刺激經過感受器獲取並輸入到傳入神經,之後經過多級神經元激活而傳導到中樞神經系統。人腦就根據傳入的信息判斷接收到的刺激並進行相應的動作。與之類似,神經網路模型利用大量的人工神經元連接進行計算。不同神經元之間可調節的權重看作神經元之間的連接強度。而神經元內的非線性激活函數可用於模擬人類神經元的激活現象。神經網路模型的參數使用反向傳播演算法進行更新,從而使得每個內部組件並不需要直接得到監督信息,而是使用*終的監督信息計算得到。深度學習的提出使得機器一定程度上可以模仿人類的思考等活動,解決了多種複雜問題,推動人工智慧相關技術取得很大進步。相較於傳統機器學習方法,深度學習主要具有以下優點。(1)取消特徵工程。傳統機器學習演算法通常需要複雜的特徵工程,需要在輸入數據上進行數據分析並提取*優特徵傳遞給後續演算法。而深度學習完全避免了這一步驟,只需要輸入必要數據就可以自動提取特徵。(2)適用性強。與**的機器學習演算法相比,深度學習技術可以更容易地適應不同的領域和應用。不同領域使用深度學習的基本思想和技術往往是可以互相遷移的。而且,TensorFlow、Pytorch 等多種框架的提出使得深度學習模型的實現變得簡單易懂,極大地降低了相關研究的准入門檻。(3)學習能力強。深度學習可以獲取數據中非常複雜的底層模式。其採用的神經網路模型的層數和寬度都可以自由擴展,理論上可以擬合任意函數,能解決非常複雜的問題。而且從結果來看,深度學習模型的學習能力遠遠超過傳統模型,在許多領域中已經取得了突破性的結果,包括語音處理、自然語言處理、計算機視覺等。1 2 深度學習**模型經過十多年的發展,眾多的深度學習模型被提出並應用在各個領域中。本節選取其中部分代表性模型進行介紹,為深入理解本書提供必要的背景知識。1 2 1 卷積神經網路卷積神經網路(convolutional neural network, CNN)是一種前饋神經網路,它的人工神經元可以響應一部分覆蓋範圍內的周圍單元。相比于傳統的全連接網路,這種結構經過反向傳播的訓練后能夠更加高效而準確地提取特徵。卷積神經網路通常包括一個全連接層、若干卷積層、若干池化層和一個輸出層。卷積神經網路善於擬合邊緣特徵,更多層的網路能從低級特徵中迭代提取更複雜的特徵。具體到自然語言處理的相關工作,卷積網路能夠作用在輸入的詞向量陣列上,通過卷積和池化操作,提取語義上的邊緣特徵,*終實現對於高級語義的良好擬合。基於卷積神經網路的關係抽取框架如圖 1 2 所示。圖 1 2 基於卷積神經網路的關係抽取框架卷積層先以 w 定義局部特徵的採樣窗口寬度(圖 1 2 中 w = 3,即每個卷積核連續觀測 3 個詞彙),繼而輸入向量與卷積核進行點乘運算。卷積核是需要學習的參數W ? Rdk×wdx,卷積核的數量可以通過超參數 dk 調節。具體來說**步卷積操作的運算如下:fij = Wi [xj 1; xj ; xj+1] (1 2 1)式中,[x; y] 表示 x 和 y 的垂直拼接;fij 表示第 i 個卷積核與目標詞向量運算后的第 j 個值,i 和 j 的取值範圍分別是 [1, dk] 和 [1,m]。在運算過程中,超出取值範圍的變數如 x0 和 xm+1 均取全零向量。*大池化層挑選 fi 中*大的值f i = max(fij)。接下來 f 被全連接(通常是一個非線性的雙*正切激活函數)映射到*終的關係表示向量 r。*終的關係表示向量經過關係矩陣的作用后,再通過 softmax 函數歸一化a,得到目標關係的似然概率分佈,其運算過程如下: pj =e(Wrr+br)