內容簡介
人類語言具有結構性,非常明顯的體現是句法結構。理解語言離不開對句法結構的分析。因此,自動句法分析作為自然語言處理的基礎性工作,是通往語言理解的基石,很多複雜的自然語言處理任務都需要建立在一定程度的句法分析基礎之上。
自然語言處理研究認為兩種名詞短語有重要價值,一種是基本名詞短語,一種是**名詞短語。相比較而言,後者不僅長度大,所合成分與結構也更複雜多樣。作為名詞短語的一種動態類型,漢語**名詞短語佔據了一半以上的句長比例,識別出它們就可以快速地掌握句子的基本骨架,不僅有助於完全句法分析,也對機器翻譯、信息抽取等多種任務具有很高的應用價值。
**名詞短語識別工作雖然取得了一定的進展,但距離令人滿意的效果還有不小的差距,從而對各種應用系統的支持也受到限制。目前主流的**名詞短語識別方法是統計機器學習方法,通過詞語位置分類和序列標註實現短語識別,大大提高了正確率和召回率,但也遇到了增長瓶頸。打破這一瓶頸,需要我們深入研究**名詞短語的結構和分佈規律,提出新的識別策略、方法和有效特徵。
《漢語**名詞短語識別研究》從理論定義、分佈描寫、識別方法等角度對**名詞短語識別工作進行系統的探討。首先,通過層次構造、長度約束、名詞性認定和外延範圍的認定,界定了一種新的多層級**名詞短語。其次,從句法功能、句法結構和線性特徵等角度細緻地描寫**名詞短語的分佈規律,分析了其複雜性構造和識別難點問題。最後,基於分佈規律制定合適的識別策略和方法,選取有效的識別特徵,並分類進行識別實驗。
目錄
第一章 面嚮應用的最長名詞短語研究
第一節 漢語自動句法分析的難點問題
第二節 多視域下的最長名詞短語研究
第三節 最長名詞短語研究的方法與資源
第四節 本書的主要內容與特色
第二章 名詞短語識別的相關研究綜述
第一節 名詞短語研究
第二節 組塊分析研究
第三節 搭配獲取研究
第三章 理論基礎與最長名詞短語的界定
第一節 漢語短語的分類框架
第二節 語言組塊理論
第三節 最長名詞短語的界定
第四章 最長名詞短語的分佈調查與分析
第一節 最長名詞短語的抽取
第二節 句法功能與外部鄰接
第三節 句法結構與內部構成
第四節 複雜性與MNP構造
第五節 識別策略的確定
第五章 表層最長名詞短語的識別
第一節 統計機器學習模型及其選用
第二節 基於基本名詞短語歸約的識別
第三節 基於分類器集成的識別
第六章 內層最長名詞短語的識別
第一節 層級構造
第二節 識別難點分析
第三節 識別策略的確定
第四節 多層級的iMNP識別
第五節 基於規則的修正
第七章 最長名詞短語識別工作的反思與展望
第一節 研究工作的反思
第二節 進一步的研究計劃
參考文獻
附錄
附錄1 清華漢語樹庫(TCT)詞類標記集
附錄2 清華漢語樹庫(TCT)句法功能標記集
附錄3 清華漢語樹庫(TCT)句法結構標記集
附錄4 CRF特徵模板
附錄5 動詞配價詞典示例
附錄6 基本名詞短語提升規則
前言/序言
人類語言具有結構性,最明顯的體現是句法結構。理解語言離不開對句法結構的分析。因此,自動句法分析作為自然語言處理的基礎性工作,是通往語言理解的基石,很多複雜的自然語言處理任務都需要建立在一定程度的句法分析基礎之上。
相較於自動分詞和詞性標註,句法分析有更大的難度,特別是對於缺乏形態變化的漢語而言,分析效果往往不及英語等具有屈折變化形式的語言。由於完全句法分析正確率較低,並且語言的底層存在較多歧義,20世紀90年代以後,句法分析工作一定程度上轉向了淺層分析。淺層句法分析不要求直接分析出完整的句法樹,而是要識別句子中某些結構相對簡單的語塊,以及分析它們之間的依附關係。這樣做一方面有助於消解底層歧義,最終通過語塊間的關係建構和語塊內的結構分析實現完全句法分析;另一方面,識別出句子中的語塊可以直接滿足很多自然語言處理應用的需求。
淺層句法分析重點關注兩類語塊,一類是基本塊,一類是名詞短語。基本塊是結構簡單的非交疊連續塊,包括基本動詞塊、基本名詞塊、基本形容詞塊等多種類型。而名詞短語的內部結構較為複雜,其識別工作是語言信息處理的難點,也是淺層句法分析持續關注的內容。
自然語言處理研究認為兩種名詞短語有重要價值,一種是基本名詞短語,一種是最長名詞短語。相比較而言,後者不僅長度大,所合成分與結構也更複雜多樣。作為名詞短語的一種動態類型,漢語最長名詞短語佔據了一半以上的句長比例,識別出它們就可以快速地掌握句子的基本骨架,不僅有助於完全句法分析,也對機器翻譯、信息抽取等多種任務具有很高的應用價值。
最長名詞短語識別工作雖然取得了一定的進展,但距離令人滿意的效果還有不小的差距,從而對各種應用系統的支持也受到限制。目前主流的最長名詞短語識別方法是統計機器學習方法,通過詞語位置分類和序列標註實現短語識別,大大提高了正確率和召回率,但也遇到了增長瓶頸。打破這一瓶頸,需要我們深入研究最長名詞短語的結構和分佈規律,提出新的識別策略、方法和有效特徵。
本書從理論定義、分佈描寫、識別方法等角度對最長名詞短語識別工作進行系統的探討。首先,通過層次構造、長度約束、名詞性認定和外延範圍的認定,界定了一種新的多層級最長名詞短語。其次,從句法功能、句法結構和線性特徵等角度細緻地描寫最長名詞短語的分佈規律,分析了其複雜性構造和識別難點問題。最後,基於分佈規律制定合適的識別策略和方法,選取有效的識別特徵,並分類進行識別實驗。
本書的特色可以概括為三大方面:
一是概念界定的獨特性。面向句法語義分析,更新了最長名詞短語的定義,使其能夠覆蓋更多的名詞性論元。
二是研究工作的系統性。不僅關注識別方法改進,也重視對象本體研究,基於大規模樹庫對最長名詞短語的分佈規律和複雜性構造進行深入描寫分析。不僅注重實驗數據的提高,也重視實驗結果的分析和反思。
三是研究方法的新穎性。將語言描寫、特徵發掘和識別分析緊密結合,提出了三種識別方法:基於基本名詞短語歸約的方法、基於語言知識評價的系統集成,以及基於統計機器學習的分層識別與基本名詞塊提升的相結合方法,提高了表層最長名詞短語的識別效果,較好地識別了內層最長名詞短語。
最長名詞短語識別不是中文信息處理的熱點問題,但卻是重要的應用基礎研究,不僅具有應用價值,也有一定的理論意義。從認知科學的角度看,人們必須首先識別和理解言語中的實體和概念,才能很好地理解文本,而這些實體和概念大多是由名詞短語所描述的。所以,最長名詞短語的識別過程一定程度上也應該是對人類識別名詞短語過程的模擬。有鑒於此,我們不僅注重提高識別效果,也注重從理論角度描寫最長名詞短語的分佈和構造特徵,使用心理學關於記憶機制的研究關照識別任務;同時,根據描寫結果制定識別策略和方法,選取統計機器學習的輸入特徵,並嘗試從語言學理據上給予一定的解釋。
由於時間和水平的限制,本書存在不足之處,敬請讀者批評指正。