2012-10-06

自然語言處理之詞語抽取

多日之前看到了Matrix67的《互聯網時代的社會語言學：基於SNS的文本數據挖掘》，文中提到的方法是無監管的，而且無需詞典就能提取詞語，要素概括起來有兩點：詞的凝聚力，以及左右鄰字的信息熵。今天把這個方法實現了一下。

對於凝聚力，我的理解是可以用詞前後兩部分的pointwise mutual information來描述，比如對於“博物館”一詞，考慮“博”與“物館”之間，以及“博物”與“館”之間的pointwise mutual information，兩者取較小值作爲“博物館”這個詞的凝聚力。

左右鄰字的信息熵按照Matrix67原文方法計算。

計算pmi和信息熵都需要使用詞頻，直觀的想法是先枚舉詞的長度\(len\)，之後枚舉所有連在一起的長爲\(len\)的字數組作爲候選詞。計算詞頻需要用到類似Rabin-Karp算法的string hash，或者trie，或者一些binary search tree。

另一種實現方式是使用suffix array，以相同詞作爲前綴的後綴在suffix array中處於連續的一段，這樣一遍掃描就能依次得到每個詞的頻度，空間佔用較小。另外一個好處是共享同一個右鄰字的後綴也是連續的一段，一遍掃描可以得到每個右鄰字的頻度。之後翻轉字符串再做一次得到左鄰字的信息，或者把suffix array改造成prefix array。

實踐

模仿BYVoid對《笑傲江湖》進行了分析。

使用poppler中的pdftotext把pdf轉成txt。
./WordExtractor < in > out，兩三秒就運行完了。
人工分析 out，設置信息熵以及 pmi 的閾值。
修改analysis.rb並執行ruby analysis.rb < out得到結果。

令狐沖自己甚麼咱們嶽不羣倘若說道師父盈盈田伯光林平之儀琳如何武功劍法嶽靈珊一個長劍左冷禪任我行如此華山突然弟子今日他們恆山派向問天東方不敗餘滄海江湖不知華山派登時跟着之中笑道出來教主心想雖然當真只是心中也不魔教二人小師妹此刻劉正風

源代碼

github gist