多日之前看到了Matrix67
的《互联网时代的社会语言学:基于SNS的文本数据挖掘》,文中提到的方法是无监管的,而且无需词典就能提取词语,要素概括起来有两点:词的凝聚力,以及左右邻字的信息熵。今天把这个方法实现了一下。
对于凝聚力,我的理解是可以用词前后两部分的pointwise mutual information
来描述,比如对于“博物馆”一词,考虑“博”与“物馆”之间,以及“博物”与“馆”之间的pointwise mutual information
,两者取较小值作为“博物馆”这个词的凝聚力。