雖然是愚人節(jié),但是這個不是愚人節(jié)玩笑,最近花了一些時間在MeCab身上,越發(fā)喜歡這個來自島國的開源分詞系統(tǒng),今天花了一些時間訓(xùn)練了一個更適用的模型和詞典,打包提供給大家使用,因為數(shù)據(jù)和詞典涉及到一些版權(quán)問題,所以打包文件里只是mecab用于發(fā)布的二進(jìn)制詞典和模型文件,目前在mac os和linux ubuntu系統(tǒng)下測試無誤,其他系統(tǒng)請自行測試使用:
鏈接: 密碼: 8udf
了解和安裝mecab請參考:
日文分詞器 Mecab 文檔
用MeCab打造一套實用的中文分詞系統(tǒng)
使用前請按上述文檔安裝mecab,下載這個中文分詞模型和詞典之后解壓,解壓后得到一個mecab-chinese-data目錄,執(zhí)行:
mecab -d mecab-chinese-data
揚帆遠(yuǎn)東做與中國合作的先行
揚帆v,*,*,*,*,*,揚帆,*,*
遠(yuǎn)東ns,*,*,*,*,*,遠(yuǎn)東,*,*
做v,*,*,*,*,*,做,*,*
與p,*,*,*,*,*,與,*,*
中國ns,*,*,*,*,*,中國,*,*
合作v,*,*,*,*,*,合作,*,*
的u,*,*,*,*,*,的,*,*
先行vn,*,*,*,*,*,先行,*,*
EOS
上述第二列提供了詞性標(biāo)注結(jié)果。
如果想得到單行的分詞結(jié)果,可以這樣執(zhí)行:
mecab -d ./mecab-chinese-data/ -O wakati
揚帆遠(yuǎn)東做與中國合作的先行
揚帆 遠(yuǎn)東 做 與 中國 合作 的 先行
如果想直接對文件分詞,可以這樣執(zhí)行:
mecab -d ./mecab-chinese-data/ INPUT -o OUTPUT
具體可以參考上述兩個文檔,另外我在mac下測試了一下中文維基百科語料的切分速度,大概700多M的語料,不到90秒切分完畢,大概7M/s的切分速度完全達(dá)到了工業(yè)屆的使用標(biāo)準(zhǔn)。另外Mecab還支持Nbest輸出,多種輸出格式,全切分模式,系統(tǒng)詞典和用戶詞典定制等等,同時通過SWIG提供了perl, ruby, python, java的調(diào)用接口,非常方便。
以下是在backoff2005 人民日報語料庫上的測試結(jié)果:
=== SUMMARY:
=== TOTAL INSERTIONS:3803
=== TOTAL DELETIONS:1981
=== TOTAL SUBSTITUTIONS:5004
=== TOTAL NCHANGE:10788
=== TOTAL TRUE WORD COUNT:104372
=== TOTAL TEST WORD COUNT:106194
=== TOTAL TRUE WORDS RECALL:0.933
=== TOTAL TEST WORDS PRECISION:0.917
=== F MEASURE:0.925
=== OOV Rate:0.058
=== OOV Recall Rate:0.482
=== IV Recall Rate:0.961
###pku_test.result380319815004107881043721061940.9330.9170.9250.0580.4820.961
召回率93.3%,準(zhǔn)確率91.7%, F值為92.5%, 雖然還沒有一個單純針對這個測試語料比賽的分詞結(jié)果好,但是測試了一些其他語料后覺得這個版本完全可以作為一個基準(zhǔn)版本使用,另外mecab也提供了用戶定制詞典接口,方便用戶按自己的需求定制使用。
更多信息請查看IT技術(shù)專欄