mecabで記号が名詞, サ変接続とされてしまう問題の解消
概要
- MeCabのデフォルトでは半角記号が名詞、サ変接続とされてしまう。
$ mecab ; ; 名詞,サ変接続,*,*,*,*,* EOS
- この問題を解消するために未定義語の辞書を編集して、半角記号が記号として取り扱うことができるようにする
前提環境
ステップ
- unk.def の編集
- 辞書の再インストール
1. unk.def の編集
$ cat unk.def | grep SYMBOL SYMBOL,1283,1283,17585,名詞,サ変接続,*,*,*,*,* $ sed -i unk.def -e '/^SYMBOL,/s/名詞,サ変接続,\*,\*,\*,\*,\*/記号,一般,\*,\*,\*,\*,\*/' $ cat unk.def | grep SYMBOL SYMBOL,1283,1283,17585,記号,一般,*,*,*,*,*
2. 辞書の再インストール
$ sudo /usr/local/libexec/mecab/mecab-dict-index $ sudo make install $ mecab ; ; 記号,一般,*,*,*,*,* EOS