アイソモカ

知の遊牧民の開発記録

MeCab のユーザー辞書を作る(UniDic)

Qiita からの移植記事です。

qiita.com

自分用メモ。

環境

  1. MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。
  2. MeCabの設定ファイルを編集して、UniDicを使えるようにした。 参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife
  3. MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種(和語、漢語)を表示する - Qiita

ゴール

ユーザー辞書を作って解析に使えるようにする。

# 現状

$ mecab
タルスキー
タル    タル    タル    タル-外国       名詞-固有名詞-人名-一般                 固
スキー  スキー  スキー  スキー-ski      名詞-普通名詞-一般                      外
EOS

やったこと

辞書のCSVファイル

/Users/Pii/UserDic/uniuserdic.csv を作った。

# uniuserdic.csv

タルスキー,,,0,名詞,固有名詞,人名,一般,*,*,タルスキー,タルスキー,タルスキー,タルスキー,タルスキー,タルスキー,固,*,*,*
バナッハ,,,0,名詞,固有名詞,人名,一般,*,*,バナッハ,バナッハ,バナッハ,バナッハ,バナッハ,バナッハ,固,*,*,*

コンパイル

/Users/Pii/UserDic/ の中で作業

$ /usr/local/libexec/mecab/mecab-dict-index -d /Users/Pii/unidic-mecab-2.1.2_src/ -u /Users/Pii/UserDic/uniuserdic.dic -f utf-8 -t utf-8 uniuserdic.csv

実はこれ、けっこう手こずった。 -dの後に指定するディレクトリは、辞書コンパイル用のあれこれが入っているディレクトリなんだけど、これがどこにあるのか分からなかった。 UniDic は IPAdic とは辞書の書き方が違うから、UniDic 用の dicrc を指定してやらなければならないんだけど、先輩方の解説は IPADic 用のものが圧倒的に多い。

mecabrc にユーザー辞書のパスを追加

/usr/local/etc/mecabrc に一行追加する。

userdic = /Users/Pii/UserDic/uniuserdic.dic

参考にしたサイト

結果

# 結果
$ mecab
バナッハ・タルスキーのパラドクス
バナッハ        バナッハ        バナッハ        バナッハ        名詞-固有名詞-一般                      固
・                      ・      補助記号-一般                   記号
タルスキー      タルスキー      タルスキー      タルスキー      名詞-固有名詞-一般                      固
の      ノ      ノ      の      助詞-格助詞                     和
パラドクス      パラドクス      パラドックス    パラドックス-paradox    名詞-普通名詞-一般                      外
EOS

やったー!