アイソモカ

知の遊牧民の開発記録

UniDic

開発記録 210916 BertJapaneseTokenizer をさわってみる

『Pytorch自然言語処理プログラミング』の1章が終わって、間を飛ばして5章をやってます。 book.impress.co.jp 東北大BERT cl-tohoku/bert-base-japanese · Hugging Face と BertJapaneseTokenizer を使って文を単語列に分割していきましょう。 ... ModuleNot…

開発記録191124 Sun (100本ノック#041, UniDic)

自然言語処理100本ノック #041 を仕上げ、形態素解析辞書 UniDic を導入した。 やったこと やったこと 100本ノック #041 コードを整理した 完成 形態素解析用の辞書をIPA から UniDic に変更 UniDicの出力を編集 確認 MeCab のデフォルト辞書を設定 ユーザー…