アイソモカ

知の遊牧民の開発記録

BERT

開発記録 210917 Fri BertJapaneseTokenizer でトークン化(気になったこと)

『Pytorch自然言語処理プログラミング』の5章を引き続きやっていきます。 isomocha.hatenablog.com 気になったこと。 BertJapaneseTokenizer.encode() に『分かち書きした形態素リスト』を入力すると、どうやら WordPiece によるサブワード分割が働かないっ…

BERT は毎朝味噌汁を作るか 【BertForMaskedLM】

BertMaskedLMで遊んでいて「毎朝あなたのために[MASK]を作ります。」で[MASK]部分に入る語を予測したら 1位が「詩」(確率0.078)、2位が「番組」(確率0.077) …ってなってて、えーそうなん???となった。Wikipediaで学習したBERTは味噌汁作れへんねや。https…

開発記録 210916 BertJapaneseTokenizer をさわってみる

『Pytorch自然言語処理プログラミング』の1章が終わって、間を飛ばして5章をやってます。 book.impress.co.jp 東北大BERT cl-tohoku/bert-base-japanese · Hugging Face と BertJapaneseTokenizer を使って文を単語列に分割していきましょう。 ... ModuleNot…