アイソモカ

知の遊牧民の開発記録

2021-09-17から1日間の記事一覧

開発記録 210917 Fri BertJapaneseTokenizer でトークン化(気になったこと)

『Pytorch自然言語処理プログラミング』の5章を引き続きやっていきます。 isomocha.hatenablog.com 気になったこと。 BertJapaneseTokenizer.encode() に『分かち書きした形態素リスト』を入力すると、どうやら WordPiece によるサブワード分割が働かないっ…

BERT は毎朝味噌汁を作るか 【BertForMaskedLM】

BertMaskedLMで遊んでいて「毎朝あなたのために[MASK]を作ります。」で[MASK]部分に入る語を予測したら 1位が「詩」(確率0.078)、2位が「番組」(確率0.077) …ってなってて、えーそうなん???となった。Wikipediaで学習したBERTは味噌汁作れへんねや。https…