開発記録 200304 Wed (100本ノック #073, Scikit-Learn インストールだけ / お魚の本 2章カウントベース下準備)

言語処理100本ノック機械学習

言語処理100本ノック #073 準備：scikit-learn をインストールお魚の本 (ゼロから作る Deep Learning ② 自然言語処理編) 2.3 カウントベースの手法 (2.3.1 コーパスの下準備)：正規表現が分からない言語処理100本ノック #073 # 73. 学習 72で抽出した素性…

2020-02-29

開発記録 200229 Sat (100本ノック #072, 素性抽出)

言語処理100本ノック

先週末は新居を探しに行ったし、今週末は引越しの見積りの人が家に来たし、内定先に色々な書類も出した。着々と準備が進んでいる気がする。準備は進んでいるものの、新しい仕事への不安もつのる。新型肺炎の拡散防止のために日本語教室も休みになってしまい…

2020-02-27

開発記録 200227 Thu (100本ノック #071, ストップワード)

言語処理100本ノック

今回はストップワードかどうかを判定するコードを書きました。さらに、実際どのような単語が多く出現しているのかも見てみました。言語処理100本ノック #071 準備解答テスト出力頻出単語を調べるコード頻度分布

2020-02-19

開発記録 200219 Wed (100本ノック #070, 機械学習データの整形)

言語処理100本ノック

第7章後半はちょっと後回しにすることにしまして、第8章。今回は機械学習に使うデータの整形をしました。最近、メモアプリの ”Bear” を使い始めた。オシャレでシンプルで使いやすそうだし、マークダウンで書けるのが良さそうかなと思った。でもはてなブロ…

2020-02-12

開発記録 200212 Wed (100本ノック #064 前半, MongoDB)

言語処理100本ノック

今回は MongoDB を準備して、Python から登録・検索・削除をしてみました。あとで気づいたんですが、 #065 以降は Python ではなくMongoDB のインタラクティブシェルを使うように書いてありますね。Python でも良いかな……。言語処理100本ノック #064 準備:…

2020-02-11

開発記録 200211 Tue (100本ノック #061, #062, #063, LevelDB)

言語処理100本ノック

前回に続き、Key-Value-Store (KVS) として LevelDB を使っていきます。前回 LevelDB チュートリアルを少し書いたので、今回はとてもスムーズにできました。言語処理100本ノック #061: KVSの検索解答言語処理100本ノック #062: KVS内の反復処理解答言…

2020-02-10

開発記録 200210 Mon (100本ノック #060, LevelDB)

言語処理100本ノック

今回から第7章: データベースです。今回は JSON 形式のデータを読んで、Key-Value-Store (KVS) データベースを作りました。LevelDB を初めて使いました。言語処理100本ノック #060 LevelDB の準備解答

2020-02-08

開発記録 200608 Sat (100本ノック #059, Stanford CoreNLP)

言語処理100本ノック

今日はこれの他に、地域日本語教室の支援者向け講座を聞いたり、台湾のドキュメンタリー映画「漢字」を観たりした。そろそろ花粉症の薬をもらいに耳鼻科へ行かなあかん時期やんなあ。めんどいなあ。前回の続きです。言語処理100本ノック #059: S式の解析 …

2020-02-06

開発記録 200206 Thu (100本ノック #059 途中, Stanford CoreNLP CorefAnnotator)

言語処理100本ノック

Stanford CoreNLP の解析結果に句構造解析の結果が入っていなかった。アノテータオプションでルールベースの共参照解析を指定することで解決した。言語処理100本ノック #059 Stanford CoreNLP の CorefAnnotator 結果の違い Deterministic (ルールベース) …

2020-02-05

開発記録 200205 Wed (100本ノック #048, Stanford CoreNLP)

言語処理100本ノック

CoreNLP 使うとき、1文しかなくてもごっつ時間かかるねんけど、なんでやろなあ。 2020/02/06 追記：アノテータオプション付けへんと、機械学習の計算ようさんしはるからや。ルールベースの共参照解析を指定すると、そないに時間かからへんで。 isomocha.hate…

2020-02-04

開発記録 200204 Tue (100本ノック #057, Stanford CoreNLP)

言語処理100本ノック

読み途中の本はあるけど（「Pythonで学ぶあたらしい統計学の教科書」と「ゼロから作る Deep Learning ❷ 自然言語処理編」）、とりあえず 100本ノックを進めよう。言語処理100本ノック #057: 係り受け解析有向グラフ解答出力

2020-01-28

開発記録 200128 Tue (100本ノック #056)

言語処理100本ノック

前回の続き。言語処理100本ノック #056 続き解答結果

2020-01-27

開発記録 200127 Mon (100本ノック #054, #055, #056途中)

言語処理100本ノック

言語処理100本ノック #054 解答出力言語処理100本ノック #055 解答出力言語処理100本ノック #056 解答は次回

2020-01-26

開発記録 200126 Mon (100本ノック #053)

言語処理100本ノック

今回は、Stanford CoreNLP という言語処理ツールを使う。Java で CoreNLP を動かす際にヒープスペースのエラーが出て対処した。それから、Python で XML 形式を読むためのライブラリ ElementTree を初めて使った。言語処理100本ノック #053 Java をインスト…

2020-01-13

開発記録 200113 Mon (Stemming, 100本ノック #052)

言語処理100本ノックことば

前回 #051 は空白を単語の区切りとみなしていたが、hand-written rules などの - でつながった単語がある場合、-も単語の区切りを表しているよな？と今回解きながら思った。あと、( ) , . " などの記号も単語に含めるべきではないのではないだろうか。し…

2020-01-13

開発記録 200113 Mon (100本ノック #050, #051)

言語処理100本ノック

唐突に変な話ですが、「エロ本」の形態素解析、unidic では「エロボン」として登録されているので1語になるんですが、ipa辞書を使うと「エロ」「ホン」と2語になるんですね。さて、今回から言語処理100本ノック第6章に入ります。調べたことメモ関数とかの…

2020-01-12

開発記録 200112 Sun (100本ノック #049)

言語処理100本ノック UniDic/MeCab/CaboCha

今回は重めかと思ったけど、やってみたらできないことはなかった。自分比で以前より関数が使えるようになってきた気がする。言語処理100本ノック #049 ノート完成結果

2020-01-06

開発記録 200106 Mon (100本ノック #048)

言語処理100本ノック UniDic/MeCab/CaboCha

新年快樂。冬休みは帰省などでドタバタしていて、開発が全然進められませんでした（統計の本はちょっとだけ読んだ）。そして、今日から仕事が始まったわけですけど、金曜まで頑張れるのか不安ですわあ……。言語処理100本ノック #048 調べたことメモ Python…

2019-12-07

開発記録 191207 Sat (100本ノック #047)

言語処理100本ノック ShellScript

みんなのよく言う「マイニング」って何なんやろ。文章を分析するのに、テキストマイニング以外の何かがあるのだろうか。前回の続き。 isomocha.hatenablog.com やったことやったこと調べたことメモ len() で調べる要素数は1から始まるリストを後ろから取…

2019-12-05

開発記録 191205 Thu (100本ノック #047)

言語処理100本ノック UniDic/MeCab/CaboCha

滷味包でスペアリブを煮ている。昨日から煮始めて、だいぶいい感じになってきた。 47. 機能動詞構文のマイニング動詞のヲ格にサ変接続名詞が入っている場合のみに着目したい．46のプログラムを以下の仕様を満たすように改変せよ．「サ変接続名詞+を（助詞…

2019-12-01

開発記録 191201 Sun (100本ノック #046)

言語処理100本ノック UniDic/MeCab/CaboCha

最近のノリノリ開発 BGM はアヴィーチー。Amazon Music のプレイリストで聴いて気に入った。 46. 動詞の格フレーム情報の抽出 45のプログラムを改変し，述語と格パターンに続けて項（述語に係っている文節そのもの）をタブ区切り形式で出力せよ．45の仕様に…

2019-12-01

開発記録 191201 Sun (100本ノック #045)

言語処理100本ノック ShellScript

やったことやったこと UNIX コマンドファイルを探す： find ファイルを処理する： sort と uniq コマンドを組み合わせる： | コマンドを実行した結果をファイルに書き出す指定した文字が含まれている行を抽出する： grep 100本ノック #045 （後半）頻出…

2019-11-30

開発記録 191130 Sat (UNIXコマンド、100本ノック #045)

言語処理100本ノック UniDic/MeCab/CaboCha

むちゃむちゃ腹が痛え。ココアがうまい。もう11月も終わりですよ。早くね？ 45. 動詞の格パターンの抽出今回用いている文章をコーパスと見なし，日本語の述語が取りうる格を調査したい．動詞を述語，動詞に係っている文節の助詞を格と考え，述語と格をタ…

2019-11-27

開発記録 191127 Wed (100本ノック #044, 頭が赤い魚を食べる猫)

言語処理100本ノック UniDic/MeCab/CaboCha

与えられた文の係り受け木を有向グラフとして可視化する。頭が赤い魚を食べる猫（リメイク） pic.twitter.com/VUrw0gOWMn— 中村明裕 (@nkmr_aki) 2018年8月18日このお茶目でかわいい猫さん、大好きです。頭が赤い魚を食べる猫 ↓ MeCab + IPA辞書 + CaboCh…