アイソモカ

知の遊牧民の開発記録

言語処理100本ノック

開発記録 200304 Wed (100本ノック #073, Scikit-Learn インストールだけ / お魚の本 2章 カウントベース下準備)

言語処理100本ノック #073 準備:scikit-learn をインストール お魚の本 (ゼロから作る Deep Learning ② 自然言語処理編) 2.3 カウントベースの手法 (2.3.1 コーパスの下準備):正規表現が分からない 言語処理100本ノック #073 # 73. 学習 72で抽出した素性…

開発記録 200229 Sat (100本ノック #072, 素性抽出)

先週末は新居を探しに行ったし、今週末は引越しの見積りの人が家に来たし、内定先に色々な書類も出した。着々と準備が進んでいる気がする。準備は進んでいるものの、新しい仕事への不安もつのる。 新型肺炎の拡散防止のために日本語教室も休みになってしまい…

開発記録 200227 Thu (100本ノック #071, ストップワード)

今回はストップワードかどうかを判定するコードを書きました。さらに、実際どのような単語が多く出現しているのかも見てみました。 言語処理100本ノック #071 準備 解答 テスト出力 頻出単語を調べる コード 頻度分布

開発記録 200219 Wed (100本ノック #070, 機械学習データの整形)

第7章 後半はちょっと後回しにすることにしまして、第8章。今回は機械学習に使うデータの整形をしました。 最近、メモアプリの ”Bear” を使い始めた。オシャレでシンプルで使いやすそうだし、マークダウンで書けるのが良さそうかなと思った。 でもはてなブロ…

開発記録 200212 Wed (100本ノック #064 前半, MongoDB)

今回は MongoDB を準備して、Python から登録・検索・削除をしてみました。 あとで気づいたんですが、 #065 以降は Python ではなくMongoDB のインタラクティブシェルを使うように書いてありますね。Python でも良いかな……。 言語処理100本ノック #064 準備:…

開発記録 200211 Tue (100本ノック #061, #062, #063, LevelDB)

前回 に続き、Key-Value-Store (KVS) として LevelDB を使っていきます。前回 LevelDB チュートリアルを少し書いたので、今回はとてもスムーズにできました。 言語処理100本ノック #061: KVSの検索 解答 言語処理100本ノック #062: KVS内の反復処理 解答 言…

開発記録 200210 Mon (100本ノック #060, LevelDB)

今回から 第7章: データベース です。今回は JSON 形式のデータを読んで、Key-Value-Store (KVS) データベースを作りました。LevelDB を初めて使いました。 言語処理100本ノック #060 LevelDB の準備 解答

開発記録 200608 Sat (100本ノック #059, Stanford CoreNLP)

今日はこれの他に、地域日本語教室の支援者向け講座を聞いたり、台湾のドキュメンタリー映画「漢字」を観たりした。そろそろ花粉症の薬をもらいに耳鼻科へ行かなあかん時期やんなあ。めんどいなあ。 前回 の続きです。 言語処理100本ノック #059: S式の解析 …

開発記録 200206 Thu (100本ノック #059 途中, Stanford CoreNLP CorefAnnotator)

Stanford CoreNLP の解析結果に句構造解析の結果が入っていなかった。アノテータオプションでルールベースの共参照解析を指定することで解決した。 言語処理100本ノック #059 Stanford CoreNLP の CorefAnnotator 結果の違い Deterministic (ルールベース) …

開発記録 200205 Wed (100本ノック #048, Stanford CoreNLP)

CoreNLP 使うとき、1文しかなくてもごっつ時間かかるねんけど、なんでやろなあ。 2020/02/06 追記:アノテータオプション付けへんと、機械学習の計算ようさんしはるからや。ルールベースの共参照解析を指定すると、そないに時間かからへんで。 isomocha.hate…

開発記録 200204 Tue (100本ノック #057, Stanford CoreNLP)

読み途中の本はあるけど(「Pythonで学ぶあたらしい統計学の教科書」と「ゼロから作る Deep Learning ❷ 自然言語処理編」)、とりあえず 100本ノックを進めよう。 言語処理100本ノック #057: 係り受け解析 有向グラフ 解答 出力

開発記録 200128 Tue (100本ノック #056)

前回 の続き。 言語処理100本ノック #056 続き 解答 結果

開発記録 200127 Mon (100本ノック #054, #055, #056途中)

言語処理100本ノック #054 解答 出力 言語処理100本ノック #055 解答 出力 言語処理100本ノック #056 解答は次回

開発記録 200126 Mon (100本ノック #053)

今回は、Stanford CoreNLP という言語処理ツールを使う。Java で CoreNLP を動かす際にヒープスペースのエラーが出て対処した。それから、Python で XML 形式を読むためのライブラリ ElementTree を初めて使った。 言語処理100本ノック #053 Java をインスト…

開発記録 200113 Mon (Stemming, 100本ノック #052)

前回 #051 は空白を単語の区切りとみなしていたが、hand-written rules などの - でつながった単語がある場合、-も単語の区切りを表しているよな? と今回解きながら思った。 あと、( ) , . " などの記号も単語に含めるべきではないのではないだろうか。 し…

開発記録 200113 Mon (100本ノック #050, #051)

唐突に変な話ですが、「エロ本」の形態素解析、unidic では「エロボン」として登録されているので1語になるんですが、ipa辞書を使うと「エロ」「ホン」と2語になるんですね。 さて、今回から言語処理100本ノック第6章に入ります。 調べたことメモ 関数とかの…

開発記録 200112 Sun (100本ノック #049)

今回は重めかと思ったけど、やってみたらできないことはなかった。自分比で以前より関数が使えるようになってきた気がする。 言語処理100本ノック #049 ノート 完成 結果

開発記録 200106 Mon (100本ノック #048)

新年快樂。 冬休みは帰省などでドタバタしていて、開発が全然進められませんでした(統計の本はちょっとだけ読んだ)。 そして、今日から仕事が始まったわけですけど、金曜まで頑張れるのか不安ですわあ……。 言語処理100本ノック #048 調べたことメモ Python…

開発記録 191207 Sat (100本ノック #047)

みんなのよく言う「マイニング」って何なんやろ。文章を分析するのに、テキストマイニング以外の何かがあるのだろうか。 前回の続き。 isomocha.hatenablog.com やったこと やったこと 調べたことメモ len() で調べる要素数は1から始まる リストを後ろから取…

開発記録 191205 Thu (100本ノック #047)

滷味包でスペアリブを煮ている。昨日から煮始めて、だいぶいい感じになってきた。 47. 機能動詞構文のマイニング 動詞のヲ格にサ変接続名詞が入っている場合のみに着目したい.46のプログラムを以下の仕様を満たすように改変せよ. 「サ変接続名詞+を(助詞…

開発記録 191201 Sun (100本ノック #046)

最近のノリノリ開発 BGM はアヴィーチー。Amazon Music のプレイリストで聴いて気に入った。 46. 動詞の格フレーム情報の抽出 45のプログラムを改変し,述語と格パターンに続けて項(述語に係っている文節そのもの)をタブ区切り形式で出力せよ.45の仕様に…

開発記録 191201 Sun (100本ノック #045)

やったこと やったこと UNIX コマンド ファイルを探す: find ファイルを処理する: sort と uniq コマンドを組み合わせる: | コマンドを実行した結果をファイルに書き出す 指定した文字が含まれている行を抽出する: grep 100本ノック #045 (後半) 頻出…

開発記録 191130 Sat (UNIXコマンド、100本ノック #045)

むちゃむちゃ腹が痛え。ココアがうまい。 もう11月も終わりですよ。早くね? 45. 動詞の格パターンの抽出 今回用いている文章をコーパスと見なし,日本語の述語が取りうる格を調査したい. 動詞を述語,動詞に係っている文節の助詞を格と考え,述語と格をタ…

開発記録 191127 Wed (100本ノック #044, 頭が赤い魚を食べる猫)

与えられた文の係り受け木を有向グラフとして可視化する。 頭が赤い魚を食べる猫(リメイク) pic.twitter.com/VUrw0gOWMn— 中村明裕 (@nkmr_aki) 2018年8月18日 このお茶目でかわいい猫さん、大好きです。 頭が赤い魚を食べる猫 ↓ MeCab + IPA辞書 + CaboCh…

開発記録 191126 Tue (100本ノック #044、懐かしい音楽を聴く)

44. 係り受け木の可視化 与えられた文の係り受け木を有向グラフとして可視化せよ.可視化には,係り受け木をDOT言語に変換し,Graphvizを用いるとよい.また,Pythonから有向グラフを直接的に可視化するには,pydotを使うとよい. 係り受け木(画像検索する…

開発記録 191125 Mon (100本ノック#043)

一時期は本当に寒くて、真冬になったらどうなってしまうのかと震えていたが、ここ数日は比較的暖かい。 今日はこれをやりました。 43. 名詞を含む文節が動詞を含む文節に係るものを抽出 名詞を含む文節が,動詞を含む文節に係るとき,これらをタブ区切り形式…

開発記録 191124 Sun (100本ノック #042)

中文老師にいただいた台湾土産の乾麺「曽拌麵 香蔥椒麻」を食べた。油そば。ちょうどよい辛さとネギ油の香りがとてもよく、弾力がありピロピロした平めんも美味しかった。 100本ノック #042 42. 係り元と係り先の文節の表示 係り元の文節と係り先の文節のテ…

開発記録191124 Sun (100本ノック#041, UniDic)

自然言語処理100本ノック #041 を仕上げ、形態素解析辞書 UniDic を導入した。 やったこと やったこと 100本ノック #041 コードを整理した 完成 形態素解析用の辞書をIPA から UniDic に変更 UniDicの出力を編集 確認 MeCab のデフォルト辞書を設定 ユーザー…

開発記録 191028 Mon (100本ノック#041)

文節を表すクラス Chunk の実装。 メンバ変数のうち、形態素(Morphオブジェクト)のリスト(morphs)と、係り先文節インデックス番号(dst)が入れられた。 係り元文節インデックス番号のリスト(srcs)は、まだ。

開発記録 191027 Sun (100本ノック#040 & パネル塗装)

自然言語処理100本ノックの続きと、 先日製作したデスクパネルの塗装。 昨日と今日やったこと 昨日と今日やったこと 実装の続き ちょっと気になるところ ひとまず完成 答え合わせ クラスの特殊メソッドを定義する def __str__(self): 各文をMorphオブジェク…