文脈や場面なしにことばを理解することはできないのではないかと思い、語用論に興味を持ち、教科書を読んでいます。端的にいうと空気が読めたい。 章末の練習問題の解答を書いてみます。問題を解くと、さらさらっと読んだだけではあまり理解できていなかった…
昨年末に初めて食べてから、麻辣燙が好きです。 ぼくはまだ日本でしか食べたことがないので、日本のお店の話です。 どんな食べ物? どうやって注文するの? 中国語分からないんですけど? どこにあるの? 王道鸭脖 池袋店(池袋) 無限麻辣湯 食べる薬膳スー…
自主課題(ということにしておきましょう。オシゴトでポチョポチョやっている開発で、どうするかなあと考えていて、家に帰って作った)。 課題 2つのデータフレームを比較したい。2つのデータフレームの行と列は共通だが、1つのデータフレームには欠損値が含…
お魚の本 (ゼロから作る Deep Learning ② 自然言語処理編) 2.3 カウントベースの手法 を読んで書いてみる。 2.4.1~2.4.3 相互情報量、次元削減、SVD メモ:行列の大きさを得る .shape メモ:辞書のループに .items() を使う方法 count_method_small.py を実…
今日は雨が降ったり雹が降ったり晴れたり曇ったり、山みたいな天気だった。 お魚の本 (ゼロから作る Deep Learning ② 自然言語処理編) 2.3 カウントベースの手法 を読んで書いてみる。 2.3.2~2.3.6 単語の共起行列、コサイン類似度を使った類似単語のランキ…
言語処理100本ノック #073 準備:scikit-learn をインストール お魚の本 (ゼロから作る Deep Learning ② 自然言語処理編) 2.3 カウントベースの手法 (2.3.1 コーパスの下準備):正規表現が分からない 言語処理100本ノック #073 # 73. 学習 72で抽出した素性…
先週末は新居を探しに行ったし、今週末は引越しの見積りの人が家に来たし、内定先に色々な書類も出した。着々と準備が進んでいる気がする。準備は進んでいるものの、新しい仕事への不安もつのる。 新型肺炎の拡散防止のために日本語教室も休みになってしまい…
今回はストップワードかどうかを判定するコードを書きました。さらに、実際どのような単語が多く出現しているのかも見てみました。 言語処理100本ノック #071 準備 解答 テスト出力 頻出単語を調べる コード 頻度分布
第7章 後半はちょっと後回しにすることにしまして、第8章。今回は機械学習に使うデータの整形をしました。 最近、メモアプリの ”Bear” を使い始めた。オシャレでシンプルで使いやすそうだし、マークダウンで書けるのが良さそうかなと思った。 でもはてなブロ…
今回は MongoDB を準備して、Python から登録・検索・削除をしてみました。 あとで気づいたんですが、 #065 以降は Python ではなくMongoDB のインタラクティブシェルを使うように書いてありますね。Python でも良いかな……。 言語処理100本ノック #064 準備:…
前回 に続き、Key-Value-Store (KVS) として LevelDB を使っていきます。前回 LevelDB チュートリアルを少し書いたので、今回はとてもスムーズにできました。 言語処理100本ノック #061: KVSの検索 解答 言語処理100本ノック #062: KVS内の反復処理 解答 言…
今回から 第7章: データベース です。今回は JSON 形式のデータを読んで、Key-Value-Store (KVS) データベースを作りました。LevelDB を初めて使いました。 言語処理100本ノック #060 LevelDB の準備 解答
今日はこれの他に、地域日本語教室の支援者向け講座を聞いたり、台湾のドキュメンタリー映画「漢字」を観たりした。そろそろ花粉症の薬をもらいに耳鼻科へ行かなあかん時期やんなあ。めんどいなあ。 前回 の続きです。 言語処理100本ノック #059: S式の解析 …
Stanford CoreNLP の解析結果に句構造解析の結果が入っていなかった。アノテータオプションでルールベースの共参照解析を指定することで解決した。 言語処理100本ノック #059 Stanford CoreNLP の CorefAnnotator 結果の違い Deterministic (ルールベース) …
CoreNLP 使うとき、1文しかなくてもごっつ時間かかるねんけど、なんでやろなあ。 2020/02/06 追記:アノテータオプション付けへんと、機械学習の計算ようさんしはるからや。ルールベースの共参照解析を指定すると、そないに時間かからへんで。 isomocha.hate…
読み途中の本はあるけど(「Pythonで学ぶあたらしい統計学の教科書」と「ゼロから作る Deep Learning ❷ 自然言語処理編」)、とりあえず 100本ノックを進めよう。 言語処理100本ノック #057: 係り受け解析 有向グラフ 解答 出力
「ゼロから作る Deep Learning ❷ 自然言語処理編」(斎藤康毅著、オーム社、オライリージャパン発行)を読みながら、ディープラーニングのコードを書いた。 絵が描けた(お魚の本を見ながら) pic.twitter.com/vOgvO5BSEZ— ξ ピージェイ 𐀠𐀋𐀂 (@xiPJ) 2020年1…
前回 の続き。 言語処理100本ノック #056 続き 解答 結果
言語処理100本ノック #054 解答 出力 言語処理100本ノック #055 解答 出力 言語処理100本ノック #056 解答は次回
今回は、Stanford CoreNLP という言語処理ツールを使う。Java で CoreNLP を動かす際にヒープスペースのエラーが出て対処した。それから、Python で XML 形式を読むためのライブラリ ElementTree を初めて使った。 言語処理100本ノック #053 Java をインスト…
前回 #051 は空白を単語の区切りとみなしていたが、hand-written rules などの - でつながった単語がある場合、-も単語の区切りを表しているよな? と今回解きながら思った。 あと、( ) , . " などの記号も単語に含めるべきではないのではないだろうか。 し…
唐突に変な話ですが、「エロ本」の形態素解析、unidic では「エロボン」として登録されているので1語になるんですが、ipa辞書を使うと「エロ」「ホン」と2語になるんですね。 さて、今回から言語処理100本ノック第6章に入ります。 調べたことメモ 関数とかの…
今回は重めかと思ったけど、やってみたらできないことはなかった。自分比で以前より関数が使えるようになってきた気がする。 言語処理100本ノック #049 ノート 完成 結果
新年快樂。 冬休みは帰省などでドタバタしていて、開発が全然進められませんでした(統計の本はちょっとだけ読んだ)。 そして、今日から仕事が始まったわけですけど、金曜まで頑張れるのか不安ですわあ……。 言語処理100本ノック #048 調べたことメモ Python…
前々回 191214 と 前回 191215 の続き。 Flask を使って、アップロードした dat ファイルのデータをグラフにして表示します。 UNIXコマンド:cpで上書きするか確認してくれ 勉強会の宿題③ ブラウザにグラフを表示 画像を埋め込む方法、 static/ python コー…
昼は Python 勉強会お疲れさまでした。アドバイスを頂けてよかったです。 Flask は一旦置いておいて、ばじる氏にいただいたサンプルデータをプロット(グラフ描画)してみましょう。 勉強会の宿題② dat ファイルを解析してみようの続き タブ区切りファイルか…
友人とのランチに向かう途中、キャンセルの連絡が朝来ていたことに気づいて、ちゃんと確認していなかった自分に呆れながらラーメン食べた。おいしかった。 勉強会の宿題② dat ファイルを解析してみようの続き Python コマンドライン引数 [まだ] X軸・Y軸両方…
なぜ物理を勉強し、今は言語とデータ分析を学ぼうとしているのかという問いには、日常のいろいろな現象を理解したいという共通の動機があると思う。 研究と人生 マスターテクストアプローチ 気になることば 「語り」「自分語り」 勉強会の宿題② dat ファイル…
ああっ、今日も帰りにコーヒー豆を買うのを忘れた。 やったこと やったこと 統計(ここまで座学) 勉強会の宿題① Flask を触ってみよう "Hello" を時間に応じて変える VS Code のエラー表示を解消 勉強会の宿題② dat ファイルを解析してみよう 気象データの…
統計学の教科書を入手しました。 表紙に書いてあるとおり、基礎から積んでいく感じです。 便利なツールの使い方よりも、何をどうやればいいのか理論を固めたほうがいいかなと思いまして。たぶんやりたいことが明確なら、ツールの使い方はググればわかるよね…