アイソモカ

知の遊牧民の開発記録

開発記録 191104 Mon(副詞の『の』度をはかる)

昨年書いた記事をQiitaから移植し、読み返しながら、続きをやろうと思った。 isomocha.hatenablog.com

やったこと

副詞分析の準備

1年ぐらい前なので、私すら私じゃないの。思い出し、探し、書いたやつを読みながら記憶を復元しようとする。

matplotlib

先日の騒動で Python のライブラリを一掃してしまったので、改めて オフィシャルリリース をインストールした。

python -m pip install -U pip
python -m pip install -U matplotlib

分析ファイルの場所

~/GitHub/hello-world/study_adverb+no+noun/に置いていたんだった。GitHubの使い方よく分かってなくて、古いバージョンで新しいバージョンを上書きしたりしちゃったりしないか不安なんですよねえ。

図とかあると何かと面倒なので、ローカルに移した。~/xue2/1811_study_adverb+no+noun/

何をするかというと

去年書いた記事を見た カソクキセンパイ に、「『の』付属率か『の』度を計算して、ヒストグラムで頻度の分布を出したら傾向見えるんじゃない?」とアドバイスをいただいたので、ちょっとやってみようと思う。

『の』度のヒストグラム

ある副詞について、

『の』度 ≡(コーパス全体で〈副詞〉 + 「の」 + 〈名詞〉 として現れる数)/(取得した100,000件の副詞の中に現れる数)`

と定義する。

『の』度 ヒストグラム

取得した100,000件の副詞の中に現れる数が100件以上の(それなりに使われる頻度が高い)ものについて、『の』度を計算した。105個の副詞の『の』度の頻度分布は下のようになる。

f:id:piijey:20191104203908p:plain
『の』度ヒストグラム

『の』度が高いものほど、「の」を使って名詞を修飾する用法が多くなる。

順位 キー 100,000件内 の+名詞 『の』度
1 数多く 830 121 6.86
2 たいてい 1108 178 6.22
3 せっかく 680 154 4.42
4 たっぷり 537 129 4.16
5 いっそう 1360 342 3.98

「の」で名詞を修飾する許容度は、『の』度の順に並べると、次のようになる。

🙅🏻‍♀️ もっと(0.00230) < いきなり(0.317) < まさか(0.858) < かなり(1.15) 🙆🏻‍♀️

上位と下位の一覧

上位 10個

順位 キー 『の』度
1 数多く 6.86
2 たいてい 6.22
3 せっかく 4.42
4 たっぷり 4.16
5 いっそう 3.98
6 よほど 2.70
7 初めて 2.66
8 かつて 2.34
9 突然 1.64
10 一番 1.64

下位 10個

順位 キー 『の』度
1 もう 0.000813
2 必ず 0.00143
3 どう 0.00166
4 まあ 0.00169
5 もっと 0.00230
6 まず 0.00234
7 なるほど 0.00327
8 ともかく 0.00328
9 ごく 0.00334
10 もはや 0.00352

困ったことに気がついた。このままではアカンやん。

中納言では、副詞のデータは100,000件までしかダウンロードできなかった。〈副詞〉 + 「の」 + 〈名詞〉 で取得したテキストファイルを眺めていたところ、レジスターが上から順に「図書館・書籍」「特定目的・ベストセラー」「特定目的・知恵袋」「特定目的・法律」…と並んでいる。一方、副詞で取得したテキストファイルには「図書館・書籍」しかない。

つまり、副詞のデータ100,000件は、「レジスター(メディアやジャンル)」に偏りがある。ちょっとパッとは分からないが、それ以外にも偏りがあるかもしれない。 異なったデータを使って『の』度を算出するのは、このままでは妥当とは言えないだろう。

どないしよー

しまいにしてまう?

  • レジスターを「図書館・書籍」に限定し、〈副詞〉 + 「の」 + 〈名詞〉のデータも、レジスターが「図書館・書籍」となっているもののみ使う。→レジスター以外にも出版年などの偏りがある懸念があり、『の』度の妥当性に疑問が残る。
  • 副詞のデータ100,000件のみを使う。形態素解析して、〈副詞〉 + 「の」 + 〈名詞〉を探し出す。→『の』度の算出は可能だが、「現代の日本語の書き言葉をまんべんなく調べる」という目標は諦めることになる。
  • データを取得し直す。BCCWJには副詞が1,830,329件あるようなので、何十回かに分ければ全副詞データが取得できるやろ。ちょっとめんどいけど
  • 妥当性に疑問があるが、ひとまずこれでおしまいにする。
  • しばらく寝かせる。100本ノックもやりたいしなぁ