昨年書いた記事をQiitaから移植し、読み返しながら、続きをやろうと思った。 isomocha.hatenablog.com
やったこと
副詞分析の準備
1年ぐらい前なので、私すら私じゃないの。思い出し、探し、書いたやつを読みながら記憶を復元しようとする。
matplotlib
先日の騒動で Python のライブラリを一掃してしまったので、改めて オフィシャルリリース をインストールした。
python -m pip install -U pip python -m pip install -U matplotlib
分析ファイルの場所
~/GitHub/hello-world/study_adverb+no+noun/
に置いていたんだった。GitHubの使い方よく分かってなくて、古いバージョンで新しいバージョンを上書きしたりしちゃったりしないか不安なんですよねえ。
図とかあると何かと面倒なので、ローカルに移した。~/xue2/1811_study_adverb+no+noun/
何をするかというと
去年書いた記事を見た カソクキセンパイ に、「『の』付属率か『の』度を計算して、ヒストグラムで頻度の分布を出したら傾向見えるんじゃない?」とアドバイスをいただいたので、ちょっとやってみようと思う。
『の』度のヒストグラム
ある副詞について、
『の』度 ≡(コーパス全体で〈副詞〉 + 「の」 + 〈名詞〉 として現れる数)/(取得した100,000件の副詞の中に現れる数)`
と定義する。
『の』度 ヒストグラム
取得した100,000件の副詞の中に現れる数が100件以上の(それなりに使われる頻度が高い)ものについて、『の』度を計算した。105個の副詞の『の』度の頻度分布は下のようになる。
『の』度が高いものほど、「の」を使って名詞を修飾する用法が多くなる。
順位 | キー | 100,000件内 | の+名詞 | 『の』度 |
---|---|---|---|---|
1 | 数多く | 830 | 121 | 6.86 |
2 | たいてい | 1108 | 178 | 6.22 |
3 | せっかく | 680 | 154 | 4.42 |
4 | たっぷり | 537 | 129 | 4.16 |
5 | いっそう | 1360 | 342 | 3.98 |
例
「の」で名詞を修飾する許容度は、『の』度の順に並べると、次のようになる。
🙅🏻♀️ もっと(0.00230) < いきなり(0.317) < まさか(0.858) < かなり(1.15) 🙆🏻♀️
上位と下位の一覧
上位 10個
順位 | キー | 『の』度 |
---|---|---|
1 | 数多く | 6.86 |
2 | たいてい | 6.22 |
3 | せっかく | 4.42 |
4 | たっぷり | 4.16 |
5 | いっそう | 3.98 |
6 | よほど | 2.70 |
7 | 初めて | 2.66 |
8 | かつて | 2.34 |
9 | 突然 | 1.64 |
10 | 一番 | 1.64 |
下位 10個
順位 | キー | 『の』度 |
---|---|---|
1 | もう | 0.000813 |
2 | 必ず | 0.00143 |
3 | どう | 0.00166 |
4 | まあ | 0.00169 |
5 | もっと | 0.00230 |
6 | まず | 0.00234 |
7 | なるほど | 0.00327 |
8 | ともかく | 0.00328 |
9 | ごく | 0.00334 |
10 | もはや | 0.00352 |
困ったことに気がついた。このままではアカンやん。
中納言では、副詞のデータは100,000件までしかダウンロードできなかった。〈副詞〉 + 「の」 + 〈名詞〉 で取得したテキストファイルを眺めていたところ、レジスターが上から順に「図書館・書籍」「特定目的・ベストセラー」「特定目的・知恵袋」「特定目的・法律」…と並んでいる。一方、副詞で取得したテキストファイルには「図書館・書籍」しかない。
つまり、副詞のデータ100,000件は、「レジスター(メディアやジャンル)」に偏りがある。ちょっとパッとは分からないが、それ以外にも偏りがあるかもしれない。 異なったデータを使って『の』度を算出するのは、このままでは妥当とは言えないだろう。
どないしよー
しまいにしてまう?
- レジスターを「図書館・書籍」に限定し、〈副詞〉 + 「の」 + 〈名詞〉のデータも、レジスターが「図書館・書籍」となっているもののみ使う。→レジスター以外にも出版年などの偏りがある懸念があり、『の』度の妥当性に疑問が残る。
- 副詞のデータ100,000件のみを使う。形態素解析して、〈副詞〉 + 「の」 + 〈名詞〉を探し出す。→『の』度の算出は可能だが、「現代の日本語の書き言葉をまんべんなく調べる」という目標は諦めることになる。
- データを取得し直す。BCCWJには副詞が1,830,329件あるようなので、何十回かに分ければ全副詞データが取得できるやろ。ちょっとめんどいけど
- 妥当性に疑問があるが、ひとまずこれでおしまいにする。
- しばらく寝かせる。100本ノックもやりたいしなぁ