昨年書いた記事をQiitaから移植し、読み返しながら、続きをやろうと思った。 isomocha.hatenablog.com

やったこと

やったこと
副詞分析の準備
『の』度のヒストグラム
困ったことに気がついた。このままではアカンやん。
- どないしよー

副詞分析の準備

1年ぐらい前なので、私すら私じゃないの。思い出し、探し、書いたやつを読みながら記憶を復元しようとする。

matplotlib

先日の騒動で Python のライブラリを一掃してしまったので、改めてオフィシャルリリースをインストールした。

python -m pip install -U pip
python -m pip install -U matplotlib

分析ファイルの場所

~/GitHub/hello-world/study_adverb+no+noun/に置いていたんだった。GitHubの使い方よく分かってなくて、古いバージョンで新しいバージョンを上書きしたりしちゃったりしないか不安なんですよねえ。

図とかあると何かと面倒なので、ローカルに移した。~/xue2/1811_study_adverb+no+noun/

何をするかというと

去年書いた記事を見たカソクキセンパイに、「『の』付属率か『の』度を計算して、ヒストグラムで頻度の分布を出したら傾向見えるんじゃない？」とアドバイスをいただいたので、ちょっとやってみようと思う。

『の』度のヒストグラム

ある副詞について、

『の』度 ≡（コーパス全体で〈副詞〉 + 「の」 + 〈名詞〉 として現れる数）/（取得した100,000件の副詞の中に現れる数）`

と定義する。

『の』度ヒストグラム

取得した100,000件の副詞の中に現れる数が100件以上の（それなりに使われる頻度が高い）ものについて、『の』度を計算した。105個の副詞の『の』度の頻度分布は下のようになる。

f:id:piijey:20191104203908p:plain — 『の』度ヒストグラム

『の』度が高いものほど、「の」を使って名詞を修飾する用法が多くなる。

順位	キー	100,000件内	の+名詞	『の』度
1	数多く	830	121	6.86
2	たいてい	1108	178	6.22
3	せっかく	680	154	4.42
4	たっぷり	537	129	4.16
5	いっそう	1360	342	3.98

例

「の」で名詞を修飾する許容度は、『の』度の順に並べると、次のようになる。

🙅🏻‍♀️ もっと（0.00230）＜いきなり（0.317）＜まさか（0.858）＜かなり（1.15） 🙆🏻‍♀️

上位と下位の一覧

上位 10個

順位	キー	『の』度
1	数多く	6.86
2	たいてい	6.22
3	せっかく	4.42
4	たっぷり	4.16
5	いっそう	3.98
6	よほど	2.70
7	初めて	2.66
8	かつて	2.34
9	突然	1.64
10	一番	1.64

下位 10個

順位	キー	『の』度
1	もう	0.000813
2	必ず	0.00143
3	どう	0.00166
4	まあ	0.00169
5	もっと	0.00230
6	まず	0.00234
7	なるほど	0.00327
8	ともかく	0.00328
9	ごく	0.00334
10	もはや	0.00352

困ったことに気がついた。このままではアカンやん。

中納言では、副詞のデータは100,000件までしかダウンロードできなかった。〈副詞〉 + 「の」 + 〈名詞〉で取得したテキストファイルを眺めていたところ、レジスターが上から順に「図書館・書籍」「特定目的・ベストセラー」「特定目的・知恵袋」「特定目的・法律」…と並んでいる。一方、副詞で取得したテキストファイルには「図書館・書籍」しかない。

つまり、副詞のデータ100,000件は、「レジスター（メディアやジャンル）」に偏りがある。ちょっとパッとは分からないが、それ以外にも偏りがあるかもしれない。異なったデータを使って『の』度を算出するのは、このままでは妥当とは言えないだろう。

どないしよー

しまいにしてまう？

レジスターを「図書館・書籍」に限定し、〈副詞〉 + 「の」 + 〈名詞〉のデータも、レジスターが「図書館・書籍」となっているもののみ使う。→レジスター以外にも出版年などの偏りがある懸念があり、『の』度の妥当性に疑問が残る。
副詞のデータ100,000件のみを使う。形態素解析して、〈副詞〉 + 「の」 + 〈名詞〉を探し出す。→『の』度の算出は可能だが、「現代の日本語の書き言葉をまんべんなく調べる」という目標は諦めることになる。
データを取得し直す。BCCWJには副詞が1,830,329件あるようなので、何十回かに分ければ全副詞データが取得できるやろ。ちょっとめんどいけど
妥当性に疑問があるが、ひとまずこれでおしまいにする。
しばらく寝かせる。100本ノックもやりたいしなぁ

アイソモカ

知の遊牧民の開発記録

開発記録 191104 Mon（副詞の『の』度をはかる）

やったこと

副詞分析の準備

matplotlib

分析ファイルの場所

何をするかというと

『の』度のヒストグラム

『の』度ヒストグラム

例

上位と下位の一覧

困ったことに気がついた。このままではアカンやん。

どないしよー

やったこと

副詞分析の準備

matplotlib

分析ファイルの場所

何をするかというと

『の』度のヒストグラム

『の』度 ヒストグラム

例

上位と下位の一覧

困ったことに気がついた。このままではアカンやん。

どないしよー

『の』度ヒストグラム