アイソモカ

知の遊牧民の開発記録

語種とモーラの種類の関係を調べたい(UniDic)(前半)

Qiita からの移植記事です。

qiita.com

*このプロジェクトは取り組み中です。

計量言語学を勉強し始めて、「データで学ぶ日本語入門」(計量国語学会編、朝倉書店)を読んでいる。 先日、計量国語学会の特別講義で第1章から第5章までの解説を聞くことができた。 第1章の音声・音韻−現代の日本語には何種類の音があるの? どの音がよく使用されているの?』の部分で、「和語」「漢語」「外来語」の3つの語種では、使用されるモーラの種類が違うかもしれない。この本で勉強する初学者は、手を動かして比較してみたらいいかも〜と聞いた。やってみよう。

やること

「和語」「漢語」「外来語」の3つの語種のモーラを比較する。 比較する語の語種と読みは、UniDic を用いる。

準備

環境を整えて、それから UniDic をざっと眺める。

環境

  1. MeCab 0.996 と UniDic(ver. 2.1.2) をインストールした。
  2. MeCabの設定ファイルを編集して、UniDicを使えるようにした。 参考 👉 MeCabとUNIDICをUbuntu 14.04にインストール - Yura YuLife
  3. MeCabの設定ファイルを編集して、語種を表示できるようにした。参考 👉 MeCab + Unidic を使って単語の語種(和語、漢語)を表示する - Qiita
  4. ~/unidic-mecab-2.1.2_src/lex.csv を作業フォルダにコピーした。 ちなみに ~/unidic-mecab-2.1.2_src/unidic-mecab.pdf は「unidic-mecab ユーザーズマニュアル」
# MeCab で「こおりつけ!」を解析した結果
こおりつけ      コーリツケ      コオリツク      凍り付く        動詞-一般       五段-カ行       命令形  和
!                      !      補助記号-句点                   記号
EOS

今回は MeCab は使わないかもしれない。

UniDic を読んでみる

0行目から756462行目まで。 ランダムに10行表示してみる。

# study_unidic.py
# coding: UTF-8
import random
ranli = []
for ir in range(10):
    ranli.append(random.randrange(0, 756462+1))

with open("./data/lex.csv", 'r', encoding = "UTF-8") as f:
    for i, lin in enumerate(f):
        if i in ranli:
            print(lin, end="")
    print(i)
# 結果
送りこめん,1260,1260,10930,動詞,一般,*,*,下一段-マ行,連体形-撥音便,オクリコム,送り込む,送りこめん,オクリコメン,送りこめる,オクリコメル,和,*,*,*,*
思い取ろ,1405,1405,10896,動詞,一般,*,*,五段-ラ行,意志推量形,オモイトル,思い取る,思い取ろ,オモイトロ,思い取る,オモイトル,和,*,*,*,*
居ろっ,3913,3913,10963,動詞,非自立可能,*,*,五段-ラ行,意志推量形,オル,居る,居ろっ,オロッ,居る,オル,和,*,*,*,*
規則,5146,5146,7239,名詞,普通名詞,一般,*,*,*,キソク,規則,規則,キソク,規則,キソク,漢,*,*,*,*
くぐまる,1414,1414,11824,動詞,一般,*,*,五段-ラ行,終止形-一般,クグマル,屈まる,くぐまる,クグマル,くぐまる,クグマル,和,*,*,*,*
こまかろう,5164,5164,10560,形容詞,一般,*,*,形容詞,意志推量形,コマイ,細い,こまかろう,コマカロー,こまい,コマイ,和,*,*,*,*
しずみゃ,1377,1377,12251,動詞,一般,*,*,五段-マ行,仮定形-融合,シズム,沈む,しずみゃ,シズミャ,しずむ,シズム,和,*,*,*,*
とりちらせ,1321,1321,12666,動詞,一般,*,*,五段-サ行,命令形,トリチラス,取り散らす,とりちらせ,トリチラセ,とりちらす,トリチラス,和,*,*,*,*
拓い,1679,1679,12361,動詞,一般,*,*,文語四段-カ行,連用形-イ音便,ヒラク,開く,拓い,ヒライ,拓く,ヒラク,和,*,*,*,*
振替え,1078,1078,12412,動詞,一般,*,*,下一段-ア行,未然形-一般,フリカエル,振り替える,振替え,フリカエ,振替える,フリカエル,和,*,*,*,*
756462

うわ、和語ばっかりだし動詞しかねぇな。

UniDic にはどんな語種が多いのか

説明すっとばしていきなり結果。 fig_goshu_unidic.png

|語種|収録数|割合| |:--|--:|--:| |和|512,807|67.79 %| |固|107,114|14.16 %| |漢|67,055|8.86 %| |外|37,645|4.98 %| |混|27,306|3.61 %| |記号|4,528|0.60 %| |※| 6| 0.00 %| |不明| 2| 0.00 %| やっぱり。和語が多い結果になった。 固有名詞が多いのも形態素解析用の辞書の特徴かも。

UniDic にはどんな品詞が多いのか

ついでに品詞も見てみました。 fig_hinshi_unidic.png

品詞 収録数 割合 NVMI メモ
動詞 426,404 56.37 % V
名詞 277,300 36.66 % N
形容詞 33,486 4.43 % M
副詞 7,430 0.98 % M
形状詞 3,921 0.52 % M いわゆる「形容動詞」「な形容詞」
接尾辞 1,925 0.25 %
感動詞 1,344 0.18 % I
記号 1,196 0.16 %
助動詞 1,189 0.16 %
補助記号 863 0.11 %
代名詞 430 0.06 % N
助詞 370 0.05 %
接頭辞 365 0.05 %
連体詞 135 0.02 % M
接続詞 104 0.01 % I
空白 1 0.00 %

* "接尾辞-名詞的"… "物理学者"の"者"、"接尾辞-形容詞的"…"ガンになりにくい"の"にくい"

動詞が多いのは活用形を網羅しているからだろうな。

上の割合は「日本語の中での割合」とは異なる、ということは、ここで押さえておかなければならない。 国語辞典で一つの項目になっていたり、語彙調査で一つの語彙と数えられたりするものでも、表記や出現形が異なれば、別の語として収録される。 国語辞典は紙面の都合で掲載数に限りがあるし、国語辞典に載っていても語彙調査で見られないものもあるだろう。

今回は、「和語」「漢語」「外来語」の3つの語種のモーラを比較したいわけだが、調査対象に動詞(の活用形)が多いのは問題があるだろうか。あるかも知れない。けれども、動詞の割合というのも文体によって変わるって勉強したよね〜どうしようね。

っていうことで、ひとまず気にしないでやってみることにする。 (続く)