社会の中で使われた日本語を大量に集積する「コーパス」の構築が進んでいる。コンピューターで分析することで、言葉の隠れた傾向が一目瞭然(いちもくりょうぜん)になり、辞書編纂(じしょへんさん)などに威力を発揮するという。国立国語研究所(東京)は約一億語に上る「現代書き言葉コーパス」の整備を推進、神戸大の石川慎一郎准教授(応用言語学)は「子ども言葉コーパス」を作成中だ。(武藤邦生)
言葉を使う頻度や用法など、言語には、それを母国語として使う人にも分からない部分がある。コーパスはそれらを数値的に示すことができる。
例えば、「風景」「光景」は似た言葉だが、その違いを正確に説明するのは難しい。だがコーパスを分析した同研究所によると、「風景」は「田園風景」「正月風景」などと複合語になりやすいのに対し、「光景」にはそのような用法がほとんど見られないという。
コーパスを構築する同研究所は今年五月、白書やインターネット上の書き込みなど、著作権問題をクリアした約一千万語分を試験公開した。
一方、石川准教授は、小学生の教科書や作文、漫画雑誌をテキストに子ども言葉のコーパス作成に取り組む。
日本語でよく使われる言葉は、(1)する(2)いる(3)言う(4)こと(5)なる(6)ある-の順。子どもの作文に限ると(1)する(2)なる(3)ない(4)私(5)言う(6)お母さん-で、これだけでも大人言葉との違いが浮かび上がる=表参照。
注目すべきは六位の「お母さん」で、子どもにとって最も重要な人であることを示す結果となった。「お父さん」は、ぐっと下がって十七位。その存在感は「おじいちゃん」(二十一位)並みだった。
◇
また教科書と作文でも、使われる言葉は大きく違った。「食べる」は作文では二十五位でよく使われる言葉だが、教科書では百四位。逆に「調べる」は、教科書が五位に対して、作文は三百六十二位だった。
子どもは大人が考えるよりも「食べる」のが好きで、「調べなさい」と言われてもあまりそれを好まない-のだろうか。
「大人は『子どもは、きっとこういう言葉を使うだろう』という、お仕着せの言語観を持っている。だがコーパスを分析すれば、そのイメージが正しくないことが分かる」と石川准教授は話す。
◇
コーパスから得られた結果について、石川准教授は英語教育への活用を考える。中教審教育課程部会の中間報告によると、小学校五年生以上で英語の必修化が確実。だがどの単語を何語くらい教えるのか、指針は示されていないという。
「幼虫」(作文の百三十六位)や「さなぎ」(同二百五十七位)は子どもに重要な言葉だが、これらを表す英単語は「受験英語」では、まず暗記の対象外だろう。
石川准教授は「『英語で日常会話ができるように』と言われるが、子どもが本当に日常会話をするには、こうした言葉を知らないことには無理。今の英語教育がいかに偏っているかを示している」としている。
コーパス 書かれたり、話されたりする言葉を大量に集積したデータベース。質も重視され、書籍や新聞・雑誌などからバランスよく文章を抽出する必要がある。英語では60年代から構築されてきたが、日本語では十分なものが存在せず、国立国語研究所がコーパス整備計画「KOTONOHA(ことのは)」を推進。「現代書き言葉コーパス」もその一環。
(11/13 11:00)
日本語でよく使われることばベスト10
ソース