検索
カテゴリ
以前の記事
2010年 12月 2009年 01月 2008年 11月 2008年 10月 2008年 09月 2008年 08月 2008年 07月 2008年 06月 2008年 05月 2008年 04月 2008年 03月 2008年 02月 2008年 01月 2007年 12月 2007年 11月 2007年 10月 2007年 08月 2007年 07月 2007年 06月 2007年 05月 2007年 04月 2007年 03月 2007年 02月 2007年 01月 2006年 12月 2006年 11月 2006年 10月 2006年 09月 2006年 08月 2006年 07月 2006年 06月 2006年 05月 2006年 04月 2006年 03月 2006年 02月 2006年 01月 2005年 12月 2005年 11月 2005年 10月 2005年 09月 2005年 08月 2005年 07月 2005年 06月 2005年 05月 2005年 04月 2005年 03月 2005年 02月 2005年 01月 2004年 12月 2004年 11月 2004年 10月 2004年 09月 2004年 08月 2004年 07月 2004年 06月 2004年 05月 2004年 04月 フォロー中のブログ
研究者向け・役立つ情報 2輪車と剣道・居合道の稽... ~日本書紀を楽しもう~ OFF 高校英語教師の授業日記 へっぽこ講師のつぶやき 言語学のかほり 力量的房間 認知言語学的メモ 人間到処有青山Ⅱ 研究室の窓 たま〜に趣味でごがく 日本語教師・奥村隆信 ひ... リンク集
言語学参考文献
一言語学徒の書庫 学会 日本言語学会 日本英語学会 日本語学会(旧国語学会) 日本独文学会 日本フランス語学会 日本ロマンス語学会 日本ウラル学会 日本イスパニヤ学会 日本音声学会 日本認知言語学会 日本英文学会 関西言語学会 言語科学会 計量国語学会 朝鮮語研究会 日本語文法学会 日本機能言語学会 日本語教育学会 社会言語科学会 国語教育史学会 日本コミュニケーション障害学会 朝鮮語教育研究会 ドイツ語生成文法理論研究会 意味論研究会 英語英語教育学会 英語コーパス学会 英語語法文法学会 英語史研究会 形態論・レキシコン研究会 語彙・辞書研究会 第二言語習得研究会 日本言語文化研究会 日本英語英文学会 日本中世英語英文学会 東北英文学会 日本言語政策学会 中部言語学会 西日本言語学会 東アジア言語学会 日本実用英語学会 日本英語表現学会 日本ドイツ語情報処理学会 研究機関・研究室 国文学研究資料館 小樽商科大学言語センター 北海道大学文学部言語文学専攻 札幌学院大学人文学部 弘前大学人文学部 弘前大学教育学部英語科教室 岩手大学教育学部国語科 岩手大学教育学部英語科 東北大学文学部英語学研究室 東北大学文学部言語学研究室 東北学院大学文学部 筑波大学現代語・現代文化系 筑波大学英語学研究室 群馬県立女子大学英文科 埼玉大学教養学部 慶應義塾大学言語文化研究所 国立国語研究所 上智大学国際言語情報研究所 上智大学言語学会 東京学芸大学英語科教育学研究室 東京外国語大学アジア・アフリカ言語文化研究所 東京大学言語学研究室 東京大学英米文学研究室 東京大学言語情報科学専攻 東京大学東洋文化研究所 青山学院大学文学部英米文学科 学習院大学文学部英米文学科 東洋大学文学部英米文学科 立教大学文学部英米文学科 専修大学文学部英語英米文学科 文教大学文学部英米語英米文学科 日本大学独文学研究室 神田外語大学 麗澤大学 明海大学 新潟大学人文学部 富山大学人文学部朝鮮語文コース 名古屋大学国際言語文化研究科 名古屋大学言語学研究室 名古屋大学日本語学研究室 南山大学言語研究センター 京都産業大学外国語学部 京都大学文学部言語学研究室 大阪大学文学部英語学研究室 大阪外国語大学 大阪外国語大学言語社会学会 大阪外国語大学フィールドワーク研究会 神戸大学国際文化学部言語論大講座 神戸松蔭女子学院大学 郡司隆男研究室 岡山大学文学部言語学研究室 広島大学英語学英米文学研究室 広島大学英文学会 愛媛大学塚本秀樹研究室 北九州市立大学外国語学部 九州大学言語学研究室 九州大学国語学国文学研究室 熊本大学言語学研究室 熊本大学英語英文学分野 鹿児島大学教育学部国語科 沖縄国際大学日本文化学科 沖縄国際大学英米言語文化学科 琉球大学法文学部国際言語文化学科 琉球大学言語学コース 沖縄言語研究センター コーパス・情報源 British National Corpus 小学館コーパスネットワーク Michigan Corpus of Academic Spoken English 青空文庫 日本語学会研究文献データベース 『日本語教育』掲載論文 検索エンジン 個人のページ 一言語学徒の日記 出版社・企業のページ 言語学出版社フォーラム 大修館書店 くろしお出版 ひつじ書房 研究社 小学館 三省堂 和泉書院 おうふう 開拓社 朝倉書店 笠間書院 風間書房 明治書院 同学社 勉誠社 英宝社 渓水社 ミルネヴァ書房 最新のトラックバック
ライフログ
タグ
その他のジャンル
ファン
記事ランキング
ブログジャンル
画像一覧
|
2007年 11月 15日
大規模日本語 n-gram データの公開 2007年11月1日 Posted by 工藤拓・賀沢秀人(ソフトウェアエンジニア) 突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデルを使って過去の単語から予測することができます。 このたび、Web から抽出した約200億文(約2550億単語)の日本語データから作成したn-gramデータ(1~7 gram)を公開致しました。データの配布にあたっては特定非営利活動法人 言語資源協会(以下、GSK)の言語資源流通サービスを利用させて頂いており、団体・個人の区別なく御利用頂けます。詳しくはこちらのページを御覧下さい。(なおデータ配布についてのお問い合わせはGSKへお願い致します。) さて、実際のデータの中身ですが次のようになっています。 総単語数: 255,198,240,937 (2550億) 総文数: 20,036,793,177 (200億) 異なり 1-gram 数: 2,565,424 異なり 2-gram 数: 80,513,289 異なり 3-gram 数: 394,482,216 異なり 4-gram 数: 707,787,333 異なり 5-gram 数: 776,378,943 異なり 6-gram 数: 688,782,933 異なり 7-gram 数: 570,204,252 以下が 7-gram データの例です。7つの単語の並びのあとに、その並びの出現頻度が記録されています。 グーグル で 検索 し て い た 39 グーグル で 検索 し て い たら 143 グーグル で 検索 し て い て 45 グーグル で 検索 し て いる と 33 グーグル で 検索 し て おく べき 27 グーグル で 検索 し て ください 。 92 グーグル で 検索 し て こちら の 37 グーグル で 検索 し て しまい まし 24 グーグル で 検索 し て たら さぁ 50 グーグル で 検索 し て たら 見つけ 37 グーグル で 検索 し て で て 26 グーグル で 検索 し て み た 639 グーグル で 検索 し て み たら 450 そもそも、今回のデータ公開はある大学の先生との雑談をきっかけとして、工藤と賀沢が「20%ルール」を使っておこなった成果です。(Google の「20%ルール」とは、勤務時間の20%を自分の好きなことに使ってよい、という社内ルールです。) 実は英語に関しては Googleはn-gramデータを既に公開しています。今回の日本語n-gramデータは、英語データを作成したシステムに次のような日本語独自の処理を加えて構築しています。(データの作成はGoogleの大規模分散処理システムMapReduceを用いて、数千台規模の計算機クラスタを使って行いました。) 文字の正規化 : 日本語には半角全角や特殊文字といった文字のバリエーションがあるため、Unicode NFKC に基づいた正規化を行いました。 単語分割: 日本語は英語のようにスペースで単語が分割されていません。そこで、工藤が開発に携わっているオープンソースの形態素解析エンジンMeCabを使用して単語に分割しました。(余談ですが、個人的に関わっているソフトウェアがWeb全体を解析するのに使われたのは、とてもエキサイティングな経験で、 エンジニア冥利に尽きます。(工藤)) データ自体はとてもシンプルなものですが、使い方次第で色々と面白いことができると思います。是非お試し下さい。 なお今回の言語資源協会を通じたデータ公開にあたっては、北陸先端科学技術大学院大学の白井清昭先生に多大な御尽力を頂きました。この場を借りて御礼申し上げます。 ソース 言語資源協会 言語資源カタログ
by ishilinguist
| 2007-11-15 23:49
| 言語学ニュース
|
ファン申請 |
||