Livesphere: ギャル文字解読技術は実は高性能

今となっては少々古い印象を醸し出し始めている"ギャル文字"だが、なんでもKDDI研究所がその解読技術について真面目に取り組んでいるらしい。

正確には"伏せ字（●などで単語の一部を消す）"も含む研究らしいが、その真の目的はこのようなものである。

・犯罪予告や違法情報などのネガティブな情報の検出を自動化し、アラートを可能なかぎり高速に得ること

なるほど。結構崇高なテーマです。

で、私がすごいと思ったのはこのテーマではなく解読アルゴリズムそのものでして。

普通に"解読"とか"翻訳"を考える場合、変換辞書みたいなものをデータベースとして作ってそれとの照合でやっていけばいいんちゃうの？という流れになりがちだけど、どうやらそうではない。

処理1：単語単位ではなく"文章"のデータベースから文法的に正しい文章候補を見つける。

修正処理の例：
ブログの表現：できるかどうヵゎ分かりません
検索する文：どう＊分かり
修正候補1：どうかは分かり
修正候補2：どうか分かり
修正候補3：どうしたらいいか分かり

「どう」と「分かり」という比較的正しいと考えられる文字列に挟まれた2文字を修正するために、正しい日本語200万文で用いられている表現の中から修正候補を検索。

処理2：修正候補のスコアリング
　1．検索結果における出現頻度
　2．置換文字列間の編集距離（文字の削除・挿入・置換といった修正手順の多さ）
　3．統計的言語モデルを用いた表現の自然さの値（形態素解析という手法を用いて、その文章構成がありがちかどうかを定量化）
を元に上記3つの修正候補をスコアリングして、より確からしい候補を選択する。

てな具合だそうです。

webやスパムのフィルタリング精度Upとかにも応用できそうなこの技術、実は半年くらいの開発期間で実現したらしい。

認識技術に限らず、アルゴリズムの進化ってのは本当に日進月歩だと感心しました。

Livesphere

ページ

火曜日, 2月 23, 2010

ギャル文字解読技術は実は高性能

0 件のコメント:

Twitter Updates

Twitter Updates

早起き生活

ブログアーカイブ

リンク

自己紹介

このブログを検索

Livesphere

ページ

火曜日, 2月 23, 2010

ギャル文字解読技術は実は高性能

0 件のコメント:

Twitter Updates

Twitter Updates

早起き生活

ブログ アーカイブ

リンク

自己紹介

このブログを検索

登録

ブログアーカイブ