ページ

火曜日, 2月 23, 2010

ギャル文字解読技術は実は高性能

今となっては少々古い印象を醸し出し始めている"ギャル文字"だが、なんでもKDDI研究所がその解読技術について真面目に取り組んでいるらしい。

正確には"伏せ字(●などで単語の一部を消す)"も含む研究らしいが、その真の目的はこのようなものである。

・犯罪予告や違法情報などのネガティブな情報の検出を自動化し、アラートを可能なかぎり高速に得ること

なるほど。結構崇高なテーマです。

で、私がすごいと思ったのはこのテーマではなく解読アルゴリズムそのものでして。

普通に"解読"とか"翻訳"を考える場合、変換辞書みたいなものをデータベースとして作ってそれとの照合でやっていけばいいんちゃうの?という流れになりがちだけど、どうやらそうではない。

処理1:単語単位ではなく"文章"のデータベースから文法的に正しい文章候補を見つける。

修正処理の例:
ブログの表現:できるかどうヵゎ分かりません
検索する文:どう*分かり
修正候補1:どうかは分かり
修正候補2:どうか分かり
修正候補3:どうしたらいいか分かり

「どう」と「分かり」という比較的正しいと考えられる文字列に挟まれた2文字を修正するために、正しい日本語200万文で用いられている表現の中から修正候補を検索。

処理2:修正候補のスコアリング
 1.検索結果における出現頻度
 2.置換文字列間の編集距離(文字の削除・挿入・置換といった修正手順の多さ)
 3.統計的言語モデルを用いた表現の自然さの値(形態素解析という手法を用いて、その文章構成がありがちかどうかを定量化)
を元に上記3つの修正候補をスコアリングして、より確からしい候補を選択する。


てな具合だそうです。

webやスパムのフィルタリング精度Upとかにも応用できそうなこの技術、実は半年くらいの開発期間で実現したらしい。

認識技術に限らず、アルゴリズムの進化ってのは本当に日進月歩だと感心しました。

0 件のコメント: