今となっては少々古い印象を醸し出し始めている"ギャル文字"だが、なんでもKDDI研究所がその解読技術について真面目に取り組んでいるらしい。
正確には"伏せ字(●などで単語の一部を消す)"も含む研究らしいが、その真の目的はこのようなものである。
・犯罪予告や違法情報などのネガティブな情報の検出を自動化し、アラートを可能なかぎり高速に得ること
なるほど。結構崇高なテーマです。
で、私がすごいと思ったのはこのテーマではなく解読アルゴリズムそのものでして。
普通に"解読"とか"翻訳"を考える場合、変換辞書みたいなものをデータベースとして作ってそれとの照合でやっていけばいいんちゃうの?という流れになりがちだけど、どうやらそうではない。
処理1:単語単位ではなく"文章"のデータベースから文法的に正しい文章候補を見つける。
修正処理の例:
ブログの表現:できるかどうヵゎ分かりません
検索する文:どう*分かり
修正候補1:どうかは分かり
修正候補2:どうか分かり
修正候補3:どうしたらいいか分かり
「どう」と「分かり」という比較的正しいと考えられる文字列に挟まれた2文字を修正するために、正しい日本語200万文で用いられている表現の中から修正候補を検索。
処理2:修正候補のスコアリング
1.検索結果における出現頻度
2.置換文字列間の編集距離(文字の削除・挿入・置換といった修正手順の多さ)
3.統計的言語モデルを用いた表現の自然さの値(形態素解析という手法を用いて、その文章構成がありがちかどうかを定量化)
を元に上記3つの修正候補をスコアリングして、より確からしい候補を選択する。
てな具合だそうです。
webやスパムのフィルタリング精度Upとかにも応用できそうなこの技術、実は半年くらいの開発期間で実現したらしい。
認識技術に限らず、アルゴリズムの進化ってのは本当に日進月歩だと感心しました。
0 件のコメント:
コメントを投稿