« A-DIC:備忘録:グローランサ作成開始 | トップページ | A-DIC:クローラと、形態素解析追記 »

2008年7月12日 (土)

A-DIC:今後の作成方針

1)既に存在するVer2.0サプリメントを全て解析して、そのサプリメント毎の登録単語数を数える(ここから規模と、必要なA-DICに登録すべき単語数が類推できる)

2)グローランサページを片端から形態素分析し、その上位単語を調査する

現在考えているのは以下

・WIKIのグローランサ関連全ページ

・TOMEとTOMEのリンクから辿れる全ページ

・村瀬さんのRQページ(全内容)

恐らくこれらを全て解析すればある程度の方向性は出るのではないだろうか

(しかし必ずしも頻出する単語のみでA-DICができるわけではない、しかし最終的な頻出単語数が一定数を超えるものは【重要な単語】と捉えることが可能かと思われる)

3)1)から類推した単語数で、2)によって作られた一覧単語表を絞り込む(この時点で出来た成果物をRQ,HWを知っている人間にチェックしてもらい、ダメだしをしてもらう)

4)3)によって出来た一覧単語表にそれぞれ説明を加える(google使用?)

5)完了

★3のチェックを除いて一連はスクリプトによって全て自動実行可能

★★ソース元になるWEBページのURLリストが欲しい(どれだけ膨大でも関係ない、自動実行させるので)→さしあたって必要な情報はこれだけ

★★★恐らく3)のチェックもベイズ統計学でのマルコフ連鎖モンテカルロ(なんか魔法の名前のようだ)手法を組み込めれば、恐らく近似的に推論可能かと思われる(要調査)

|

« A-DIC:備忘録:グローランサ作成開始 | トップページ | A-DIC:クローラと、形態素解析追記 »

A-DIC:グローランサ」カテゴリの記事

コメント

コメントを書く



(ウェブ上には掲載しません)


コメントは記事投稿者が公開するまで表示されません。



トラックバック

この記事のトラックバックURL:
http://app.cocolog-nifty.com/t/trackback/12215/41813096

この記事へのトラックバック一覧です: A-DIC:今後の作成方針:

« A-DIC:備忘録:グローランサ作成開始 | トップページ | A-DIC:クローラと、形態素解析追記 »