WP2TXT 0.1.0 を公開
Posted by Yoichiro Hasebe
WP2TXT というプログラムを作成し、バージョン 0.1.0 を公開しました。ドキュメントはこちらです。ファイルは RubyForge のプロジェクトサイト からダウンロード可能です。当然ながら無保証ですので自己責任でお使いください。
Wikipedia 日本語版のデータベース・ダンプファイル(bz2 形式で圧縮された巨大な XML として公開)から日本語のセンテンス(=句点で区切られた文字列)をひたすら抽出してテキストファイルを作成します。逆にセンテンスとみなされないような文字列(テーブル内の要素や画像のキャプションなど)は完全に無視します。
これが何に使えるかというと、他でもない言語学・日本語学の研究に役立ちます。Wikipedia を利用することで著作権フリーの巨大書き言葉コーパスが無料でしかも(割と)簡単に手に入るわけです。ちなみに2006年の8月にリリースされたダンプファイルからは400万超のセンテンスが抽出できました。最新版からはさらに多くのデータが得られるものと思います。
とはいえ、手元の環境では問題なく動いていますが他の環境でも大丈夫かどうか、まだ十分にテストできていません。使用しているプログラミング言語は Ruby ですが、Wxruby ライブラリによる GUI を備えており Exerb で実行ファイル化しているので、特に Ruby をインストールしていなくても Windows XP や 2000 から起動して簡単に使えるはずです(Vista は持ってないので分かりません)。また Linux など UNIX 系の OS でもコマンドラインプログラムとしてなら動きます(Mac OS X も持ってないので分かりません)。
ソースコードは汚いですが、これも一応オープンにしているので、その道のプロフェッショナルな方々にはアドバイスなど頂けたら幸いです。本当はきちんとリファクタリングするべきなのですが、仕事柄プログラミングに割ける時間が限られているもので・・・。
もちろん言語学の研究者の方々(拠って立つ理論にかかわらず)にも感想を聞かせてもらえると助かります。開発の背景のような事柄をまとめた研究ノートを紀要に書きましたので、ご希望の方には抜き刷りをお送りします。

