Mconc 0.2.0 を公開しました

Posted by Yoichiro Hasebe Tue, 13 Nov 2007 13:53:00 GMT

ずっと解説ページだけで実物を公開していなかった拙作プログラム Mconc を RubyForge にアップロードしました。最初の試作版はずっと前に出来ていたので、とりあえずバージョンは 0.2.0 です。

またそれにともない、解説ページを大幅に書き直しました。スクリーンショットやちょっとしたチュートリアル的な内容を新たに入れました。

Mconc: Morphologocal Concordancer

Mconc がどういうプログラムかというと、正規表現 & YAML 形式で記述された条件文に基づいて、入力テキストデータから日本語文字列とその詳細情報をCSVファイルに出力します。形態素解析には MeCab を利用しています。コーパス言語学はもちろん、理論言語学での例文探しにも役立ちます。

上の説明ではいまいちピンと来ないと思うので、もう少し分かりやすく説明すると、例えば(あくまで「例えば」ですが)「~したとき」という形式、あるいはそれに準じるような形式の文字列をテキストファイルの中から網羅的に取り出し、Excel で後処理できるファイル形式で出力することができます。可能性としては、次のような表現が抽出結果に含まれることになります(形態素解析はMeCab の性能に依存するので、あるていどは取りこぼしや過剰抽出があり得ますが)。

抽出条件式:
-
- feature: /^動詞/
- feature: /^助動詞/
  surface: /^(た|だ)$/
- surface: /^(時|とき)$/
抽出結果例:

  ...と聞いたとき...
  ...に応えたとき...
  ...枯渇したとき...
  ...が発生した時...
  ...へ進んだ時...

  などなど

抽出条件は形態素ブロックの集合として表現します。表層形と品詞情報の両方を指定できるので、GREP など普通の検索プログラムに比べて、ずっときめ細やかな検索ができます。その代わり、正規表現に関する基本的な知識がなければ使えないという欠点もあります。

分野や使い手をあるていど選ぶニッチなプログラムですが、自分としてはかなり便利だと思うのでよろしければご利用ください。

Posted in , ,