2009年2月28日土曜日

文体とリズムの視覚化

1. きっかけと目的

 小説を読んでいると、「この 人の文章って、あの人の文章に似てるな」と感じるときがある。でも、実際にそう感じたことが正しいかどうかを調べるには、小説をパラパラとめくりながら似 たような文章を探したりしないといけない。けっこう時間がかかるし、本を読む時間が減ってしまう。
 簡単に似てる似てないの判断ができるような仕組みがあればいいなぁ、と思って作ってみようと思い立った。リズムなんだから聴覚化(音楽化?)の方がストレートな気もするけど、技術的にまずは視覚化を実現したい。

 ※今回だけでは、視覚化しません。今回は、今後の方向性を示すもの具体的な作業は次回からになります。連載物になります。

2. 処理内容

 ある文章を入力すると、それを構成要素にわけ、文章の意味から自由な、意味にとらわれない単語の繋がりとして再構成し、視覚化する。以下が全体のイメージ。

図.全体のイメージ

2.1. 構成要素への分割


 構成要素へ分けるには、Yahoo!デベロッパーの日本語形態素解析を用いる。日本語を形態素に分割し、品詞や読み仮名を返してくれるサービス。
 Rubyで実装する予定。
 
2.2. 繋がりからの再構成
 詳細は未定。きっとここが一番のキモとなる箇所と思われる。

2.3. 視覚化

 Processing または、Processing.js を用いて視覚化する予定。

3. 成果物

それとなくでも違いがわかるようにしたい。
まずは、ローカルでいろいろ試しながら、最終的には、出来ればWeb上で動くようにしたい。

0 件のコメント: