著作権切れをタグクラウド化

miyagawaさんのエントリーはてなダイアリーTagCloud の影響で、第2次タグクラウドブームがおきています(脳内調査)。


そこで流行にオイラも乗ってみましたよ。巷で話題の著作権切れ作品をタグクラウド化してみました。

作り方はmiyagawaさんとほぼ同じです(おそらく)。
青空文庫からHTML::TreeBuilder::XPath + HTML::Selector::XPathでタイトル、作者、本文を切り出した後、本文をText::MeCab形態素解析して"名詞,一般"のみ集計しHTML::TagCloudタグクラウド化しました。


ゴミっぽい仮名文字も入っていますが("つて"が多いのは"乗つて"等の旧表現の所為か?)、結構いい感じにできたので他の著作権切れも試してみました


テキストを客観的に分析しているので、主観が入らず意外な発見がありそうです。


"或阿呆の一生"は読んだ事がないけど、タグを見る限りでは「友だちを頼って色々やってみるが、結局うまく行かず気が狂う男の話」なのではないかと推測(w。

追記

ダイアリーをタグクラウド化してみました。

お、今日でようやくはてなダイアリー市民になりました!