著作権切れをタグクラウド化
miyagawaさんのエントリーやはてなダイアリーTagCloud の影響で、第2次タグクラウドブームがおきています(脳内調査)。
そこで流行にオイラも乗ってみましたよ。巷で話題の著作権切れ作品をタグクラウド化してみました。
作り方はmiyagawaさんとほぼ同じです(おそらく)。
青空文庫からHTML::TreeBuilder::XPath + HTML::Selector::XPathでタイトル、作者、本文を切り出した後、本文をText::MeCabで形態素解析して"名詞,一般"のみ集計しHTML::TagCloudでタグクラウド化しました。
ゴミっぽい仮名文字も入っていますが("つて"が多いのは"乗つて"等の旧表現の所為か?)、結構いい感じにできたので他の著作権切れも試してみました
- 山椒大夫(森鴎外) →タグクラウド化
- 瓶詰地獄(夢野久作) →タグクラウド化
- 名人傳(中島敦) →タグクラウド化
- 河童の話(折口信夫) →タグクラウド化
- 人間失格(太宰治) →タグクラウド化
- こころ(夏目漱石) →タグクラウド化
- 或阿呆の一生(芥川龍之介) →タグクラウド化
テキストを客観的に分析しているので、主観が入らず意外な発見がありそうです。
"或阿呆の一生"は読んだ事がないけど、タグを見る限りでは「友だちを頼って色々やってみるが、結局うまく行かず気が狂う男の話」なのではないかと推測(w。