ML

情報抽出の準備としてのHTML整形

「RSS on Ruby - 鯨飲馬食コード」に引き続き、もう少しリンクベースのRSS(RDF Site Summaryという意味)を効率的に作れないかなと考えている。前回作ったのは正規表現で力づくに抽出していたので。そこで「なんでもRSS」関連の論文である「なんでもRSS - H…

RSS maker on Ruby(ゴルゴ31篇)

(2009-04-27追記 Google App EngineでRSS - 鯨飲馬食コードにリンクあり)「RSS on Ruby - 鯨飲馬食コード」で書いた、「ゴルゴ31」のRSSを出力するRubyのスクリプトをメモしておく。ごちゃごちゃしてるしエラー処理も考えずにアドホックに作ったものなので…

ウェブページのスコアリング(はてな篇)

ML

「ウェブページのスコアリング(個人ニュースサイト篇) - 鯨飲馬食コード」に引き続き、「Another HTML-lint gateway」(htmllint.cgi 1.23 / htmllint.pm 3.46)を用いてHTMLのスコアリングを行った。今回の対象は「TopHatenar - あなたのはてなー順位が分…

ウェブページのスコアリング(個人ニュースサイト篇 cont'd データ)

ML

「ウェブページのスコアリング(個人ニュースサイト篇) - 鯨飲馬食コード」で得られたデータを全て記しておく。測定条件は前回の記事を参照してほしい。 サイト名 HTMLのバージョン スコア エラー数 文字コード 百式 XHTML1.0 Transitional -52 247 UTF-8 …

ウェブページのスコアリング(個人ニュースサイト篇)

ML

前回「RSS on Ruby - 鯨飲馬食コード」で、個人ニュースサイトと呼ばれるサイトのRSSを作るためにHTMLソースを見てたのだけど、これがなかなかに汚いのである。情報抽出しづらいという問題以前にHTMLの構文が一目見て間違っていると分かるのだ。私は静的なHT…