情報抽出の準備としてのHTML整形

Ruby ML

「RSS on Ruby - 鯨飲馬食コード」に引き続き、もう少しリンクベースのRSS（RDF Site Summaryという意味）を効率的に作れないかなと考えている。前回作ったのは正規表現で力づくに抽出していたので。そこで「なんでもRSS」関連の論文である「なんでもRSS - H…

2008-06-10

RSS maker on Ruby（ゴルゴ31篇）

Ruby ML

（2009-04-27追記 Google App EngineでRSS - 鯨飲馬食コードにリンクあり）「RSS on Ruby - 鯨飲馬食コード」で書いた、「ゴルゴ31」のRSSを出力するRubyのスクリプトをメモしておく。ごちゃごちゃしてるしエラー処理も考えずにアドホックに作ったものなので…

2008-06-08

ウェブページのスコアリング（はてな篇）

ML

「ウェブページのスコアリング（個人ニュースサイト篇） - 鯨飲馬食コード」に引き続き、「Another HTML-lint gateway」（htmllint.cgi 1.23 / htmllint.pm 3.46）を用いてHTMLのスコアリングを行った。今回の対象は「TopHatenar - あなたのはてなー順位が分…

2008-06-07

ウェブページのスコアリング（個人ニュースサイト篇 cont'd データ）

ML

「ウェブページのスコアリング（個人ニュースサイト篇） - 鯨飲馬食コード」で得られたデータを全て記しておく。測定条件は前回の記事を参照してほしい。サイト名 HTMLのバージョンスコアエラー数文字コード百式 XHTML1.0 Transitional -52 247 UTF-8 …

2008-06-07

ウェブページのスコアリング（個人ニュースサイト篇）

ML

前回「RSS on Ruby - 鯨飲馬食コード」で、個人ニュースサイトと呼ばれるサイトのRSSを作るためにHTMLソースを見てたのだけど、これがなかなかに汚いのである。情報抽出しづらいという問題以前にHTMLの構文が一目見て間違っていると分かるのだ。私は静的なHT…