ウェブページのスコアリング(個人ニュースサイト篇)

前回「RSS on Ruby - 鯨飲馬食コード」で、個人ニュースサイトと呼ばれるサイトのRSSを作るためにHTMLソースを見てたのだけど、これがなかなかに汚いのである。情報抽出しづらいという問題以前にHTMLの構文が一目見て間違っていると分かるのだ。

私は静的なHTMLが好きなので、このような構文エラーが気になるのだが、もしかしたら多くのウェブ利用者は気にしていないのかもしれない。動的なウェブアプリケーションがもてはやされる一方で、静的なページにはあまり注意が向けられてないのだろうか。

そんなわけで、個人ニュースサイトと呼ばれるサイトのHTMLを「Another HTML-lint gateway」(htmllint.cgi 1.23 / htmllint.pm 3.46)でスコア付けしてみた。対象としたサイトは「個人によるニュースサイト - Yahoo!カテゴリ」に登録されているサイト。計測したのは2008年6月7日の19時から20時の間である。

以下がスコアベースでのトップ10である。

サイト名 HTMLのバージョン スコア エラー数 文字コード
最新アニメ情報 XHTML1.0 Transitional 70点 117個 Shift JIS
日本の世界一 XHTML1.0 Transitional 66点 29個 UTF-8
カトゆー家断絶 HTML4.01 Transitional 56点 502個 Shift JIS
19790401173.4 HTML4.01 Transitional 56点 94個 EUC-JP
My Life Between Silicon Valley and Japan HTML4.01 Transitional 54点 215個 EUC-JP
あんてな XHTML1.1 50点 113個 UTF-8
ふぃふmemo XHTML1.0 Strict 47点 75個 UTF-8
暗いニュースリンク XHTML1.0 Transitional 29点 152個 UTF-8
ブロッチ HTML4.01 Transitional 27点 352個 Shift JIS
スミルノフ教授公式ウェッブサイト XHTML1.0 Transitional 26点 170個 UTF-8

Another HTML-lintは100点からの減点式であり、かなり厳しい評価をする。また理解できないエラーを返すときもあるので、どこまで信頼していいかは不明である。しかし、それにしても全体的に点数が低い。スコアが正数であったのは上の10のサイトに加えて、下の4つであった。それ以外は負数だった。

最低点は「Blog紹介しちゃいます。」の-458点。ここまでくると何が何やら。それでもきちんと描画するブラウザを褒めてあげたい。

少し話は変わるが、「RSSログ Index of /rss」でRSSを作ったサイトのスコアは以下のとおり。これらのスコアを計測した日時は2008年06月07日の20時30分前後。

個人的な感想として、上の5つをRSSを作りやすかった順で並べると、「カトゆー家断絶」≒「ゴルゴ31」>「まなめはうす」≒「痕跡症候群」>>>>>(越えられない壁)>>>>>「かーずSP」だった。ほぼスコアが高い順と同じである。残念ながら、「かーずSP」からのリンク抽出を適切に行うのは(私のスキルでは)難しいものだと言わざるを得ない。機械学習を用いればあるいはできるかもしれないけども。

それにしても、個人ニュースサイトの管理者の皆さんはどのようにしてHTMLを書いているのだろう。blogは別として、ビルダーとか使ってるのかな? それともcgiとか?