ウェブページのスコアリング(個人ニュースサイト篇)
前回「RSS on Ruby - 鯨飲馬食コード」で、個人ニュースサイトと呼ばれるサイトのRSSを作るためにHTMLソースを見てたのだけど、これがなかなかに汚いのである。情報抽出しづらいという問題以前にHTMLの構文が一目見て間違っていると分かるのだ。
私は静的なHTMLが好きなので、このような構文エラーが気になるのだが、もしかしたら多くのウェブ利用者は気にしていないのかもしれない。動的なウェブアプリケーションがもてはやされる一方で、静的なページにはあまり注意が向けられてないのだろうか。
そんなわけで、個人ニュースサイトと呼ばれるサイトのHTMLを「Another HTML-lint gateway」(htmllint.cgi 1.23 / htmllint.pm 3.46)でスコア付けしてみた。対象としたサイトは「個人によるニュースサイト - Yahoo!カテゴリ」に登録されているサイト。計測したのは2008年6月7日の19時から20時の間である。
以下がスコアベースでのトップ10である。
サイト名 | HTMLのバージョン | スコア | エラー数 | 文字コード |
---|---|---|---|---|
最新アニメ情報 | XHTML1.0 Transitional | 70点 | 117個 | Shift JIS |
日本の世界一 | XHTML1.0 Transitional | 66点 | 29個 | UTF-8 |
カトゆー家断絶 | HTML4.01 Transitional | 56点 | 502個 | Shift JIS |
19790401173.4 | HTML4.01 Transitional | 56点 | 94個 | EUC-JP |
My Life Between Silicon Valley and Japan | HTML4.01 Transitional | 54点 | 215個 | EUC-JP |
あんてな | XHTML1.1 | 50点 | 113個 | UTF-8 |
ふぃふmemo | XHTML1.0 Strict | 47点 | 75個 | UTF-8 |
暗いニュースリンク | XHTML1.0 Transitional | 29点 | 152個 | UTF-8 |
ブロッチ | HTML4.01 Transitional | 27点 | 352個 | Shift JIS |
スミルノフ教授公式ウェッブサイト | XHTML1.0 Transitional | 26点 | 170個 | UTF-8 |
Another HTML-lintは100点からの減点式であり、かなり厳しい評価をする。また理解できないエラーを返すときもあるので、どこまで信頼していいかは不明である。しかし、それにしても全体的に点数が低い。スコアが正数であったのは上の10のサイトに加えて、下の4つであった。それ以外は負数だった。
- 男40代サラリーマン日記(18点)
- ONEDARI BOYS(17点)
- 1470.net(17点)
- iNSIDE(14点)
最低点は「Blog紹介しちゃいます。」の-458点。ここまでくると何が何やら。それでもきちんと描画するブラウザを褒めてあげたい。
少し話は変わるが、「RSSログ Index of /rss」でRSSを作ったサイトのスコアは以下のとおり。これらのスコアを計測した日時は2008年06月07日の20時30分前後。
個人的な感想として、上の5つをRSSを作りやすかった順で並べると、「カトゆー家断絶」≒「ゴルゴ31」>「まなめはうす」≒「痕跡症候群」>>>>>(越えられない壁)>>>>>「かーずSP」だった。ほぼスコアが高い順と同じである。残念ながら、「かーずSP」からのリンク抽出を適切に行うのは(私のスキルでは)難しいものだと言わざるを得ない。機械学習を用いればあるいはできるかもしれないけども。
それにしても、個人ニュースサイトの管理者の皆さんはどのようにしてHTMLを書いているのだろう。blogは別として、ビルダーとか使ってるのかな? それともcgiとか?