2008-06-01から1ヶ月間の記事一覧

Amazon.co.jpのベストセラーについて(2)

前回「Amazon.co.jpのベストセラーについて - 鯨飲馬食コード」で書いたことの続き。前回のグラフと同様に、5月26日から6月29日までの『蟹工船・党生活者 (新潮文庫)』と『ワイド版 風の谷のナウシカ7巻セット「トルメキア戦役バージョン」』の順位をプロッ…

計算能力

計算能力についてのメモ。間違ってるかもしれないけど。計算能力の高い順で並べてみた。 部分帰納的関数(partial recursive function) = チューリング機械(Turing machine) 多相λ計算(polymorphic lambda calculus, System F) ゲーデルの体系(T) 原…

人工知能関連この三冊

工学分野での人工知能研究の教科書的な三冊を、私の独断と偏見で選んでみたよ。単に私が読んでる(た)本だったりするんだけど。 Artificial Intelligence: A Modern Approach (ISBN:9780137903955) Pattern Recognition and Machine Learning (ISBN:9780387…

Amazon.co.jpのベストセラーについて

いつか研究の役に立つかもしれないと思って「RSSログ Index of /amazon」にamazon.co.jpのベストセラーのトップ50のログを取っている。まだログを取り始めて2週間くらいなんだけど、少し面白い点に気づいたのでメモ。一つ目は『蟹工船・党生活者 (新潮文庫)…

情報抽出の準備としてのHTML整形

「RSS on Ruby - 鯨飲馬食コード」に引き続き、もう少しリンクベースのRSS(RDF Site Summaryという意味)を効率的に作れないかなと考えている。前回作ったのは正規表現で力づくに抽出していたので。そこで「なんでもRSS」関連の論文である「なんでもRSS - H…

RSS maker on Ruby(ゴルゴ31篇)

(2009-04-27追記 Google App EngineでRSS - 鯨飲馬食コードにリンクあり)「RSS on Ruby - 鯨飲馬食コード」で書いた、「ゴルゴ31」のRSSを出力するRubyのスクリプトをメモしておく。ごちゃごちゃしてるしエラー処理も考えずにアドホックに作ったものなので…

ウェブページのスコアリング(はてな篇)

ML

「ウェブページのスコアリング(個人ニュースサイト篇) - 鯨飲馬食コード」に引き続き、「Another HTML-lint gateway」(htmllint.cgi 1.23 / htmllint.pm 3.46)を用いてHTMLのスコアリングを行った。今回の対象は「TopHatenar - あなたのはてなー順位が分…

ウェブページのスコアリング(個人ニュースサイト篇 cont'd データ)

ML

「ウェブページのスコアリング(個人ニュースサイト篇) - 鯨飲馬食コード」で得られたデータを全て記しておく。測定条件は前回の記事を参照してほしい。 サイト名 HTMLのバージョン スコア エラー数 文字コード 百式 XHTML1.0 Transitional -52 247 UTF-8 …

ウェブページのスコアリング(個人ニュースサイト篇)

ML

前回「RSS on Ruby - 鯨飲馬食コード」で、個人ニュースサイトと呼ばれるサイトのRSSを作るためにHTMLソースを見てたのだけど、これがなかなかに汚いのである。情報抽出しづらいという問題以前にHTMLの構文が一目見て間違っていると分かるのだ。私は静的なHT…

RSS on Ruby

Rubyは主にテキスト処理で使っているのだけれど、添付ライブラリのrssが面白かったので、ちょっと人様のサイトのRSSを勝手に作ってみた。 RSSログ Index of /rss とりあえず今あるのは以下のサイトのRSS。個人ニュースサイトと呼ばれるサイトたち。 かーずSP…