2008-01-01から1年間の記事一覧

Amazon.co.jpのベストセラーについて

いつか研究の役に立つかもしれないと思って「RSSログ Index of /amazon」にamazon.co.jpのベストセラーのトップ50のログを取っている。まだログを取り始めて2週間くらいなんだけど、少し面白い点に気づいたのでメモ。一つ目は『蟹工船・党生活者 (新潮文庫)…

情報抽出の準備としてのHTML整形

「RSS on Ruby - 鯨飲馬食コード」に引き続き、もう少しリンクベースのRSS(RDF Site Summaryという意味)を効率的に作れないかなと考えている。前回作ったのは正規表現で力づくに抽出していたので。そこで「なんでもRSS」関連の論文である「なんでもRSS - H…

RSS maker on Ruby(ゴルゴ31篇)

(2009-04-27追記 Google App EngineでRSS - 鯨飲馬食コードにリンクあり)「RSS on Ruby - 鯨飲馬食コード」で書いた、「ゴルゴ31」のRSSを出力するRubyのスクリプトをメモしておく。ごちゃごちゃしてるしエラー処理も考えずにアドホックに作ったものなので…

ウェブページのスコアリング(はてな篇)

ML

「ウェブページのスコアリング(個人ニュースサイト篇) - 鯨飲馬食コード」に引き続き、「Another HTML-lint gateway」(htmllint.cgi 1.23 / htmllint.pm 3.46)を用いてHTMLのスコアリングを行った。今回の対象は「TopHatenar - あなたのはてなー順位が分…

ウェブページのスコアリング(個人ニュースサイト篇 cont'd データ)

ML

「ウェブページのスコアリング(個人ニュースサイト篇) - 鯨飲馬食コード」で得られたデータを全て記しておく。測定条件は前回の記事を参照してほしい。 サイト名 HTMLのバージョン スコア エラー数 文字コード 百式 XHTML1.0 Transitional -52 247 UTF-8 …

ウェブページのスコアリング(個人ニュースサイト篇)

ML

前回「RSS on Ruby - 鯨飲馬食コード」で、個人ニュースサイトと呼ばれるサイトのRSSを作るためにHTMLソースを見てたのだけど、これがなかなかに汚いのである。情報抽出しづらいという問題以前にHTMLの構文が一目見て間違っていると分かるのだ。私は静的なHT…

RSS on Ruby

Rubyは主にテキスト処理で使っているのだけれど、添付ライブラリのrssが面白かったので、ちょっと人様のサイトのRSSを勝手に作ってみた。 RSSログ Index of /rss とりあえず今あるのは以下のサイトのRSS。個人ニュースサイトと呼ばれるサイトたち。 かーずSP…

LR parser on Prolog (cont'd - tree)

LR parser on Prolog - 鯨飲馬食コードで書いたLR parserの出力は導出規則の番号の列になっていた。前回も挙げた例だとこんな感じ。 | ?- lr([pron,v,det,n,p,det,n,$],Out). Out = [1,6,2,8,3,3,5] ? ; Out = [1,7,8,3,6,3,5] ? ; noこのリストはスタックと…

LR parser on Prolog (cont'd - compile)

前回LR parser on Prolog - 鯨飲馬食コードで書いたものを、Prologを用いてコンパイル(?)するようなもののメモ。少し前「Prologのファイル入出力は変態だ」という意見を聞いたんだけど、どうなんだろう。先にコードを貼り付けておく。 rule_compile(In_Fi…

LR parser on Prolog

PrologでLR構文解析器を書いたので、自分のためのメモ代わりに。手続き的であまり論理型言語っぽくない書き方だけど。 lr(Ws):- start_state(S), lr([S],Ws,[],_). lr(Ws,Out):- start_state(S), lr([S],Ws,[],Out). lr(Ss,Ws,Os,Out):- Ss=[S|_], Ws=[W|Ws0…