2009-01-01から1ヶ月間の記事一覧

テキストファイル入力のメモ

私はRubyをテキストファイルを一行ずつ入力し、処理して出力するという用途でよく使う。その時のメモ。よく使うのはIOクラスでファイルを読み込む方法。 #!/usr/bin/ruby #IO.rb in_file = ARGV.shift IO.foreach(in_file) do |line| if line =~ /^http\:\/\…

livedoor clipでクリップされてるはてなダイアリー

前回書いたように「クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)」で手に入れたlivedoor clipのデータ(2008年12月版)をドメインごとに分類するとd.hatena.ne.jpが一番多かった。そこでid別にカウントしてみた。どう…

livedoor clipでクリップされてるドメイン

「クローリングしてる暇があるなら…論文かいたら? | EDGE Datasets(研究用データセット)」で手に入れたlivedoor clipのデータ(2008年12月版)をどう使用しようかと考えている。ソーシャルブックマークの研究という点では、レコメンデーションやリンク予測が…

Web API関連(livedoor clip・PageRank)

Web APIをRubyで参照する時のメモ。livedoor clip件数とGoogleのPageRankを取得する。 #!/usr/bin/ruby require 'xmlrpc/client' require 'net/http' Net::HTTP.version_1_2 require "rexml/document" username = "geiinbashoku2" # livedoor clip数 srv = X…

RubyでPageRankの参照

PageRankをRubyで処理したときに使ったスクリプト。使いまわしだしエラー処理してないけど。

被はてなブックマーク数の平均

「はてなダイアリーのPageRank - 鯨飲馬食コード」の結果から被はてなブックマーク数の平均を求めてみた。前回記したが、サンプルは被はてなブックマーク数のトップ500のダイアリーである。 PageRank 平均 標準偏差 最大 最小 6 22938.5 6760.5 29699 16178 …

はてなダイアリーのPageRank

前回の「個人ニュースサイトのPageRank - 鯨飲馬食コード」の連なりとして、今回はソーシャルブックマークとPageRankの相関を見てみたかったので、被はてなブックマーク数が多いはてなダイアリーのPageRankを調べてみた。対象としたのは2009年01月15日に「To…

個人ニュースサイトのPageRank

「個人ニュースサイトのURLデータセット(2008年10月) - 鯨飲馬食コード」のデータ(nstesting.txt)を入力として用いて、各サイトのPageRankを調べてみた。APIとして「TRYNT Google Pagerank Web Service // Trynt Heavy Technologies」を利用してRubyで処…

PageRankアップデート(2009年1月)

しばらく見てなかったので気づかなかったのだけど、「鯨飲馬食コード」がPageRank4になっている(2009-01-12 19時ごろ Firefox版GoogleToolbar調べ)。今時PageRankを気にする人もあまりいないのかもしれないけど、昔趣味でSEOをやってたときにも個人のサイ…