(This page is written in Japanese.)

水無川研究所

非公開ページがia_archiverにアクセスされる問題対策

最終更新: 2005/02/23

ia_archiverについて

ia_archiverはweb巡回ロボットとして観測されている。巡回が頻繁すぎるとの声もありますが、robot.txtは守り、でたらめなアクセスをしてくることもないので、一見普通のロボットに見えます。

(例)
crawl**-public.alexa.com - - [**/***/200*:**:**:** +0900] "GET /robots.txt HTTP/1.0" 200 *** "-" "ia_archiver"
crawl29-public.alexa.com - - [**/***/200*:**:**:** +0900] "GET /foo/bar.html HTTP/1.0" 200 ***"-" "ia_archiver"

非公開ページへのアクセス

ところが、どこからもリンクを張ってないはずのURLに対して、ia_archiverが巡回をしに来るという現象が観測されています。

例えば、外からはリンクを張っていないところにファイルを置き、メールで知人にURLを教えたような場合に、そのURLにia_archiverがやってくるという現象がみられます。

(例)
crawl**-public.alexa.com - - [**/***/200*:**:**:** +0900] "GET /~user/private/foo.html HTTP/1.0" 200 *** "-" "ia_archiver"

原因

より詳しく調べると、そのURLへのアクセスログのUser Agentには、ある特徴が見られます。

(例)
*.*.*.* - - [**/***/200*:**:**:** +0900] "GET /~user/private/foo.html HTTP/1.1" 200 *** "-" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0; Alexa Toolbar; .NET CLR 1.1.4322)"

非公開ページへia_archiverが来る前には、必ずといっていいほど"Alexa Toolbar"が含まれたUser Agentでのアクセスがあります。

つまり、Alexa Toolbarが入力された情報をAlexaに送っていると考えられるわけです。

対策

海外では、Alexa Toolbarのこうしたふるまいに批判的なサイトもあり、情報が公開されています。 GoogleでAlexa Toolbarを検索

しかし国内では、このような情報があまりなく、知人などにAlexa Toolbarを入れた人がいるとURLをたれ流しされっぱなしとなってしまいます。

根本的な対策は非公開ページにはパスワードでのアクセス制限をかけることですが、Alexa Toolbarを入れた人さえいなければ、そこまでの機密性は求めない、というのなら、Alexa Toolbarを弾くように設定し、Alexa Toolbarでのアクセスを望まないという意思表示をすることができます。

非公開ディレクトリの.htaccessに

BrowserMatch "Alexa" alexa
<Limit GET>
order deny,allow
deny from env=alexa
</Limit>

のように記述すれば、Alexa Toolbarでのアクセスを弾くことができます。

念のため、このように禁止したからといって、入力されたURLがAlexaに送信されないという保証はありませんが、少なくともAlexa Toolbarで漫然と隠しURLを垂れ流されるのを抑止する効果は期待できます。