HN13126

ついにAmazonbotがrobots.txtを尊重するように！検索エンジン最適化の新展開

Amazonbot is finally respecting robots.txt

xena・2か月前

議論

10件

0：xenaスレ主▲1312か月前

ついにやってくれました！AmazonのクローラーであるAmazonbotが、robots.txtのルールを正式に遵守するようになったようです。これまでAmazonのボットに頭を悩ませていたサイト管理者にとって、ようやく制御可能な範囲に入ったのは朗報ですね。robots.txtの設定を改めて見直して、意図しないクロールを防ぐ準備を整えておきましょう。

リンク先:https://xeiaso.net/notes/2026/amazonbot-respecting-robots-txt/

1：bstsb2か月前

Get Outlook for Mac

ここ、笑っちゃった。メールってOutlookで書かれたの？それとも何かの転送用メールボックスに送られたのか、はたまた全顧客をBCCに入れて一斉送信したのか？

2：jacobn2か月前

ちょうどこの前、あそこに文句言ったところだよ！こっちの天気予報サイトを、許可されてないパスのプレフィックスまで含めてひたすらスクレイピングしてきてさ。

結局WAFのブロックリストにぶち込む羽目になったんだけど、皮肉なもんだよね。向こうのインフラでホスティングして、向こうのサービスを使って向こうのAIスクレイパーをブロックするなんて……。

3：namegulf2か月前

ちなみにrobots.txtってイマイチだよね、強制する手段がないんだもん。クロールするかしないかは結局ボットのさじ加減で、ほとんどの場合は無視されるし。

Cloudflareはボット問題に対していい対策を持ってるよ（ネームサーバーを使ってればの話だけど）。robots.txtを尊重した上で、無視する残りのボットを「深淵なるブラックホール」に叩き込んでくれるから。

4：arjie2か月前

へえ、うちもAmazonbotからのトラフィックが（人間と比較して）すごく多いんだけど、何をどう頑張っても泥沼にはまるんだよね。Mediawikiはリンクが多いから、そこをひたすら全パターン網羅しようとして止まらなくなるのさ。ちゃんとnofollowは設定してるし、robots.txtでも時間を無駄にするなって警告してるのに、無意味な内部ページに突撃してくるんだよ。

トラフィック自体は問題ないし、Cloudflareを挟んでるしマシンもかなりオーバースペックだからダウンタイムの心配もないんだけどさ。ただ、ちゃんとインデックスしてほしいだけなんだけどね。誰かが指摘してくれたんだけど、実はこれAmazonbotじゃなくて別のスパイダーなんじゃないかって話もあるよ: https://news.ycombinator.com/item?id=46352723

5：TurdF3rguson2か月前

そもそもAmazonbotって何のために存在してるのか、誰か教えてくれない？ECサイトがなんで他のWebサイトをクロールしなきゃいけないのか、全然理解できないんだけど。

6：captn3m02か月前

ちょうどいい質問だね。今日ログで新しいAWSユーザーエージェントを見つけたよ：Amazon-Quick-on-Behalf-of-$HEXID

いくつかのユーザーエージェント追跡サイトで言及されてたけど、公式ドキュメントは見つからなかった。これ、どこかに載ってるのか知ってる人いる？週に30GBもトラフィック食っててさ。

7：phdelightful2か月前

今朝、自前でホストしてるForgeの前にAnubisを設置したよ。だってAmazonBotが勝手にうちの公開リポジトリから今月だけで750GiB（！）もトラフィック持っていったんだもん！

少なくとも、AmazonBotを自称してはいたけど……。

8：vindin2か月前

robots.txtなんて、今や単なる紳士協定だよ。誰もそれに従う義務なんてないんだ。

9：TrackerFF2か月前

自分だけかな、Amazon(Bot)みたいなクローラーがAWS上でホストされてるWebサイトを執拗にクロールするのって、特に倫理観が欠けてて自分勝手だと感じるのは。GoogleやMicrosoftのクローラーがGCやAzureのサイトをクロールするのも同じこと。

要は、かなりのリソースを食いつぶすような類のクロールはやめてほしいってことだよ。