ディスカッション (10件)
ついにやってくれました!AmazonのクローラーであるAmazonbotが、robots.txtのルールを正式に遵守するようになったようです。これまでAmazonのボットに頭を悩ませていたサイト管理者にとって、ようやく制御可能な範囲に入ったのは朗報ですね。robots.txtの設定を改めて見直して、意図しないクロールを防ぐ準備を整えておきましょう。
Get Outlook for Mac
ここ、笑っちゃった。メールってOutlookで書かれたの?それとも何かの転送用メールボックスに送られたのか、はたまた全顧客をBCCに入れて一斉送信したのか?
ちょうどこの前、あそこに文句言ったところだよ!こっちの天気予報サイトを、許可されてないパスのプレフィックスまで含めてひたすらスクレイピングしてきてさ。
結局WAFのブロックリストにぶち込む羽目になったんだけど、皮肉なもんだよね。向こうのインフラでホスティングして、向こうのサービスを使って向こうのAIスクレイパーをブロックするなんて……。
ちなみにrobots.txtってイマイチだよね、強制する手段がないんだもん。クロールするかしないかは結局ボットのさじ加減で、ほとんどの場合は無視されるし。
Cloudflareはボット問題に対していい対策を持ってるよ(ネームサーバーを使ってればの話だけど)。robots.txtを尊重した上で、無視する残りのボットを「深淵なるブラックホール」に叩き込んでくれるから。
へえ、うちもAmazonbotからのトラフィックが(人間と比較して)すごく多いんだけど、何をどう頑張っても泥沼にはまるんだよね。Mediawikiはリンクが多いから、そこをひたすら全パターン網羅しようとして止まらなくなるのさ。ちゃんとnofollowは設定してるし、robots.txtでも時間を無駄にするなって警告してるのに、無意味な内部ページに突撃してくるんだよ。
トラフィック自体は問題ないし、Cloudflareを挟んでるしマシンもかなりオーバースペックだからダウンタイムの心配もないんだけどさ。ただ、ちゃんとインデックスしてほしいだけなんだけどね。誰かが指摘してくれたんだけど、実はこれAmazonbotじゃなくて別のスパイダーなんじゃないかって話もあるよ: https://news.ycombinator.com/item?id=46352723
そもそもAmazonbotって何のために存在してるのか、誰か教えてくれない?ECサイトがなんで他のWebサイトをクロールしなきゃいけないのか、全然理解できないんだけど。
ちょうどいい質問だね。今日ログで新しいAWSユーザーエージェントを見つけたよ:Amazon-Quick-on-Behalf-of-$HEXID
いくつかのユーザーエージェント追跡サイトで言及されてたけど、公式ドキュメントは見つからなかった。これ、どこかに載ってるのか知ってる人いる?週に30GBもトラフィック食っててさ。
今朝、自前でホストしてるForgeの前にAnubisを設置したよ。だってAmazonBotが勝手にうちの公開リポジトリから今月だけで750GiB(!)もトラフィック持っていったんだもん!
少なくとも、AmazonBotを自称してはいたけど……。
robots.txtなんて、今や単なる紳士協定だよ。誰もそれに従う義務なんてないんだ。
自分だけかな、Amazon(Bot)みたいなクローラーがAWS上でホストされてるWebサイトを執拗にクロールするのって、特に倫理観が欠けてて自分勝手だと感じるのは。GoogleやMicrosoftのクローラーがGCやAzureのサイトをクロールするのも同じこと。
要は、かなりのリソースを食いつぶすような類のクロールはやめてほしいってことだよ。