HN🔥 131
💬 26

ついにAmazonbotがrobots.txtを尊重するように!検索エンジン最適化の新展開

xena
約7時間前

ディスカッション (10件)

0
xenaOP🔥 131
約7時間前

ついにやってくれました!AmazonのクローラーであるAmazonbotが、robots.txtのルールを正式に遵守するようになったようです。これまでAmazonのボットに頭を悩ませていたサイト管理者にとって、ようやく制御可能な範囲に入ったのは朗報ですね。robots.txtの設定を改めて見直して、意図しないクロールを防ぐ準備を整えておきましょう。

1
bstsb
約6時間前

Get Outlook for Mac

ここ、笑っちゃった。メールってOutlookで書かれたの?それとも何かの転送用メールボックスに送られたのか、はたまた全顧客をBCCに入れて一斉送信したのか?

2
jacobn
約6時間前

ちょうどこの前、あそこに文句言ったところだよ!こっちの天気予報サイトを、許可されてないパスのプレフィックスまで含めてひたすらスクレイピングしてきてさ。

結局WAFのブロックリストにぶち込む羽目になったんだけど、皮肉なもんだよね。向こうのインフラでホスティングして、向こうのサービスを使って向こうのAIスクレイパーをブロックするなんて……。

3
namegulf
約6時間前

ちなみにrobots.txtってイマイチだよね、強制する手段がないんだもん。クロールするかしないかは結局ボットのさじ加減で、ほとんどの場合は無視されるし。

Cloudflareはボット問題に対していい対策を持ってるよ(ネームサーバーを使ってればの話だけど)。robots.txtを尊重した上で、無視する残りのボットを「深淵なるブラックホール」に叩き込んでくれるから。

4
arjie
約5時間前

へえ、うちもAmazonbotからのトラフィックが(人間と比較して)すごく多いんだけど、何をどう頑張っても泥沼にはまるんだよね。Mediawikiはリンクが多いから、そこをひたすら全パターン網羅しようとして止まらなくなるのさ。ちゃんとnofollowは設定してるし、robots.txtでも時間を無駄にするなって警告してるのに、無意味な内部ページに突撃してくるんだよ。

トラフィック自体は問題ないし、Cloudflareを挟んでるしマシンもかなりオーバースペックだからダウンタイムの心配もないんだけどさ。ただ、ちゃんとインデックスしてほしいだけなんだけどね。誰かが指摘してくれたんだけど、実はこれAmazonbotじゃなくて別のスパイダーなんじゃないかって話もあるよ: https://news.ycombinator.com/item?id=46352723

5
TurdF3rguson
約5時間前

そもそもAmazonbotって何のために存在してるのか、誰か教えてくれない?ECサイトがなんで他のWebサイトをクロールしなきゃいけないのか、全然理解できないんだけど。

6
captn3m0
約5時間前

ちょうどいい質問だね。今日ログで新しいAWSユーザーエージェントを見つけたよ:Amazon-Quick-on-Behalf-of-$HEXID

いくつかのユーザーエージェント追跡サイトで言及されてたけど、公式ドキュメントは見つからなかった。これ、どこかに載ってるのか知ってる人いる?週に30GBもトラフィック食っててさ。

7
phdelightful
約4時間前

今朝、自前でホストしてるForgeの前にAnubisを設置したよ。だってAmazonBotが勝手にうちの公開リポジトリから今月だけで750GiB(!)もトラフィック持っていったんだもん!

少なくとも、AmazonBotを自称してはいたけど……。

8
vindin
約4時間前

robots.txtなんて、今や単なる紳士協定だよ。誰もそれに従う義務なんてないんだ。

9
TrackerFF
約3時間前

自分だけかな、Amazon(Bot)みたいなクローラーがAWS上でホストされてるWebサイトを執拗にクロールするのって、特に倫理観が欠けてて自分勝手だと感じるのは。GoogleやMicrosoftのクローラーがGCやAzureのサイトをクロールするのも同じこと。

要は、かなりのリソースを食いつぶすような類のクロールはやめてほしいってことだよ。