Cloudflare Crawl Endpointとは？最新のクローラー制御機能をチェックしよう

jeffpalmer

3か月前

ディスカッション (11件)

jeffpalmerOP👍 78

3か月前

Cloudflareが提供するクローラー向けの最適化機能「Crawl Endpoint」に関するトピックです。検索エンジンのクローラーを効率的に制御し、サイトのパフォーマンスやインデックス効率を向上させるための仕組みについて紹介されています。

🔗 リンク先:https://developers.cloudflare.com/changelog/post/2026-03-10-br-crawl-endpoint/

jasongill

3か月前

Cloudflareが、自分たちのプロキシを通してるサイトのスクレイピング済みバージョンをホストし始めてないのが意外だな。例えば https://www.example.com/cdn-cgi/cached-contents.json みたいにさ。キャッシュにサイトのコンテンツは既にあるんだから、スクレイピングサービスとかAPIみたいな仲介役を飛ばして、そのまま公開しちゃえばいいのに。

もちろん「やらない」まっとうな理由はあるんだろうけど、それでも（当然「デフォルトでオン」の設定で）まだ提供し始めてないのは不思議だ。

ljm

3か月前

Cloudflareはマフィアか何かにでもなろうとしてるのか？スクレイピング対策を売る一方で、今度はスクレイピング自体も売ろうとしてるなんてさ。

無料DNSを使ってネット上でこれだけの影響力を持ってるから、そんな芸当ができちゃうんだろうな。

pupppet

3か月前

Cloudflareが面白いツールを全部独占してるな。AWSの連中、誰か起きてるか？

babelfish

3か月前

まったく同じことをやってるPerplexityに対して、あいつら（かなり大々的に）ブチギレてなかったっけ？

everfrustrated

3か月前

このクローラーって、自分たちのボットブロッカーのロジックの後ろで動くの？それとも手前で動くの？

greatgib

3か月前

予想通りだな。まずは「悪質なスクレイパー」を叩く大キャンペーンを展開して、LLMやボットにスクレイピングされないように自分たちのサービスを使えって煽る。いかに状況がひどいかってね。

で、外敵を遮断した「箱庭」ができあがったら、今度は自分たちのスクレイピング用APIを出し始める。LLMが使いやすいようにさ。要は自分たちが門番になって、マフィアのボスみたいに、それまで仲介なしでできてたことに自分たちが認めた「仲介役」をねじ込んでるだけだ。

binarymax

3か月前

これ、コスト感覚を掴むのがマジで難しい。1秒間に何ページくらいが妥当なんだ？マナーを守って「1秒1ページ」だと仮定すると、1時間で3600ページ？それだとめちゃくちゃ遅く感じるんだけど。

devnotes77

3か月前

補足：オリジン側は、必要なら今でもCloudflare Browser Renderingのリクエストを検知してブロックできるよ。

Workers発のリクエストには、Workersのサブドメインを特定するCF-Workerヘッダーが含まれてるから、普通のCDNプロキシと区別できる。WAFルールとかオリジンのミドルウェアでこれをフィルタリングすればいい。

厄介なのは、レンダリングされたリクエストがボットスコアの低いCloudflare ASN 13335から来る点だ。もしCFのボットスコアに頼ってコンテンツ保護をしてると、彼ら自身のクロール製品経由のリクエストはチェックをバイパスしちゃう。現実的な防御策は、ネットワークレベルのスコアじゃなくて、アプリケーションレイヤーのレート制限や挙動分析を使うことだね。まあ、どっちにしろそっちの方が良いプラクティスだけど。

構造的な対立は確かにあるけど、検索エンジンがウェブマスターツールを提供しながらインデックスも回してるのと似てる。インセンティブは矛盾してるけど、個々の製品は独立して役に立つ。難しいのは、この組み合わせのせいで、彼らのプラットフォーム上で効果的なボット対策を構築するのが本質的に難しくなるかどうか、ってことだ。

patchnull

3か月前

これの一番のメリットは、ブラウザコンテキストのライフサイクル管理を抽象化してくれることだね。WorkersでPuppeteerを動かしたことがある人なら、コールドスタートやコンテキストの再利用、ナビゲーションごとのタイムアウト処理がどれだけ面倒か知ってるはず。crawl() が「レンダリングして抽出」を1回の呼び出しにまとめてくれるなら、スクレイピングのユースケースの8割はカバーできる。リクエストのインターセプトやレンダリング前のスクリプト注入が必要な残り2割にはまだフルBrowser Rendering APIが必要だけど、公開ページから構造化データを抜くだけなら、セッション状態を自分で管理するより断然楽になる。

radium3d

3か月前

「メールで済む話」ならぬ「プロンプトで済む話」だし、これならローカルでも実行できる。Linuxのターミナルからやる方法はいくらでもあるよ。

サイト内の全ページをクロールするカスタムクローラーを書いて（ドメイン内のリンク限定、人間っぽくスクロール、結果はWebPのスクショ、HTML、Markdown、構造化JSONで保存）。ヘッドレスのGoogle Chromeを使ってLinuxマシンのターミナルで動かし、マルチコアを活かして複数ページを同時処理すること。ただし、同じIPからサーバーを叩きすぎないようにスロットリングも考慮して。

Python, Playwright, BeautifulSoup4, Pillow, aiofiles, trafilaturaあたりのオープンソースを使えばいけるはずだ。