HN🔥 78
💬 41

Cloudflare Crawl Endpointとは?最新のクローラー制御機能をチェックしよう

jeffpalmer
約7時間前

ディスカッション (11件)

1
jasongill
約6時間前

Cloudflareが、自分たちのプロキシを通してるサイトのスクレイピング済みバージョンをホストし始めてないのが意外だな。例えば https://www.example.com/cdn-cgi/cached-contents.json みたいにさ。キャッシュにサイトのコンテンツは既にあるんだから、スクレイピングサービスとかAPIみたいな仲介役を飛ばして、そのまま公開しちゃえばいいのに。

もちろん「やらない」まっとうな理由はあるんだろうけど、それでも(当然「デフォルトでオン」の設定で)まだ提供し始めてないのは不思議だ。

2
ljm
約5時間前

Cloudflareはマフィアか何かにでもなろうとしてるのか?スクレイピング対策を売る一方で、今度はスクレイピング自体も売ろうとしてるなんてさ。

無料DNSを使ってネット上でこれだけの影響力を持ってるから、そんな芸当ができちゃうんだろうな。

3
pupppet
約5時間前

Cloudflareが面白いツールを全部独占してるな。AWSの連中、誰か起きてるか?

4
babelfish
約5時間前

まったく同じことをやってるPerplexityに対して、あいつら(かなり大々的に)ブチギレてなかったっけ?

5
everfrustrated
約5時間前

このクローラーって、自分たちのボットブロッカーのロジックの後ろで動くの?それとも手前で動くの?

6
greatgib
約5時間前

予想通りだな。まずは「悪質なスクレイパー」を叩く大キャンペーンを展開して、LLMやボットにスクレイピングされないように自分たちのサービスを使えって煽る。いかに状況がひどいかってね。

で、外敵を遮断した「箱庭」ができあがったら、今度は自分たちのスクレイピング用APIを出し始める。LLMが使いやすいようにさ。要は自分たちが門番になって、マフィアのボスみたいに、それまで仲介なしでできてたことに自分たちが認めた「仲介役」をねじ込んでるだけだ。

7
binarymax
約5時間前

これ、コスト感覚を掴むのがマジで難しい。1秒間に何ページくらいが妥当なんだ?マナーを守って「1秒1ページ」だと仮定すると、1時間で3600ページ?それだとめちゃくちゃ遅く感じるんだけど。

8
devnotes77
約5時間前

補足:オリジン側は、必要なら今でもCloudflare Browser Renderingのリクエストを検知してブロックできるよ。

Workers発のリクエストには、Workersのサブドメインを特定するCF-Workerヘッダーが含まれてるから、普通のCDNプロキシと区別できる。WAFルールとかオリジンのミドルウェアでこれをフィルタリングすればいい。

厄介なのは、レンダリングされたリクエストがボットスコアの低いCloudflare ASN 13335から来る点だ。もしCFのボットスコアに頼ってコンテンツ保護をしてると、彼ら自身のクロール製品経由のリクエストはチェックをバイパスしちゃう。現実的な防御策は、ネットワークレベルのスコアじゃなくて、アプリケーションレイヤーのレート制限や挙動分析を使うことだね。まあ、どっちにしろそっちの方が良いプラクティスだけど。

構造的な対立は確かにあるけど、検索エンジンがウェブマスターツールを提供しながらインデックスも回してるのと似てる。インセンティブは矛盾してるけど、個々の製品は独立して役に立つ。難しいのは、この組み合わせのせいで、彼らのプラットフォーム上で効果的なボット対策を構築するのが本質的に難しくなるかどうか、ってことだ。

9
patchnull
約5時間前

これの一番のメリットは、ブラウザコンテキストのライフサイクル管理を抽象化してくれることだね。WorkersでPuppeteerを動かしたことがある人なら、コールドスタートやコンテキストの再利用、ナビゲーションごとのタイムアウト処理がどれだけ面倒か知ってるはず。crawl() が「レンダリングして抽出」を1回の呼び出しにまとめてくれるなら、スクレイピングのユースケースの8割はカバーできる。リクエストのインターセプトやレンダリング前のスクリプト注入が必要な残り2割にはまだフルBrowser Rendering APIが必要だけど、公開ページから構造化データを抜くだけなら、セッション状態を自分で管理するより断然楽になる。

10
radium3d
約5時間前

「メールで済む話」ならぬ「プロンプトで済む話」だし、これならローカルでも実行できる。Linuxのターミナルからやる方法はいくらでもあるよ。

サイト内の全ページをクロールするカスタムクローラーを書いて(ドメイン内のリンク限定、人間っぽくスクロール、結果はWebPのスクショ、HTML、Markdown、構造化JSONで保存)。ヘッドレスのGoogle Chromeを使ってLinuxマシンのターミナルで動かし、マルチコアを活かして複数ページを同時処理すること。ただし、同じIPからサーバーを叩きすぎないようにスロットリングも考慮して。

Python, Playwright, BeautifulSoup4, Pillow, aiofiles, trafilaturaあたりのオープンソースを使えばいけるはずだ。