Home
Technologie & Infrastruktura
Cloudflare kontra AI crawlery – koniec darmowego scrapowania

Cloudflare kontra AI crawlery – koniec darmowego scrapowania

Dariusz PiteraTechnologie & Infrastruktura8 months ago31 Views

Cloudflare właśnie zrobił coś, co może przewrócić do góry nogami sposób, w jaki firmy AI zbierają dane z internetu. Od 1 lipca 2025 każda nowa domena podłączona do Cloudflare domyślnie blokuje crawlery AI . To nie brzmi jak wielka sprawa? Pomyśl jeszcze raz – Cloudflare obsługuje około 20% całego ruchu internetowego .

Dlaczego właśnie teraz

Przez lata AI crawlery jak GPTBot czy ClaudeBot działały na zasadzie „biorę, bo mogę”. Strony internetowe to tolerowały, bo w sumie nie było wyboru. Ale potem się okazało, że te boty potrafią być naprawdę nachalne – niektóre odwiedzają te same strony co kilka godzin, albo bombardują serwery setkami żądań na sekundę.

Cloudflare w swoich danych pokazuje, że crawlery AI to już nie tylko problem teoretyczny . Mówimy o ponad 50 miliardach żądań dziennie do ich sieci. Dla porównania: GoogleBot odwiedza stronę 14 razy na każde przekierowanie ruchu z powrotem. OpenAI? 17 000 razy. Anthropic? 73 000 razy.

Jak to działa w praktyce

Cloudflare wprowadził dwie główne zmiany:

Blokada domyślna: Nowe domeny automatycznie blokują wszystkie znane crawlery AI . Lista obejmuje wszystkich głównych graczy: GPTBot (OpenAI), ClaudeBot (Anthropic), Amazonbot, Bytespider (ByteDance), i kilkanaście innych.

Pay Per Crawl: Właściciele stron mogą teraz pobierać opłaty za każdą wizytę crawlera . System działa na kodzie HTTP 402 „Payment Required” – technicznie dostępnym od lat 90., ale praktycznie nigdy nie używanym.

Mechanizm płatności

Gdy crawler AI próbuje dostać się do chronionej strony, dostaje odpowiedź HTTP 402 z ceną dostępu . Może wtedy albo zaakceptować cenę i zapłacić, albo jak to mówił Gandalf: “Go back to the shadow”. Cloudflare pełni rolę pośrednika – pobiera pieniądze od firm AI i przekazuje właścicielom treści .

System używa kryptografii klucza publicznego do uwierzytelniania, żeby nikt nie mógł udawać legalnego crawlera. Nie ma tu miejsca na oszustwa.

AI Labyrinth – walka ogniem z ogniem

Cloudflare nie poprzestał na blokadzie. Wprowadzili też „AI Labyrinth” – system, który przekierowuje nielegalnych crawlerów na fałszywe strony wypełnione bezsensowną treścią wygenerowaną przez AI . Boty mogą się tam bawić w nieskończoność, marnując zasoby na analizowanie śmieci.

Czy ktoś już tego używa ?

Lista firm, które wsparły inicjatywę Cloudflare, brzmi jak „Who’s Who” mediów: Condé Nast, TIME, Associated Press, The Atlantic, Fortune, ADWEEK, BuzzFeed, Stack Overflow, Reddit, Pinterest .

Roger Lynch z Condé Nast nazwał to „game-changerem” dla branży wydawniczej. Neil Vogel z Dotdash Meredith dodał: „Możemy teraz ograniczyć dostęp do naszych treści tym partnerom AI, którzy chcą uczciwie współpracować”.

Co to znaczy dla firm AI

Dla firm AI to nie lada wyzwanie. Dotychczas mogły po prostu „brać” treści z internetu. Teraz muszą:

Negocjować dostęp
Płacić za treści
Jasno określać, do czego używają danych (training, inference, search)

Matthew Prince z Cloudflare powiedział wprost: „Jeśli internet ma przetrwać erę AI, musimy dać wydawcom kontrolę, na jaką zasługują”.

Problemy na horyzoncie

Nie wszystko jest różowe. Eksperci zwracają uwagę, że całkowite blokowanie może zaszkodzić badaniom naukowym czy archiwizacji internetowej. Shayne Longpre z MIT ostrzega:

„Nie wszystkie systemy AI konkurują z każdym wydawcą internetowym. Użytkowanie osobiste i otwarte badania nie powinny ucierpieć”.

Reakcja rynku

Inni dostawcy CDN już się przyglądają. Fastly wprowadził podobne opcje w kwietniu 2025. Pytanie brzmi: czy Akamai, Amazon CloudFront i Microsoft Azure pójdą tym samym śladem?

Biorąc pod uwagę, że Cloudflare ma około 40% udziału w rynku CDN, presja na konkurencję będzie spora.

Przyszłość

Cloudflare nie ukrywa, że Pay Per Crawl to dopiero początek. Planują rozwijać system w kierunku „agentic paywalls” – gdzie agenci AI będą mieli budżet na kupowanie treści w imieniu użytkowników.

Wyobraź sobie: pytasz swojego asystenta AI o najnowsze badania nad rakiem, a on kupuje dostęp do odpowiednich publikacji naukowych. Automatycznie. Z twoim budżetem.

Podsumowanie

Cloudflare właśnie zmienił reguły gry w internecie. Era darmowego scrapowania się kończy – przynajmniej dla tej piątej części internetu, która przez nich przechodzi.

Czy to dobrze? Dla wydawców – na pewno. Dla firm AI – może okazać się koszmarem. Dla użytkowników końcowych – zobaczymy. Jedno jest pewne: internet nigdy nie wróci do stanu sprzed lipca 2025.

Czas pokaże, czy inne firmy pójdą tą samą drogą, czy znajdą sposób na obejście systemu Cloudflare. Ale jedno jest pewne – wojna o dane internetowe właśnie się zaczęła na dobre

Upvote0PointsDownvote

0 Votes: 0 Upvotes, 0 Downvotes (0 Points)