Czym jest Crawl Budget?
Spis treści:
Budżet crawlowania lub inaczej Crawl Budget odgrywa kluczową rolę w procesie skanowania zawartości stron przez roboty wyszukiwarek. Jest to tak naprawdę liczba stron internetowych, którą robot może odwiedzić w określonym czasie, np. w ciągu jednego dnia.
Po skanowaniu witryny, które bot uznaje za wartościowe, są w dalszym ciągu indeksowane. Dopiero wtedy te strony pojawiają się w organicznych wynikach wyszukiwania. Crawl Budget wpływa na to, jak szybko i kompletnie strony trafiają do wyników wyszukiwania, co stanowi kluczowy aspekt dla ich widoczności w sieci. Budżet crawlowania nie ma bezpośredniego wpływu na pozycje stron w wynikach wyszukiwania, niemniej jednak odgrywa kluczową rolę w procesie optymalizacji strony.
W przypadku, gdy witryna ma ogromną ilość podstron, nie ma gwarancji, że bot zaindeksuje je wszystkie. Może się zdarzyć, że robot skupi się na stronach błędnych lub mało istotnych, nie pozwalając na zaindeksowanie kluczowych stron ze względu na ograniczenia czasowe i budżetowe. Dlatego optymalizacja budżetu crawlowania jest kluczowa dla zapewnienia kompleksowego indeksowania najważniejszych treści na stronie.
Jak działa crawlowanie strony od strony wyszukiwarki?
Robot wyszukiwarki jest zasilany listą adresów URL do sprawdzenia na stronie i regularnie ją odwiedza. Proces tworzenia tej listy jest oparty na kilku kluczowych elementach i składa się z:
- wewnętrznych linków na stronie,
- mapy strony w formacie XML (sitemap.xml), która służy jako przewodnik dla robotów wyszukiwarek, prezentując strukturę witryny i wyznaczając kluczowe strony do indeksacji,
- zewnętrznych linków, które prowadzą do witryny i mogą wpływać na to, jak często robot wyszukiwarki odwiedza poszczególne strony.
Robot wyszukiwarki regularnie porównuje adresy URL z plikiem robots.txt, który zawiera zakazy i zezwolenia odnośnie indeksacji poszczególnych stron. Jeśli URL nie jest objęty zakazem, zostaje dodany do listy do przeglądania. Warto jednak pamiętać: dyrektywy z pliku robots.txt to jedynie rekomendacja dla robota i nie zawsze on do niej się stosuje.
Istnieją sytuacje, kiedy URL może być zindeksowany mimo zakazu – może to wynikać z wcześniejszego zaindeksowania linków do danej strony, ustawienia przekierowań, a także wykrycia innych sygnałów sugerujących ważność danego adresu URL. W takich przypadkach robot może uznać to za błąd i kontynuować skanowanie strony, a Google może poinformować o „indeksowaniu pomimo zakazu”.
Dokładniejszy opis procesu crawlowania został również udostępniony przez Googledzięki Gary’emu Illyesowi. Google tworzy listę adresów URL i sortuje je według priorytetów, następnie rozpoczyna się skanowanie według tej listy, zaczynając od góry i przechodząc stopniowo w dół. Po zeskanowaniu adresu URL i przeanalizowaniu jego treści robot-crawler dodaje nowe adresy do listy przeglądania, aby odwiedzić je później lub od razu.
Po co istnieje Crawl Budget?
Gdy roboty wyszukiwarek przeglądają nową lub zmienioną stronę, muszą przeanalizować całą zawartość – od kodu do elementów wizualnych – a następnie przekazać te dane do indeksu. To działanie generuje obciążenie na serwerze, na którym umieszczona jest strona. Można wyobrazić sobie sytuację, gdy na stronie zawierającej miliony podstron jednocześnie pojawi się kilkanaście robotów wyszukiwarek.
Taka sytuacja spowoduje przeciążenie serwera i prawdopodobnie doprowadzi do awarii strony. Dlatego równomierne i stopniowe przeszukiwanie stron pozwala zminimalizować obciążenie na serwerze, zapobiegając potencjalnym problemom technicznym.
Jak jest przydzielany Crawl Budget?
Oprócz ograniczeń ze strony serwera istnieją również ograniczenia dotyczące możliwości obliczeniowych systemów wyszukiwania oraz liczby crawlerów.
Dlatego wyszukiwarki przydzielają każdej stronie ograniczoną liczbę zasobów, uwzględniając dwie główne kwestie:
- szybkość skanowania,
- zapotrzebowanie na skanowanie.
Szybkość skanowania zależy od czasu odpowiedzi strony: im szybciej robot otrzymuje dane, tym więcej stron będzie w stanie przeskanować w przydzielonym mu czasie.
Zapotrzebowanie na skanowanie jest uzależnione od następujących czynników:
- Popularność strony. Im jest ona bardziej popularna, tym częściej robot ją odwiedza.
- Wymagana częstotliwość skanowania, która zapewni aktualność treści. Oznacza to częstotliwość aktualizacji treści. Na przykład na popularnym blogu sklepu internetowego szybkość skanowania będzie wyższa niż na statycznych stronach tego samego sklepu, takich jak np. polityka prywatności lub FAQ.
- Liczba adresów URL w obrębie witryny. Im więcej stron, tym większy Crawl budget. Na przeglądanie wszystkich stron na stronach internetowych, w zależności od ich wielkości, przeznaczony jest różny budżet. Małej witrynie – do 1 000 stron – prawdopodobnie zostanie przydzielony mniejszy budżet niż waszej stronie. Zazwyczaj minimalna wartość przydzielonego budżetu jest wystarczająca dla małych stron do skutecznej indeksacji. Oznacza to, że wszystkie potrzebne strony będą indeksowane i obecne w wynikach wyszukiwania. Duża strona może jednak potrzebować zwiększenia i optymalizacji budżetu.
- Tematyka strony. Na przykład strony z wiadomościami, blogi, fora i inne podobne serwisy zazwyczaj są aktualizowane częściej.
Co robić w przypadku zbyt niskiego Crawl Budget?
Jeśli budżet crawlowania jest wykorzystywany na przeglądanie mniej istotnych stron (takich jak strony z błędami, parametry, duplikaty, puste strony czy strony techniczne), to wartościowe strony mogą zostać nieuwzględnione w wynikach wyszukiwania. Może to spowodować następujące konsekwencje:
- Zaktualizowane strony mogą pozostać nieodświeżone przez długi czas, co prowadzi do przedstawiania nieaktualnych informacji w wynikach wyszukiwania.
- Nowe strony mogą mieć trudności z indeksacją, co oznacza, że nie pojawią się w wynikach wyszukiwania.
Jak zoptymalizować budżet crawlowania?
Optymalizacja kodów odpowiedzi
Dla dobrze zoptymalizowanej strony istnieją tylko dwa dopuszczalne rodzaje odpowiedzi serwera: 200 (OK) i 301 (stałe przekierowanie). Przy tym liczba 200 powinno znacząco przewyższać 301. Odpowiedź serwera 200 (OK) oznacza, że strona została znaleziona i wyświetlona prawidłowo. Natomiast 301 (stałe przekierowanie) informuje, że strona została przeniesiona na inny adres stały.
Inne rodzaje odpowiedzi, takie jak 404 (nie znaleziono) czy 500 (błąd serwera), mogą wskazywać na problemy, które mogą mieć negatywny wpływ na doświadczenie użytkownika i indeksowanie strony przez roboty wyszukiwarek.
Wszystko inne wymaga szczegółowego zbadania i poprawy. Oto kilka przypadków, które ilustrują znaczenie poprawnych kodów odpowiedzi serwera:
- Użycie przekierowania tymczasowego 302 zamiast stałego 301 oznacza, że zawartość jest tylko tymczasowo niedostępna. To powoduje niepotrzebne zużycie limitów crawlowania.
- Użycie kodu 404 (nie znaleziono) zamiast 410 (trwale usunięto) oznacza, że strona jest nieznaleziona, ale nadal jest szansa, że zostanie odnaleziona w przyszłości. To kolejne marnowanie budżetu, jeśli strona faktycznie została trwale usunięta.
- Strona z kodem 404 nadal może gromadzić linkową wartość pod względem SEO, która idzie na marne. Rozsądnym podejściem jest stworzenie listy stron 404 i rozważenie przekierowania na równoważną lub podobną stronę.
- Regularne zwracanie kodu odpowiedzi serwera 500 (błąd serwera) to jasny sygnał niskiej jakości witryny, który roboty wyszukiwarek będą odwiedzać coraz rzadziej i skanować coraz mniej.
Modyfikacja pliku sitemap.xml
Oprócz tego, ważne jest regularne monitorowanie pliku Sitemap.xml, aby upewnić się, że ten plik nie zawiera usuniętych stron, adresów URL przekierowań lub błędów. Usuwanie niepotrzebnych elementów, takich jak niestandardowe lub błędne linki, przekierowania oraz strony z odpowiedziami kodu innymi niż „200 OK”, pomaga utrzymać integralność i aktualność mapy strony. Regularne przeglądanie tego pliku jest kluczowe dla zapewnienia, że wyszukiwarki mogą efektywnie indeksować ważne strony witryny.
Modyfikacja pliku robots.txt
Z pewnością warto sprawdzić plik robots.txt, aby upewnić się, że wszystkie potrzebne strony są otwarte do indeksacji za pomocą dyrektywy Allow, a wszystkie zbędne linki są ukryte za pomocą dyrektywy Disallow. Odpowiednie skonfigurowanie tego pliku jest kluczowe dla kontroli dostępu robotów wyszukiwarek do konkretnych obszarów witryny, zapewniając, że tylko pożądane treści są indeksowane, a zbędne są wykluczone z wyników wyszukiwania.
Optymalizacja przekierowań
Audyt techniczny strony rozpoczyna się od sprawdzenia przekierowań do strony głównej. Strona może być dostępna jednocześnie poprzez HTTP lub HTTPS, a także z WWW lub bez niego. To powoduje duplikaty, a w takim przypadku wyszukiwarka może uznać jedną z tych wersji za główną, co może prowadzić do utraty budżetu crawlowania.
Dlatego konieczne jest skonfigurowanie przekierowania 301 (stałego) na jedyną wybraną przez wersję strony.
Należy również upewnić się, że używane jest tylko jedno przekierowanie. Przy nieodpowiednim skonfigurowaniu przekierowań można otrzymać łańcuch dwóch lub trzech przekierowań, co znacznie zużywa Crawl Budget.
Optymalizacja szybkości ładowania stron
Szybkość ładowania strony bezpośrednio wpływa na pracę robota wyszukiwarki – jeśli strona szybko się wczytuje, robot może w pełni i szybko wykonać swoją pracę. Szybka strona pozwala robotowi przeglądać i indeksować więcej stron w krótszym czasie, co z kolei korzystnie wpływa na widoczność treści w wynikach wyszukiwania. Optymalizacja szybkości wczytywania strony to kluczowy czynnik, który wspiera efektywne indeksowanie przez roboty wyszukiwarek.
Weryfikacja duplikacji wewnętrznej
Indeks wyszukiwarki nie powinien zawierać stron technicznych i generowanych automatycznie, stron filtrów, porównań produktów, stron z tagami UTM, parametrami i identyfikatorami sesji. Należy zablokować je przed indeksowaniem za pomocą pliku robots.txt.
Zduplikowaną treść szczególnie często można zaobserwować na stronach e-commerce. Ten sam content jest dostępny pod różnymi adresami. Chodzi tutaj o strony sortowania, filtrowania, wewnętrznego wyszukiwania itp. Często podczas audytu można zauważyć, że do indeksu trafiają strony porównań produktów i nawet sesje użytkowników, aż do zawartości „Koszyka”.
Nie zawsze możliwe jest techniczne zablokowanie strony przed robotem wyszukiwarki. W takich przypadkach stosuje się tag kanoniczny, który informuje robota, która strona powinna być zindeksowana, a która może być zignorowana. W tym przypadku tag kanoniczny działa jak odpowiednik przekierowania 301.
Przykład: podstrona produktu należy do dwóch różnych kategorii produktów i jest wyświetlana z różnymi URL-ami. To oznacza, że mamy dwie identyczne strony z różnymi adresami. Wyszukiwarki łączą takie strony i mogą coś wyeliminować z indeksu. A potem mogą dodać ponownie. A potem znów usunąć. Aby uniknąć takich manipulacji i niepotrzebnego zużycia budżetu crawlowania, należy skonfigurować tag kanoniczny, jeśli system zarządzania treścią na stronie (CMS) nie oferuje lepszego rozwiązania.
Kolejna opcja to użycie meta tagu NOINDEX. Należy jednak pamiętać: takie strony są nadal skanowane, po prostu rzadziej niż normalnie. W rezultacie Crawl Budget nadal jest marnowany. Dodatkowo do NOINDEX koniecznie należy dodać Follow: taka strona może gromadzić wartość pod względem SEO, więc warto ją przekierować na ważniejsze strony.
Optymalizacja struktury strony
Pełna przebudowa już działającej strony to jedno z najtrudniejszych zadań. Oczywiście znacznie łatwiej jest zrobić to poprawnie na etapie rozwoju. Złożone struktury witryn są skanowane znacznie gorzej niż „płaskie” struktury. Dla odwiedzających także jest znacznie trudniej odnaleźć odpowiednie treści. Jeśli do tego dodamy nieefektywną nawigację, zwłaszcza na urządzeniach mobilnych, to mamy do czynienia z poważnym problemem w zakresie SEO.
Optymalizacja struktury linkowania wewnętrznego strony może wymagać dość złożonych metod, wykraczających poza czysto techniczne SEO. Pierwszym krokiem jest wizualizacja istniejącej struktury za pomocą różnych narzędzi audytu stron internetowych. Na tym etapie można przynajmniej wprowadzić drobne poprawki, oceniając wizualnie niedoskonałości struktury strony.
Pętle i ślepe uliczki
Pętle to linki prowadzące do tej samej strony. Najprostszym przykładem jest klikalny ostatni element nawigacji okruszkowej Breadcrumbs, który wskazuje tę samą stronę. Najlepiej usunąć z niego aktywny odnośnik, pozostawiając go jedynie jako element nawigacyjny, pokazujący odwiedzaną lokalizację.
Ślepe uliczki to strony, które nie zawierają żadnych wychodzących odnośników. Posiadają one tzw. link juice, ale nie przekazują go dalej. Jest to rodzaj „ślepej uliczki” dla robota, który nie ma już gdzie przejść ze strony. Zazwyczaj takie strony nie stanowią poważnego problemu, ale warto przeanalizować ich charakter i w miarę możliwości wprowadzić korekty.
Izolowane strony, do których nie prowadzi żaden odnośnik, mogą stanowić kolejny poważny problem. Na szczęście w nowoczesnych systemach zarządzania treścią jest to rzadko spotykane. Na przykład z jakiegoś powodu strona nie jest uwzględniona w listach kategorii, nie jest widoczna w nawigacji strony, a w najgorszym przypadku – strona może być wynikiem włamania, gdzie hakarzy umieścili swoje treści w celu uzyskania zewnętrznych odnośników.
Warto ocenić, czy strona w ogóle jest potrzebna, a następnie upewnić się, że jest właściwie zindeksowana i w razie potrzeby naprawić problem.
Optymalizacja linkowania zewnętrznego
Im więcej linków zewnętrznych odnosi się do konkretnych adresów URL w obrębie witryny, tym większe prawdopodobieństwo, że robot wyszukiwarki w pierwszej kolejności je zeskanuje.
Badanie logów serwera
Analiza logów serwera zapewnia maksymalną ilość informacji na temat ścieżek botów i harmonogramów ich odwiedzin. Jednakże dostęp do logów może być ograniczony, zależnie od rodzaju hostingu. Jeśli uzyskanie logów serwera jest problematyczne to lepszym rozwiązaniem może być zmiana hostingu.
Podczas analizy logów serwera warto pamiętać, że nie każdy bot, który wydaje się być GoogleBotem, jest nim w rzeczywistości. Dlatego warto zwracać uwagę na adres IP bota i sprawdzać go w WHOIS, aby odfiltrować potencjalne błędy.
Przetworzenie danych z okresu takiego jak miesiąc jest optymalne dla analizy zachowania bota. W trakcie analizy warto zwrócić uwagę na kilka kluczowych aspektów:
- Częstotliwość odwiedzin bota.
- Najczęściej odwiedzane adresy URL.
- Kategorie, które absorbują najwięcej zasobów.
- Adresy URL ignorowane przez bota.
- Wykryte błędy i ich rodzaje.
To kluczowe aspekty, które mogą dostarczyć istotnych informacji na temat aktywności bota na stronie. Analiza tych danych może pomóc w identyfikacji obszarów do optymalizacji i usprawnień strony.
Podsumowanie
Crawl budget to liczba stron (linków) na stronie, którą robot wyszukiwarki może przeglądać w jednostce czasu, np. w ciągu dnia. Dla każdej witryny system wyszukiwania ustala swój budżet. Szybkość pojawienia się odpowiednich stron w wynikach wyszukiwania zależy od wielkości budżetu crawlowania.
Małe witryny mogą nie martwić się o ten budżet. Jednak dla dużych stron ważne jest sprawdzenie, ile nowych stron na dobę przeglądają roboty i porównanie tego wyniku z liczbą regularnie aktualizowanych lub nowych podstron serwisu. Jeśli na stronie jest znacznie więcej nowych lub zaktualizowanych stron niż roboty są w stanie przeskanować, konieczne jest zoptymalizowanie budżetu crawlowania.