Broken links a SEO
Spis treści:
Mamy z nimi do czynienia dość często, są stałym elementem, który można zobaczyć na większości stron internetowych (jeśli się dobrze szuka) – broken links – co to jest i czy jest się czego bać? Jaki mają wpływ na pozycjonowanie? Zapraszam do przeczytania artykułu.
Ideą, która przyświecała twórcom protokołów internetowych było sprawienie, by użytkownicy obcowali z pulą dokumentów, które są ze sobą powiązane. Te powiązania miały w domyśle pozwolić na szybsze przechodzenie pomiędzy dokumentami. Implementacja tego konceptu to dokumenty w formie podstron danej witryny dostępnej w sieci, a wspomniane wcześniej połączenia to linki pomiędzy nimi.
Co to są broken links?
Broken links (uszkodzone linki) są to powiązania pomiędzy dokumentami, które nie wskazują na aktywny dokument. Gdy dany dokument „żyje”, jest obecny na serwerze wówczas wysyła w odpowiedzi na żądanie użytkownika kod HTTP 200 OK. W przypadku, gdy dany zasób nie może być odnaleziony na serwerze wówczas użytkownik jest o tym informowany poprzez kod HTTP 404 Not Found.
Jeśli link prowadzi do dokumentu, który odpowiada kodem HTTP 404 Not Found (lub innym z grupy 4xx), wówczas mamy do czynienia z uszkodzonym (zerwanym) odnośnikiem.
Jak powstają uszkodzone linki?
Broken links powstają najczęściej w wyniku błędnego działania oprogramowania lub też z winy użytkownika. Możliwe scenariusze powstawania w ramach witryny uszkodzonych odnośników mogą być następujące:
- błąd oprogramowania – zdarza się wówczas, gdy moduł CMS, który odpowiada za generowanie odnośników działa nieprawidłowo i np. dopisuje do linka jakiś przedrostek, lub ogólniej rzecz biorąc tworzy linki, które nie kierują do docelowych stron. W tej kategorii należy też wspomnieć o błędnych przepisaniach w pliku .htaccess.
- zmiana wersji oprogramowania – uszkodzone linki mogą też powstać na skutek migracji strony lub zmiany wersji oprogramowania, gdy wraz z nią zmienia się też adresacja URL a system nie jest w stanie wykonać automatycznego przekierowania,
- literówka – najczęstszy błąd po stronie użytkownika – tworząc link do wybranej strony popełnia błąd i zapisuje link z literówką, przez co nie prowadzi on do wskazanej strony,
- usunięta podstrona – link co prawda istnieje i jest poprawny, ale brakuje strony docelowej, gdyż została usunięta albo została zmieniona jej lokalizacja,
- link do wersji testowej – czasem zdarza się, że na stronie mamy linki do wersji testowej, które nie zostały podmienione przez deweloperów podczas uruchomienia wersji produkcyjnej, takie linki również prowadzą do podstrony, która zwraca kod błędu,
- link bez obsługi przekierowania – strona jest dostępna jedynie w wersji „bez www”, podlinkowana zostaje jedna, specyficzna wersja strony np. https://www.domena.pl ale nie ma ustawionego przekierowania na wersję podstawową
Przyczyn powstawania uszkodzonych odnośników może być więcej, niektóre z nich są bardzo złożone i występują tylko w kombinacji wielu czynników. Niezależnie od tego jak dany link powstał trzeba wdrożyć plan, który pozwoli na eliminację błędów i podmianę uszkodzonych odnośników.
Rodzaje odnośników
Warto wspomnieć, że utracone odnośniki możemy kategoryzować. Wymienione kategorie linków pokrywają się z ogólnymi kategoriami, które możemy przypisać do dowolnego odnośnika w sieci. Wiele z narzędzi do sprawdzania uszkodzonych linków korzysta z tych kategorii, dlatego warto w tym miejscu o nich wspomnieć.
Utracony link wewnętrzny to taki odnośnik, który prowadzi do innego, nisdostępnego zasobu w obrębie naszej domeny. Linkiem wewnętrznym jest np. odnośnik, który na stronie https://www.domena.pl/jakis-artykul.html wskazuje na https://www.domena.pl/inny-artykul.html. Podobnie rzecz się ma jeśli chodzi o linki do subdomeny w naszej domenie.
Linkiem zewnętrznym nazywamy taki odnośnik, który kieruje do nas spoza domeny lub jest to link z naszej strony poza nią. Przykłady to link z https://www.inna-domena.pl/artykul/id=2 do https://www.domena.pl oraz link z https://www.domena.pl który prowadzi do https://www.inna-domena.pl/jakis-artykul. Nadal obowiązuje założenie, że link ten nie doprowadza nas do celu – wspomniany artykuł u nas, lub na drugiej domenie nie istnieje lub użytkownik wstawiając link popełnił błąd i np. zamiast do https://www.inna-domena.pl umieścił link do https://www.ina-domena.pl.
Linki możemy też podzielić ze względu na ich typ. Oznacza to konkretny rodzaj linka – czyli odnośnik tekstowy lub odnośnik graficzny. Link tekstowy w kodzie wygląda następująco:
<a href=”https://www.domena.pl/artyukul”>Tytuł artykułu</a>
Link graficzny (link z obrazka) w kodzie strony wygląda następująco:
<a href=”https://www.domena.pl/artyukul”>
<img src=”https://www.domema.pl/res/img/banner.jpg” alt=”Tytuł artykułu”>
</a>
Do broken links możemy też zaliczyć pętlę przekierowań. Jest to sytuacja, gdy strony wzajemnie na siebie wskazują za pomocą przekierowania a co za tym idzie nie da się go zakończyć. Przykład to następująca sytuacja:
- strona https://www.domena.pl/artykul ma ustawione przekierowanie na nową wersję https://www.domena.pl/nowy-artykul
- podstrona https://www.domena.pl/nowy-artykul ze względu na zmianę adresacji została przeniesiona do katalogu artykuły, zmieniła więc adres na https://www.domena.pl/artykuly/nowy-artykul
- w wyniku błędu skryptu w pliku .htaccess znajduje się przekierowanie, które przerzuca odwiedzających z https://www.domena.pl/artykuly/nowy-artykul na adres https://www.domena.pl/nowy-artykul. W tym momencie mamy pętlę przekierowań, gdyż https://www.domena.pl/nowy-artykul wskazuje na https://www.domena.pl/artykuly/nowy-artykul
Taką sytuację przerywa przeglądarka, inaczej nigdy byśmy się nie dostali na właściwą stronę a użytkownik nawet by nie wiedział, że po drodze wystąpił błąd. Pętla przekierowań jest w 99 procentach wynikiem błędu oprogramowania a nie czynnika ludzkiego. Oczywiście przedstawiony tutaj scenariusz jest bardzo prosty i składa się tylko z 3 elementów. Realnie te scenariusze przekierowań są znacznie dłuższe, obejmujące czasem nawet kilkadziesiąt przekierowań.
Jak znaleźć broken links?
Uszkodzone odnośniki nie są trudne do odnalezienia, ale aby to zrobic konieczne może być użycie dodatkowego (czasem płatnego) oprogramowania. Zanim omówimy kilka najpopularniejszych przykładów takich programów warto wspomnieć o ręcznym wyszukiwaniu takich uszkodzonych linków. Na broken link można trafić analizując serwis po zmianach lub klikając w linki z czytanego artykułu. Każda sytuacja, w której zamiast spodziewanego przez nas zasobu (artykuł, produkt, plik, obrazek) zobaczymy stronę błędu 404 oznacza, że taki uszkodzony odnośnik został przez nas odnaleziony.
Dane z indeksu Google
W znalezieniu broken link może nam pomóc indeks wyszukiwarki Google. Tego sposobu można użyć w zasadzie tylko w jednym przypadku – po aktualizacji strony lub po zmianie szablonu graficznego (jeśli zmieniana też była struktura URL).
Kontrolę indeksu powinniśmy wykonać od razu po zmianach, wówczas mamy pewność, że roboty wyszukiwarki jeszcze nie odwiedziły nowej wersji strony i nie zaktualizowały indeksu. Pierwszym krokiem w tej procedurze jest sprawdzenie jakie strony znajdują się w indeksie Google. W tym celu należy wydać zapytanie do wyszukiwarki Google:
site:domena.pl
gdzie domena.pl to nasza domena. Zapytanie powinno być wydane w przedstawionej wyżej formie, czyli bez przedrostków np. https://www . Należy także pamiętać, żeby nie używać spacji przed i za dwukropkiem.
Kolejny krok to sprawdzenie czy wszystkie obecne strony w indeksie wczytują się poprawnie, czy czasem nie ma gdzieś błędów np. 404. Takie strony błędów należy zapisać i dzięki temu otrzymujemy listę podstron w serwisie, która zwraca kod błędu i do której prowadzą broken links.
Oczywiście nie są to wszystkie linki, ale jeśli wiemy, że analizując indeks wyszukiwarki odkryliśmy błąd w adresacji np. podkategorii, wówczas warto sprawdzić pozostałe podkategorie pod tym kątem.
Cały proces można zautomatyzować przy użyciu wtyczek do przeglądarki, ale trzeba ich rozważnie używać – Google blokuje automatycznie generowane zapytania.
404 w GSC
Innym sposobem na znalezienie uszkodzonych linków, które prowadzą do stron z błędem 404 jest sprawdzenie, czy nie mamy o nich informacji w Google Search Console. GSC jest narzędziem, w którym Google przesyła do webmastera komunikaty dotyczące strony oraz pokazuje tam część danych, które o tej stronie zebrały roboty indeksujące. Jest to o tyle ważne, że analizując GSC nie zobaczymy wszystkich danych a jedynie przykłady, które są reprezentatywne dla próbki danych.
Warto wspomnieć jeszcze o jednym mankamencie tego rozwiązania – w GSC nie zobaczymy danych z ostatnich 4 dni – to co widzimy to dane sprzed kilku dni. Oznacza to, że nie będzie można użyć tego rozwiązania od razu po migracji / aktualizacji strony www.
W celu znalezienia stron, które zwracają kod 404 w Google Search Console należy wybrać właściwą usługę (np. wersję „z www”) oraz przejść do zakładki strony. Znajdują się tam informacje o podstronach serwisu oraz o znalezionych problemach związanych ze stronami. Następnie należy przewinąć stronę w dół i poszukać pozycji Nie znaleziono (404). Po jej wybraniu otrzymujemy tabelę z adresami, które zwracają błąd. Lista ta jest ograniczona do 1000 pozycji. Jeśli stron błędu jest więcej – nie zostaną one wszystkie pokazane.
Kontrola linków zwrotnych w Ahrefs
Popularne narzędzie, służące do analizy odnośników prowadzących do strony – ahrefs.com ma również dodatkową funkcję, która pozwala na sprawdzenie, czy do naszej domeny nie kierują linki, które możemy skategoryzować jako uszkodzone.
Pierwszym krokiem jest wywołanie raportu linków dla domeny, którą chcemy sprawdzić. Następnie z lewego menu wybieramy opcję „Uszkodzone linki zwrotne”. Otrzymujemy listę linków oraz miejsc, w które prowadzą.
Analiza w Screaming Frog
Popularny crawler Screaming Frog również jest w stanie pokazać nam informacje, które strony zwracają kod odpowiedzi 404 oraz które linki można zaliczyć do grupy broken links.
Po wykonaniu crawla strony możemy przefiltrować wyniki względem kodu odpowiedzi, co umożliwi nam dostanie się do grupy podstron, do których prowadzą broken links.
Screaming Frog może nam też pokazać jakie linki wychodzące z naszego serwisu prowadzą do nieistniejących stron. W tym celu, przed wykonaniem crawla należy w ustawieniach crawlowania wybrać opcję Crawl oraz Store dla sekcji External Links. Twórcy oprogramowania zalecają też w tym przypadku dezaktywację parametru Crawl Depth, który odpowiada za głębokość crawlowania strony.
Jak się pozbyć broken links?
Obecność w naszym serwisie uszkodzonych linków, a co za tym idzie stron i zasobów, które zwracają kod 4xx to w większości przypadków zjawisko niepożądane. Istnieje kilka możliwości, by radzić sobie z uszkodzonymi linkami:
- Przekierowanie strony, która zwraca kod 4xx
Jest to najprostsze rozwiązanie, które możemy wykonać na kilka sposobów w zależności od tego, jaki mamy CMS. Niektóre z nich to:
1.1 przekierowanie za pomocą pliku .htaccess – jest to metoda, która wymaga dostępu do pliku .htaccess oraz odrobiny wiedzy, gdyż błędne zapisy w tym pliku mogą sprawić, że strona przestanie działać. Rozwiązanie to jest najszybsze, bo przekierowanie następuje, zanim kod docelowy strony zostanie pobrany.
1.2 przekierowanie za pomocą kodu w nagłówku – rozwiązanie to polega na umieszczeniu kodu (najczęściej PHP) w nagłówku strony, kod ten odsyła użytkownika i roboty wyszukiwarki pod inny adres. Rozwiązanie nie jest tak szybkie jak poprzednie, bo wymaga już pobrania danych przez przeglądarkę.
1.3 Przekierowanie podstrony za pomocą wtyczki lub pluginu – jest to rozwiązanie najprostsze z punktu widzenia użytkownika, czasem wystarczy jedynie wybrać stronę z listy wszystkich stron, które zwracają kod 404 (wówczas nawet nie musimy sprawdzać, czy takie strony u nas występują – wtyczka zrobi to za nas) a następnie wskazanie na jaką inną podstronę ma zostać wykonane przekierowanie. Z uwagi na sporo nadmiarowego kodu to rozwiązanie jest najwolniejsze ze wszystkich.
- Ponowne uruchomienie podstrony – w niektórych przypadkach nie ma konieczności przekierowywania podstrony, wystarczy znów ją włączyć. Dzieje się tak np. w momencie uruchamiania cyklicznych kampanii reklamowych np. odzież na zimę. Używanie jednego adresu url dla takich kampanii (zima 2020, zima 2021, zima 2022, zima 2023, …) daje też lepsze rezultaty jeśli chodzi o pozycjonowanie strony.
- Poprawa odnośnika w kodzie – warto ją wykonać, jeśli dana podstrona jest linkowana sitewide (link na wszystkich stronach np. w stopce) albo jest linkowana ze strony głównej. Wówczas należy podmienić niedziałający link na nowy, który prowadzi do strony docelowej. Warto to zrobić nawet wtedy, gdy zostało ustanowione przekierowanie na nową stronę.
- Kontakt z webmasterem – to zadanie warto wykonać, gdy broken link, który prowadzi do naszej strony jest umieszczony na zewnętrznym serwisie i nie możemy sami go podmienić. Kontakt z właścicielem strony pomoże w podmianie takiego linka na poprawny.
- Usunięcie linka z kodu – czasem zdarza się, że celowo nie chcemy ustawiać przekierowania, włączać nowej strony itp. wówczas należy link do niej usunąć z kodu strony.
- Sitemapa stron z błędem – jest to ostateczna ostateczność, która pomoże nam wyindeksować podstrony, których nie chcemy w serwisie. Przykładowo, po ataku hakerskim zostaje nam sporo stron z reklamą viagry, których oczywiście nie chcemy przekierowywać. Pomimo usunięcia strony te nadal są w indeksie. Należy wówczas utworzyć osobną mapę xml z tymi adresami i zgłosić ją w Google Search Console. Przyspieszy to znacznie czas wyindeksowania strony.
Podsumowanie
Uszkodzone linki niosą za sobą szereg konsekwencji jak np. spadek ilości możliwych do zaindeksowania podstron serwisu, dlatego należy cyklicznie sprawdzać swoją stronę www pod kątem wystąpienia takich linków a problem z nimi rozwiązywać za pomocą jednej z wymienionych metod.