Powielenie treści – uzupełnienie
Spis treści:
Problematyka powielonej treści na stronach internetowych jest zjawiskiem bardzo szerokim. Obejmuje wiele aspektów, które nie zostały poruszone w poprzednich częściach wpisu dotyczącego treści na stronach www. W tym artykule poruszę kolejne wątki związane z duplikacją treści.
Ten wpis jest kontynuacją miniserii wpisów, które pojawiły się już na Widzialnym Blogu. Jeśli zaczynasz lekturę od tego wpisu gorąco, zachęcam do przeczytania najpierw poprzednich części:
- Duplikacja treści – największy wróg SEO
- Audyt powielonej treści na stronie internetowej
- Narzędzia do sprawdzania powielonej treści.
Niech Twoje treści rosną jak bambus – czyli kilka słów o Pandzie
Niebawem minie 10 lat, od chwili gdy Google wypuścił w świat jednego ze swoich pupilów – Pandę, czyli algorytm, który stoi na straży jakości i unikalności treści w Internecie. Nazwa algorytmu może kojarzyć się z niewinnym stworzeniem, ale swego czasu potrafił on zrobić niezły pogrom i czystki nawet w naszej, polskojęzycznej części Internetu. Przypomnijmy raz jeszcze – lata 2011-2019 to raczej czas, gdy przetwarzanie języka tak skomplikowanego jak polski było dość trudne.
Algorytm swoją nazwę zawdzięcza jego twórcy – jednemu z inżynierów Google, od którego nazwiska pochodzi nazwa tego algorytmu. W stosownym patencie znajduje się wiele ciekawostek dotyczących sposobów analizy treści pod kątem unikalności i jakości. O części z nich wspomniałem w poprzednich wpisach. Panda początkowo grasowała po sieci wtedy, gdy została wypuszczona z klatki – czyli w momencie uruchomienia algorytmu. Obecnie działa w trybie online, analizując miliardy dokumentów tekstowych w poszukiwaniu powieleń treści.
Czy Panda była nam potrzebna? Zdecydowanie tak! Przez te lata ilość spamu, słabych jakościowo stron w wynikach wyszukiwania oraz powielonej treści znacznie się zmniejszyła. Google nauczył się też lepiej rozpoznawać autorstwo treści, a większość powieleń nie trafia nawet do indeksacji.
Na naszych oczach działa się (i dzieje się nadal) rewolucja. Właściciele stron zrozumieli, że tylko dobrym i unikalnym contentem są w stanie walczyć o wysokie pozycje w rankingu wyszukiwarki Google, a co za tym idzie – o nowych klientów. Ilość nowych, unikalnych treści w stosunku do nieunikalnych treści jest ogromna. Codziennie powstają nowe opisy, posty na bloga, notatki, poradniki, odpowiedzi na pytania czy wpisy w encyklopedii. Google lubi treść, a zwłaszcza taką, która stanowi wartość dodaną dla użytkownika, i taką treść promuje i nagradza wysokimi pozycjami.
Nawet najwięksi gracze, którzy do niedawna działali w myśl zasady, że duży może więcej, i nie przejmowali się opisami, teraz tworzą działy content marketingu zajmujące się wzbogacaniem stron o nowe, pasjonujące teksty. Opis na 5 tysięcy znaków dla strony kategorii jest normą, a taki na ponad 10 tysięcy wcale nie jest rzadkością. Sytuacja z lat 2020-2021 związana z pandemią tylko ten proces przyspieszyła. Mieliśmy wówczas kilka spektakularnych przejść ze świata offline do online, a kilka marek, które – jak się zdawało – prędzej zmienią branżę niż otworzą swój e-sklep, zdecydowało się na debiuty i start sprzedaży w sieci.
Bardzo rzadko zdarza się spotkać u klientów skopiowane lub nieco przerobione opisy. Czasy, gdy dość popularne było kopiowanie regulaminu z innego sklepu (czasem bez zmiany telefonu i adresu), już odeszły do lamusa. Nadal zdarzają się treści, które są powielone, ale skala tego zjawiska jest mała, a kopiujący treści działają w sposób automatyczny i zwykle wiedzą, co robią. Oprócz kwestii typowo SEO-wych związanych z powieleniem opisów należy pamiętać o jeszcze jednym aspekcie.
Prawne aspekty powielenia treści
Z prawnego punktu widzenia powielenie treści na stronie internetowej to plagiat. Jest to złamanie prawa, zgodnie z poniższym przepisem z artykułu 115 Ustawa z dnia 04.02.1994 r. o prawie autorskim i prawach pokrewnych (Dz.U. z 2006 r. Nr 90, poz. 631 z późn. zm.).
- Kto przywłaszcza sobie autorstwo albo wprowadza w błąd co do autorstwa całości lub części cudzego utworu albo artystycznego wykonania, podlega grzywnie, karze ograniczenia wolności albo pozbawienia wolności do lat 3.
- Tej samej karze podlega, kto rozpowszechnia bez podania nazwiska lub pseudonimu twórcy cudzy utwór w wersji oryginalnej albo w postaci opracowania, artystyczne wykonanie albo publicznie zniekształca taki utwór, artystyczne wykonanie, fonogram, wideogram lub nadanie.
- Kto w celu osiągnięcia korzyści majątkowej w inny sposób niż określony w ust. 1 lub 2 narusza cudze prawa autorskie lub prawa pokrewne określone w art. 16, art. 17, art. 18, art. 19 ust. 1, art. 191, art. 86, art. 94 ust. 4 lub art. 97, albo nie wykonuje obowiązków określonych w art. 193 ust. 2 lub art. 20 ust. 1-4, podlega grzywnie, karze ograniczenia wolności albo pozbawienia wolności do roku”.
Zgodnie z powyższym należy przede wszystkim uzyskać zgodę autora na użycie jego treści oraz wskazać autorstwo treści wraz z odpowiednią licencją, na której podstawie możemy z tej treści korzystać. Często zdarza się, że producent dostarcza swoje opisy dla produktów i umożliwia sprzedawcom korzystanie z nich w ich witrynach. Algorytmy Google są przystosowane do tej sytuacji – więcej o tym (z punktu widzenia SEO) pisałem w poprzednim artykule .
Kopiujący czyjeś wpisy naraża się więc na roszczenia ze strony autorów tych tekstów. Takie przypadki faktycznie się zdarzają. Często wystarczy poprosić właściciela strony, który skopiował naszą treść, o jej usunięcie. Jeśli to nie pomoże, pozostaje dochodzenie swoich roszczeń na drodze prawnej. Z punktu widzenia SEO można wykorzystać mechanizm DMCA, o którym napiszę więcej w dalszej części tego wpisu.
Ustawa definiuje natomiast dwa typy treści, które są wyłączone z możliwych roszczeń: kopiowanie treści z tzw. domeny publicznej (zbioru zawierającego utwory, które nie są przedmiotem ochrony z ustawy o prawach autorskich) oraz prawo cytatu. Nie oznacza to, że korzystając z tego prawa, można dowolnie kopiować treści – muszą zostać spełnione warunki: skopiowany powinien zostać jedynie fragment treści, a celem kopii powinna być polemika, wyjaśnienie lub analiza tego fragmentu tekstu.
Treści generowane automatycznie
Stosunek Google do treści generowanych automatycznie jest niezmienny od lat: należy takich treści unikać. Tego typu teksty nie mają żadnej wartości merytorycznej dla użytkownika i powstają często z jednego synonimizowanego szablonu, w którym tylko zmieniają się dane, co wygląda dziwnie i od razu budzi podejrzenia, że treść jest dziełem programu.
Nieco inaczej sprawa wygląda, jeśli chodzi o treści, które są generowane przez sztuczną inteligencję. Teksty generowane przez AI są znacznie lepiej dopracowane i przedstawiają już jakąś wartość dla użytkownika. Stanowisko Google w tej kwestii jest takie, że nie zabrania używania takich tekstów.
Do generowania treści z pomocą sztucznej inteligencji można wykorzystać dziesiątki powstałych w tym celu aplikacji, które pracują w oparciu o różne modele. Część z nich jest darmowa, inne są płatne. Z najbardziej znanych warto wymienić Copy Shark lub ContentBot. Aplikacje te mają jedną wadę – jeszcze nie działają poprawnie w języku polskim. Istnieją jednak takie narzędzia, jak Rytr oraz niektóre modele BERT, np. ALBERT, które znacznie lepiej radzą sobie z naszą zawiłą gramatyką, fleksją i składnią.
Sztuczna inteligencja jest w stanie stać się przyszłością pisania treści. Wraz ze wzrostem złożoności AI będzie w stanie tworzyć lepsze i dokładniejsze treści. AI nie zastępuje copywriterów, ale raczej pełni rolę asystenta, który pomaga im szybciej i lepiej wykonywać swoją pracę. Może również zająć się niektórymi przyziemnymi zadaniami, które nie mają charakteru kreatywnego ani emocjonalnego, takimi jak generowanie pomysłów na treści na dużą skalę lub wymyślanie idealnego nagłówka posta na blogu. Przyszłość copywritingu jest tutaj i jest oparta na sztucznej inteligencji!
Cały powyższy akapit został „napisany” przez sztuczną inteligencję. Trwało to 5 sekund i wymagało podania krótkiego opisu – 100 znaków na temat tego, czego treść ma dotyczyć. Całość wygenero-wała się w języku polskim i nie wymagała większych poprawek.
Co nam mówi Google o powielonej treści
Google to wyszukiwarka pełnotekstowa. Oznacza to, że do poprawnego działania i pokazania użyt-kownikowi wyników w formie listy stron uszeregowanych według wskazanych kryteriów potrzebu-je dokumentów, które zawierają treść, by je oceniać i na tej podstawie układać ranking. Treść jest podstawą (jedną z trzech) pracy algorytmów, a o jej długości, nasyceniu i unikalności wiele już napi-sano, także w oficjalnych dokumentach, które wychodzą od Google. Mam na myśli patenty, które Google posiada i wykorzystuje lub wykorzystywał w działaniu swoich algorytmów oceniających dokumenty tekstowe.
Szczególnie jeden z nich jest źródłem wiedzy dotyczącej miedzy innymi sposobów ustalania pierwowzoru treści oraz oceny jakościowej i ilościowej treści na stronach internetowych. Mowa o patencie Information retrieval based on historical data, który w pierwszej wersji został zgłoszony w 2003 roku, ale jego ostatnia aktualizacja to rok 2012. Patent widnieje pod sygnaturą US7346839B2. Części patentu są lub były wykorzystywane w działaniu algorytmów wyszukiwarki Google. Całość dokumentu można znaleźć pod adresem: https://patents.google.com/patent/US7346839B2/en.
W jednej z sekcji patentu możemy zobaczyć , jakie są kryteria ustalania daty powstania dokumentu tekstowego. W pierwszej kolejności algorytmy korzystają z dat, które są zawarte w samym dokumencie i często są widoczne dla użytkownika, czyli daty publikacji i daty ostatniej aktualizacji dokumentu. Gdy ich brakuje, do ustalenia daty powstania dokumentu tekstowego stosuje się znak czasowy, który jest kombinacją daty pierwszego zaindeksowania strony i daty odnalezienia pierwszego linku prowadzącego do dokumentu. W skrajnych przypadkach Google uznaje, że dany dokument powstał wtedy, gdy została zarejestrowana domena, na której się znajduje. Ta sekcja patentu dość jasno wskazuje, że algorytmy Google wykorzystują nagłówek HTTP If-Modified-Since jako jedną ze składowych oceny powstania daty dokumentu. Po co Google śledzi daty powstania dokumentów treściowych? Robi to przynajmniej w kilku celach, ale z perspektywy tego artykułu ważny jest jeden: jeśli dana treść pojawia się na dwóch różnych domenach, wówczas za pomocą daty powstania dokumentu algorytmy może wskazać pierwowzór treści, a co za tym idzie – oznaczyć, kto od kogo skopiował daną treść. Jak pokazały testy i różne case study, rozwiązanie to nie jest idealne, a data powstania dokumentu nie jest czynnikiem decydującym o autorstwie treści.
Ten sam patent przedstawia jeszcze jedną sytuację związaną z treściami na stronie, o której warto wspomnieć. Według zapisów w patencie treść, która jest często aktualizowana o dodatkowe (unikalne) fragmenty, jest oceniana inaczej niż treść, która jest aktualizowana rzadziej. Oczywiście nacisk jest tutaj położony na częstotliwość aktualizacji, ale dodatkowa wzmianka o unikalności treści może zastanawiać.
Sporo o treści i sposobach jej oceny można dowiedzieć się z wytycznych Google dla raterów, którzy ręcznie oceniają strony pod kątem szczegółowych wskazówek dotyczących wielu aspektów. Jednym z nich jest treść. Dokument skierowany do raterów jest ważny nie tylko z tego powodu, że w jego treści słowo „content” występuje aż 380 razy, ale dlatego że cały rozdział 7.5.5 traktuje o sposobach na odnalezienie powielonej treści oraz o tym, że w przypadku jej znalezienia trzeba rankingi strony obniżyć do najniższych możliwych. We wspomnianym rozdziale Google podaje aż 24 przykłady powieleń treści umieszczonych w różnych kontekstach, pokazanych na przykładach prawdziwych stron internetowych. W każdym z tych przypadków nakazuje raterom obniżenie oceny do najniższej.
Co zrobić, gdy ktoś kopiuje naszą treść
Z umyślnie wygenerowanymi powieleniami treści trzeba sobie radzić szybko i skutecznie, gdyż są one w stanie negatywnie wpłynąć na nasze rankingi, nawet w przypadku gdy Google bezbłędnie wskaże autora treści.
Dodam, że obecnie bardzo trudno jest złapać złodzieja za rękę – spora część powieleń w ogóle nie pokazuje się w wynikach wyszukiwania, gdzie przedstawione są jedynie pierwowzory treści, które oznaczył Google.
Jeśli zdarzy się tak, że w czasie audytu odkryjemy naszą treść na innej stronie, trzeba działać. Do wyboru mamy trzy drogi i to od naszego zaangażowania zależy, którą z nich obierzemy.
- Przeredagowanie treści – jest to najszybszy sposób, dzięki któremu pozbędziemy się małych powieleń treści na pojedynczych podstronach. Takie powielone fragmenty tekstu wystarczy napisać od nowa i wdrożyć na naszą stronę www. Przysparza to nam pracy, a w dodatku oddajemy naszą poprzednią treść kopiującemu, ale jest to sposób najbardziej skuteczny.
- Kontakt z kopiującym – osobisty lub z wykorzystaniem środków prawnych i powołaniem się na przytoczone wyżej przepisy prawa. Taki kontakt jest często niesamowicie skuteczny i pozwala na szybkie usunięcie wszystkich powielonych treści, a co za tym idzie – nie trzeba ich ponownie pisać i wdrażać na stronę. W przypadku automatów kopiujących treść metoda ta się nie sprawdzi.
- Wykorzystanie mechanizmu DMCA, który oferuje wyszukiwarka Google. Pozwala on na usunięcie kopii naszych treści z wyszukiwarki. Wystarczy tylko wypełnić stosowny formularz, podając nasze dane kontaktowe i powód usunięcia. W większości przypadków po jego poprawnym wysłaniu powielone treści zostaną usunięte. Formularz powinien wypełnić właściciel treści. Oczywiście można to zrobić w jego imieniu, ale z doświadczenia wiem, że wówczas skuteczność takiej prośby nie jest tak wysoka, jak przy osobistym zaangażowaniu właściciela treści.
DMCA
Jak wspomniałem wyżej, DMCA to mechanizm, który pozwala na usunięcie powielonych treści z wyszukiwarki Google oraz z innych produktów Google np. YouTube, Dysk Google czy Google Maps. W celu usunięcia wskazanych danych należy wypełnić formularz znajdujący się na stronie https://support.google.com/legal/troubleshooter/1114905. W pierwszym kroku należy wybrać usługę, z której chcemy usunąć dane naruszające prawo, oraz podtyp usługi (np. wyszukiwarkę treści lub grafiki). Kolejne kroki pozwalają na ustalenie, co konkretnie chcemy zgłosić:
- złośliwe oprogramowanie, próbę wyłudzenia informacji,
- prośbę o usunięcie z Google kopii strony, na której webmaster usunął naszą powieloną treść, ale jej stara kopia znajduje się w zasobach Google,
- usunięcie danych osobowych z wyszukiwarki,
- problem z własnością intelektualną.
Wybierając ostatni punkt, możemy zgłosić problem z naruszeniem praw autorskich, sprzedaż podróbek czy nieautoryzowane użycie znaku towarowego.
Warto też wspomnieć, że celem formularza jest usunięcie danych z wyszukiwarki Google. Powielona treść pozostanie na stronie, która skopiowała nasz fragment tekstu.
Inne rodzaje powieleń w kontekście SEO
Jak wiemy, Google nie lubi powieleń. Dotyczy to wszystkich obszarów, gdzie algorytmy Google mają styczność ze stroną.
Najważniejszymi danymi, w przypadku których musimy zadbać o unikalność, są znaczniki title oraz opisy meta description. W przypadku obu istotne jest to, by zadbać o unikalność wewnątrz serwisu.
Google informowało nas w narzędziu Google Search Console o tym, które znaczniki title są powielone w obrębie serwisu. Obecnie sekcja ta nie jest dostępna, ale narzędzia audytujące i crawlujące stronę nadal pokazują te dane.
W przypadku opisów meta description zdecydowanie lepiej jest pozostawić to pole puste, wówczas Google sam wygeneruje snippet. Obecnie nawet ręcznie generowane opisy meta description są nadpisywane przez algorytmy, które uwzględniają intencję użytkownika. Znaczniki title powinny być dopracowane tak, by nie powielały się w obrębie strony
Podsumowanie
W tym artykule przedstawiłem dodatkowe kwestie związane z powieleniem treści na stronach internetowych. Temat oczywiście nie jest wyczerpany (podobnie jak temat treści na stronie). Treści to istotny czynnik rankingowy, dlatego trzeba zadbać, by były jak najlepszej jakości. O ostatecznej pozycji strony decydują niuanse oraz szczegóły, których kilka udało mi się przedstawić w cyklu wpisów dotyczącym powielenia.
Dbajmy więc o treści na naszych stronach. Z pomocą narzędzi oraz ręcznego audytu walczmy z powieleniami, by zobaczyć efekty w postaci lepszej pozycji strony w odpowiedzi na szereg wyrażeń kluczowych.