Robots.txt w SEO - co to jest, jak napisać i jak sprawdzić?

Co jest robots.txt

Plik robots.txt, to plik tekstowy, w którym nadawane są uprawnienia dla robotów internetowych, które odwiedzają konkretną stronę internetową. Dzięki tym uprawnieniom roboty wiedzą do jakiej części serwisu mogą mieć dostęp, a jakie sektory są dla nich niedostępne.

Gdzie jest plik robots.txt

Plik robots.txt znajduje się zawsze (o ile w ogóle został utworzony) w katalogu głównym domeny. Oznacza, to że można go wywołać zawsze za pomocą adresu domena.pl/robots.txt. Tylko umieszczony w takiej ścieżce pozwala robotom na dostęp do niego.

Plik robots.txt można zawsze podejrzeć, nie są do niego wymagana żadne specjalne uprawnienia. Plik robots.txt naszego serwisu znajduje się pod adresem: https://darmowyaudytseo.pl/robots.txt

Jak działa plik robots.txt

Plik robots.txt określa, do jakich elementów strony roboty internetowe, w tym roboty Google będą miały dostęp. Jeśli jakiś katalog strony jest zablokowany odpowiednią komendą, to roboty nie będą mogły pobrać żadnych informacji znajdujących się pod danym adresem.

Jak to działa w praktyce:

  1. Robot odwiedza Twoją stronę
  2. Sprawdza jaki jest nagłówek serwera (sprawdzenie, czy strona działa)
  3. Robot pobiera plik robots.txt i sprawdza jakie ma możliwości
  4. Rozpoczyna crawlowanie strony i pobieranie informacji

Oznacza, to że np. roboty Google mogą zaindeksować konkretny adres URL (nawet jeśli jest zablokowany w robots.txt), ale nie mogą pobrać jego zawartości. W celu wyindeksowania adresu URL nie należy korzystać z pliku robots.txt tylko z meta tagu meta name=”robots” z parametrem noindex. Zastosowanie jednoczesnej blokady w robots.txt i poprzez noindex mija się z celem i nie zadziała, ponieważ po znalezieniu blokady w robots.txt roboty indeksujące nie mają już uprawnień do pobrania meta tagu noindex.

Jak stworzyć plik robots.txt

Plik ten zawsze powinien posiadać rozszerzenie txt, inne formaty nie będą odczytywane przez roboty internetowe. Każdy plik robots.txt powinien posiadać w sobie zestaw komend zrozumiałych dla robotów.

Lista komend obsługiwanych przez robots.txt

Roboty internetowe rozróżniają cztery komendy podstawowe za pomocą, których odczytują skierowane do nich informacje. Są to:

  • User-agent: - jest to nazwa robota, do którego kierujemy zawarte w pliku dyrektywy. Np.:

    User-agent: googlebot - robot google
    User-agent: ShopWiki - robot shop wiki

  • Disallow: - Po tej komendzie podawana jest ścieżka, do której roboty nie mają mieć dostępu. Np.:

    User-agent: googlebot
    Disallow: /buty/
    User-agent: ShopWiki
    Disallow: /spodnie/

    Google bot nie będzie miał dostępu do wszystkiego co znajduje się w katalogu buty, a ShopWiki bot nie będzie miał dostępu do wszystkiego co znajduje się w katalogu spodnie.

  • Allow: - Po tej komendzie pojawia się adres URL, do którego chcemy aby roboty miały dostęp. Na przykład:

    User-agent: googlebot
    Disallow: /buty/
    Allow: /buty/trampki/
    User-agent: ShopWiki
    Disallow: /spodnie/

    Teraz roboty Google nadal nie mają dostępu do wszystkiego co jest w katalogu buty, ale mogą wejść do kategorii z trampkami.

  • Sitemap: - Plik robots.txt daje nam również możliwość poinformowania robotów, gdzie znajduje się plik z mapą strony w formacie xml.

Znaki specjalne w robots.txt

W celu dokładniejszego określania dyrektyw w pliku robots.txt możemy stosować również specjalne znaki, które usprawnią konstruowanie komend:

  • *- zastępuje znak lub ciąg dowolnych znaków
  • $- oznacza, że w tym momencie kończy się adres url, którego dotyczy dyrektywa

Dla przykładów:

User-agent: *
Disallow: /

Taki zapis w pliku robots.txt oznacza, że każdy robot (* jest dowolnym ciągiem znaków, zatem każdy możliwy robot) nie ma pozwolenia na odwiedzanie całej strony

User-agent: Googlebot
Disallow: /buty/$

Oznacza, to że robot Google nie ma dostępu do kategorii głównej buty, ale do wszystkich innych podkategorii jak np. /buty/trampki, /buty/szpilki/ dostęp taki już ma.