Robots.txt w SEO - co to jest, jak napisać i jak sprawdzić?
- Co jest robots.txt
- Gdzie jest plik robots.txt
- Jak działa plik robots.txt
- Jak stworzyć plik robots.txt
- Lista komend obsługiwanych przez robots.txt
- Znaki specjalne w robots.txt
Co jest robots.txt
Plik robots.txt, to plik tekstowy, w którym nadawane są uprawnienia dla robotów internetowych, które odwiedzają konkretną stronę internetową. Dzięki tym uprawnieniom roboty wiedzą do jakiej części serwisu mogą mieć dostęp, a jakie sektory są dla nich niedostępne.
Gdzie jest plik robots.txt
Plik robots.txt znajduje się zawsze (o ile w ogóle został utworzony) w katalogu głównym domeny. Oznacza, to że można go wywołać zawsze za pomocą adresu domena.pl/robots.txt. Tylko umieszczony w takiej ścieżce pozwala robotom na dostęp do niego.
Plik robots.txt można zawsze podejrzeć, nie są do niego wymagana żadne specjalne uprawnienia. Plik robots.txt naszego serwisu znajduje się pod adresem: https://darmowyaudytseo.pl/robots.txt
Jak działa plik robots.txt
Plik robots.txt określa, do jakich elementów strony roboty internetowe, w tym roboty Google będą miały dostęp. Jeśli jakiś katalog strony jest zablokowany odpowiednią komendą, to roboty nie będą mogły pobrać żadnych informacji znajdujących się pod danym adresem.
Jak to działa w praktyce:
- Robot odwiedza Twoją stronę
- Sprawdza jaki jest nagłówek serwera (sprawdzenie, czy strona działa)
- Robot pobiera plik robots.txt i sprawdza jakie ma możliwości
- Rozpoczyna crawlowanie strony i pobieranie informacji
Oznacza, to że np. roboty Google mogą zaindeksować konkretny adres URL (nawet jeśli jest zablokowany w robots.txt), ale nie mogą pobrać jego zawartości. W celu wyindeksowania adresu URL nie należy korzystać z pliku robots.txt tylko z meta tagu meta name=”robots” z parametrem noindex. Zastosowanie jednoczesnej blokady w robots.txt i poprzez noindex mija się z celem i nie zadziała, ponieważ po znalezieniu blokady w robots.txt roboty indeksujące nie mają już uprawnień do pobrania meta tagu noindex.
Jak stworzyć plik robots.txt
Plik ten zawsze powinien posiadać rozszerzenie txt, inne formaty nie będą odczytywane przez roboty internetowe. Każdy plik robots.txt powinien posiadać w sobie zestaw komend zrozumiałych dla robotów.
Lista komend obsługiwanych przez robots.txt
Roboty internetowe rozróżniają cztery komendy podstawowe za pomocą, których odczytują skierowane do nich informacje. Są to:
- User-agent: - jest to nazwa robota, do którego kierujemy zawarte w pliku dyrektywy. Np.: User-agent: googlebot - robot google User-agent: ShopWiki - robot shop wiki
- Disallow: - Po tej komendzie podawana jest ścieżka, do której roboty nie mają mieć dostępu. Np.: User-agent: googlebot Disallow: /buty/ User-agent: ShopWiki Disallow: /spodnie/ Google bot nie będzie miał dostępu do wszystkiego co znajduje się w katalogu buty, a ShopWiki bot nie będzie miał dostępu do wszystkiego co znajduje się w katalogu spodnie.
- Allow: - Po tej komendzie pojawia się adres URL, do którego chcemy aby roboty miały dostęp. Na przykład: User-agent: googlebot Disallow: /buty/ Allow: /buty/trampki/ User-agent: ShopWiki Disallow: /spodnie/ Teraz roboty Google nadal nie mają dostępu do wszystkiego co jest w katalogu buty, ale mogą wejść do kategorii z trampkami.
- Sitemap: - Plik robots.txt daje nam również możliwość poinformowania robotów, gdzie znajduje się plik z mapą strony w formacie xml.
Znaki specjalne w robots.txt
W celu dokładniejszego określania dyrektyw w pliku robots.txt możemy stosować również specjalne znaki, które usprawnią konstruowanie komend:
- *- zastępuje znak lub ciąg dowolnych znaków
- $- oznacza, że w tym momencie kończy się adres url, którego dotyczy dyrektywa
Dla przykładów: User-agent: * Disallow: / Taki zapis w pliku robots.txt oznacza, że każdy robot (* jest dowolnym ciągiem znaków, zatem każdy możliwy robot) nie ma pozwolenia na odwiedzanie całej strony User-agent: Googlebot Disallow: /buty/$ Oznacza, to że robot Google nie ma dostępu do kategorii głównej buty, ale do wszystkich innych podkategorii jak np. /buty/trampki, /buty/szpilki/ dostęp taki już ma.