Robots.txt este un fisier de tip text ce contine informatie necesara
motoarelor de cautare ce aceseaza site-ul dumneavoastra. Fisierul
trebuie sa se gaseasca in fisierul root(radacina) al site-ului. Atentie
! Nu puneti fisierul robots.txt in nicio alta parta decat in radacina
site-ului, altfel motoarele de cautare nu il vor gasi.
Sintaxa fisierului robots.txt contine n(cate aveti nevoie) campuri de forma:
User-agent si Disallow.
User-agent indica robotul caruia i se va aplica o anumita regula, iar Disallow va indica adresa URL ce va blocata;
La ce foloseste fisierul robots.txt ?
In momentul in care doriti ca anumite parti ale unui site sa nu fie vizitate(indexate) de catre robotii motoarelor de cautare.
Pentru
a intelege mai bine, sa luam un exemplu: in radacina site-ului avem un
folder numit exercitii in care testam diferite scripturi php. Pe noi nu
ne intereseaza ca acest folder sa fie indexat de catre niciun motor de
cautare. Vom scrie urmatoarele linii in fisierul robots.txt:
User-agent: * Disallow: /exercitii/
Sa explicam liniile de mai sus:
Linia User-agent: * ca folderul urmator este interzis tuturor motoarelor de cautare;
Disallow:
/exercitii/ indica folderul trebuie “pasuit” de catre robotii motoarele
de cautare(care nu trebuie vizitat de catre acestea).
Alte exemple de cod:
Disallow: / pentru a bloca intreg site-ul de la indexare; Disallow: /*.jpg$ pentru a bloca indexarea tuturor fisierelor cu extensia .jpg Disallow: /*folder/ blocheaza toate folderele care se termina cu cu cuvantul folder Disallow: /sitemap.xml$ blocheaza indexarea sitemap-ului site-ului
Precizari:
Dupa cum cred ca ati observat, am introdus un semn, si anume semnul
dolar($). Acesta ne indica faptul ca, acolo unde se gaseste $, este
sfarsitul url-ului. Adica, linia Disallow: /sitemap.xml$ spune
crawlerului sa blocheze url-ul care se termina in sitemap.xml
Gj ai fost foarte de folos. Fata de alti care nici macar nu au stiut sa explice ci doar faceau o analiza nefolositoare despre cei care triseaza pe internet, intr-un tutorial unde trebuia sa explice ce face robots.txt Mersi :D. Very clear