Utilizaţi în mod eficient fişierul robots.txt

Utilizaţi în mod eficient fişierul robots.txt

Ghid Google

Un fişier „robots.txt” informează motoarele de căutare dacă pot accesa cu crawlere părţile componente ale site-ului dvs. Acest fişier, care trebuie să aibă numele „robots.txt”, se include în directorul rădăcină al site-ului. 

Roboţii motoarelor de căutare (denotaţi prin simbolul * pentru metacaractere) care respectă standardele nu accesează cu crawlere conţinutul din /images/ sau de la orice adresă URL a cărei cale începe cu /search

Poate că nu doriţi ca anumite pagini de pe site-ul dvs. să fie accesate cu crawlere, deoarece se poate ca acestea să nu fie utile pentru vizitatori dacă sunt găsite în rezultatele unui motor de căutare. Dacă doriţi să restricţionaţi accesarea cu crawlere a paginilor dvs. de motoarele de căutare, Instrumentele Google pentru webmasteri oferă un instrument de generare a fişierelor robots.txt uşor de utilizat, pentru a vă ajuta să creaţi acest fişier. Reţineţi, dacă site-ul dvs. utilizează subdomenii şi doriţi ca
anumite pagini să nu fie accesate cu crawlere într-un anumit subdomeniu, va trebui să creaţi un fişier robots.txt separat pentru respectivul subdomeniu. Pentru informaţii suplimentare cu privire la fişierele robots.txt, vă sugerăm să consultaţi acest ghid al Centrului de ajutor pentru webmasteri, cu privire la utilizarea fişierelor robots.txt.

Există câteva alte modalităţi de restricţionare a apariţiei conţinutului în rezultatele de căutare, cum ar fi adăugarea „NOINDEX” la metaeticheta pentru roboţi, utilizarea .htaccess pentru a proteja prin parolă directoarele şi utilizarea Instrumentelor Google pentru webmasteri în vederea eliminării conţinutului care a fost deja accesat cu crawlere. Într-un videoclip util, inginerul Matt Cutts de la Google prezintă dezavantajele fiecărei metode de blocare a adreselor URL. 

Practici bune pentru fişierele robots.txt
• Utilizaţi metode mai sigure pentru conţinutul delicat - Nu trebuie să vă puneţi încrederea în utilizarea fişierelor robots.txt pentru blocarea conţinutului delicat sau confidenţial. Unul dintre motive este acela că motoarele de căutare ar putea totuşi să indice adresele URL blocate (afişând numai adresa URL, fără un titlu sau fragment) dacă undeva pe Internet există linkuri spre respectivele adrese URL (cum ar fi jurnalele de referinţe). De asemenea, motoarele de căutare neconforme standardelor sau cu reputaţie îndoielnică şi care nu recunosc Robots Exclusion Standard pot să nu respecte instrucţiunile din fişierul robots.txt. În final, un utilizator curios ar putea examina directoarele şi subdirectoarele din fişierul dvs.
robots.txt şi ar putea bănui adresa URL a conţinutului care nu doriţi să fie afişat. Criptarea conţinutului sau protejarea acestuia prin parolă cu .htaccess constituie metode mai sigure.
Evitaţi:
• permiterea accesării cu crawlere a paginilor de tipul rezultatelor de căutare (utilizatorilor le displace să părăsească o pagină cu rezultate de căutare şi să acceseze alta, care nu contribuie cu o valoare suplimentară semnificativă pentru aceştia)
• permiterea accesării cu crawlere a unui număr important de pagini generate automat, cu un conţinut identic sau uşor diferit: „Aceste 100.000 de pagini aproape dublate trebuie să se regăsească în indexul unui motor de căutare?”
• permiterea accesării cu crawlere a adreselor URL create ca urmare a serviciilorproxy 

Utilizaţi în mod eficient fişierul robots.txt [sursa]

ADVERTISEMENT