html css javascript jQuery php apache | martedi 7 febbraio 2012 13:02:32
Cosa sono i robots.txt?
Sono file di testo utilizzati per comunicare ai motori di ricerca quali pagine all'interno
del vostro sito dovranno essere indicizzate e quali file od intere directory non dovranno essere prese in considerazione.
Questo tipo di file si realizza con un semplice editor di testo, come notepad, e permettono di rendere più efficace il
posizionamento delle vostre pagine web nei motori di ricerca. Google, ad esempio, invita caldamente a realizzare
tale tipo di file ed ad inserirli nella root del vostro sito.

Ma quali file vanno esclusi dall'indicizzazione?
Tutti quei file che servono solo al funzionamento del sito.
Per esempio, tutti i file che contengono funzioni o parti di codice PHP che servono unicamente a rendere dinamiche le
vostre pagine ( vedi:
PHP n.d.r. ), ma che non contengono testo utile al vostro posizionamento
nei motori di ricerca. Oppure le directory che contengono parti del sito ristrette ad un accesso mediante username / password.
In questo modo il crawler si "concentrerà" solo su ciò che è effettivamente importante per la vostra indicizzazione.
E vi "ringrazierà" ritornandovi una migliore visibilità.
Ma cosa contiene un robots.txt?
Il file deve consistere in una o più dichiarazioni separate
da almeno una linea vuota. Ogni linea di dichiarazione deve avere la seguente forma:
<campo>:<spazio opzionale><valore>
La dichiarazione inizia con una o più linee indicanti gli User-agent seguite da una o più linee contenenti dichiarazioni del tipo Disallow.
- User-agent: il valore di questo campo è il nome del o dei robot a cui si riferisce la direttiva
- Robot è lo spider utilizzato dal motore di ricerca per indicizzare il vostro sito
- Disallow: indica quale file o directory non deve essere indicizzata dallo spider
Un esempio
Il seguente robots.txt escluderà tutti gli spider dall'indicizzare:
cartella_1_ ,
cartella_2_ ed il file
peopleFromIbiza.html
User-agent: *
Disallow: /cartella_1_/
Disallow: /cartella_2_/
Disallow: /peopleFromIbiza.html/
Informazioni ufficiali sul formato del file robots.txt le trovate al seguente indirizzo:
www.robotstxt.org
Altre notizie sui robots.txt
Ecco di seguito una breve lista con i nomi degli spider dei principali
motori di ricerca internazionali:
- Nome spider --> Motore di ricerca
- googlebot --> Google
- fast --> Fast - Alltheweb
- slurp --> Inktomi - Yahoo!
- scooter --> Altavista
- mercator --> Altavista
- Ask Jeeves --> Ask Jeeves
- teoma_agent --> Teoma
- ia_archiver --> Alexa - Internet Archive
Nel caso in cui voleste inserire all'interno del file robots.txt alcuni commenti, potrete farlo scrivendo
righe di testo il cui primo carattere è un "cancelletto"
#. Tali righe verranno completamente ignorate dagli spider
dei motori. Esempio:
User-agent: *
# quelle che seguono sono cartelle
# personali e non devono essere indicizzate
Disallow: /pippo/
Disallow: /pluto/
Desideri approfondire ancora di più l'argomento? Ecco alcuni link a risorse italiane:
Buona lettura!