Warning: preg_match() [function.preg-match]: Unknown modifier '2' in /web/htdocs/www.codice62.it/home/funzioni/registroVisita.php on line 91
cosa sono e come funzionano i file robots.txt
html    css    javascript    jQuery    php    apache           |        martedi 7 febbraio 2012           13:02:32

Cosa sono i robots.txt?

Sono file di testo utilizzati per comunicare ai motori di ricerca quali pagine all'interno del vostro sito dovranno essere indicizzate e quali file od intere directory non dovranno essere prese in considerazione. Questo tipo di file si realizza con un semplice editor di testo, come notepad, e permettono di rendere più efficace il posizionamento delle vostre pagine web nei motori di ricerca. Google, ad esempio, invita caldamente a realizzare tale tipo di file ed ad inserirli nella root del vostro sito.
funzionamento robots.txt

Ma quali file vanno esclusi dall'indicizzazione?

Tutti quei file che servono solo al funzionamento del sito. Per esempio, tutti i file che contengono funzioni o parti di codice PHP che servono unicamente a rendere dinamiche le vostre pagine ( vedi: PHP   n.d.r. ), ma che non contengono testo utile al vostro posizionamento nei motori di ricerca. Oppure le directory che contengono parti del sito ristrette ad un accesso mediante username / password. In questo modo il crawler si "concentrerà" solo su ciò che è effettivamente importante per la vostra indicizzazione. E vi "ringrazierà" ritornandovi una migliore visibilità.

Ma cosa contiene un robots.txt?

Il file deve consistere in una o più dichiarazioni separate da almeno una linea vuota. Ogni linea di dichiarazione deve avere la seguente forma:
<campo>:<spazio opzionale><valore>
La dichiarazione inizia con una o più linee indicanti gli User-agent seguite da una o più linee contenenti dichiarazioni del tipo Disallow.
  1. User-agent: il valore di questo campo è il nome del o dei robot a cui si riferisce la direttiva
  2. Robot è lo spider utilizzato dal motore di ricerca per indicizzare il vostro sito
  3. Disallow: indica quale file o directory non deve essere indicizzata dallo spider

Un esempio

Il seguente robots.txt escluderà tutti gli spider dall'indicizzare: cartella_1_ , cartella_2_ ed il file peopleFromIbiza.html
User-agent: *
Disallow: /cartella_1_/
Disallow: /cartella_2_/
Disallow: /peopleFromIbiza.html/
Informazioni ufficiali sul formato del file robots.txt le trovate al seguente indirizzo: www.robotstxt.org
logo di www.robotstxt.org

Altre notizie sui robots.txt

Ecco di seguito una breve lista con i nomi degli spider dei principali motori di ricerca internazionali:
  1. Nome spider  -->  Motore di ricerca
  2. googlebot --> Google
  3. fast --> Fast - Alltheweb
  4. slurp --> Inktomi - Yahoo!
  5. scooter --> Altavista
  6. mercator --> Altavista
  7. Ask Jeeves --> Ask Jeeves
  8. teoma_agent --> Teoma
  9. ia_archiver --> Alexa - Internet Archive
Nel caso in cui voleste inserire all'interno del file robots.txt alcuni commenti, potrete farlo scrivendo righe di testo il cui primo carattere è un "cancelletto" #. Tali righe verranno completamente ignorate dagli spider dei motori. Esempio:
User-agent: *
# quelle che seguono sono cartelle
# personali e non devono essere indicizzate
Disallow: /pippo/
Disallow: /pluto/
Desideri approfondire ancora di più l'argomento? Ecco alcuni link a risorse italiane: Buona lettura!