Comunicare correttamente ai motori di ricerca quali sono le pagine e gli articoli da indicizzare e quali no, è fondamentale per evitare che il tuo blog venga penalizzato nell’indicizzazione! Ecco perché è importante capire cos’è il file robots.txt e come configurarlo al meglio.
Nella guida di oggi ti spiego i segreti di uno dei file più importanti per l’indicizzazione del tuo sito nei motori di ricerca… il file robots.txt. Sei pronto? Ecco spiegato cos’è il file robots.txt!
Cos’è il file robots.txt
Quando un motore di ricerca visita un sito per indicizzarne i contenuti, il primo file che tenta di caricare è robots.txt perché questo file contiene le direttive per la scansione, cioè i comandi che dicono al crowler (il software incaricato della scansione) quali file e directory del sito indicizzare e quali scartare. Oltre a questo fornisce informazioni che determinano ogni quanto ripetere la scansione e molto altro ancora.
Quali sono i comandi da usare nel file robots.txt?
Comandi base
La struttura di un file robots.txt è molto semplice e sostanzialmente composta da righe contenenti istruzioni nella forma:
<campo> : <valore>
I campi disponibili sono principalmente due:
- User-Agent: specifica il nome del crawler a cui sono destinate le direttive. Il carattere * indica che la regola è valida per tutti i crawler (su Wikipedia trovi tutti i tipi di User-Agent disponibili).
- Allow/Disallow: ogni singola riga di questo tipo indica una risorsa (file o cartella) da includere o escludere dall’indicizzazione. E’ possibile indicare una risorsa specifica oppure un pattern.
Un semplice file robots.txt contenente le seguenti direttive:
User-agent: * Disallow:
comunica a tutti i crawler di indicizzare tutte le risorse del sito evitando qualsiasi esclusione.
Altri comandi
Già con questi comandi hai il controllo completo sull’indicizzazione, ma ne esistono altri tre molto utili ai fini dell’ottimizzazione della SEO e sono:
- Sitemap: indica il percorso del file che contiene la mappa del sito
- Request-rate: definisce il numero massimo di pagine da visitare per intervallo di tempo
- Visit-time: definisce l’intervallo orario all’interno del quale effettuare la scansione
In un tipico robots.txt contenente:
User-agent: Googlebot Disallow: /documenti_privati/ Request-rate: 1/10 Visit-time: 0500-1745
le regole definite valgono solo per il crawler di Google e comunicano al motore di ricerca di:
- indicizzare tutti i file esclusi quelli contenuti nella cartella /documenti_privati/
- visitare al massimo una pagina ogni 10 secondi
- effettuare la scansione solamente tra le 5 del mattino e le 5:45 del pomeriggio
Conclusioni
Come puoi vedere capire cos’è il file robots.txt e come utilizzarlo al meglio ti permette di avere più controllo sul processo di indicizzazione del tuo sito e migliorare la SEO. Se hai dubbi sulle regole da utilizzare per il tuo blog in WordPress o il tuo sito in Joomla e vuoi chiarimenti o consigli, scrivi pure le tue domande nei commenti qui sotto.
A presto.
Giuseppe
Lascia un commento