Hosting e Domini

Cos’è il file robots.txt


Hai mai sentito parlare del file robots.txt ma non hai idea di cosa sia o a cosa serva davvero? Se gestisci un blog o un sito web, ti assicuro che è uno di quei file che non puoi ignorare. Potrebbe sembrare solo un banale documento di testo, ma in realtà è una sorta di “guardiano digitale” che dice ai motori di ricerca cosa possono o non possono vedere del tuo sito. E credimi: se impari a usarlo bene, può fare una grande differenza per la tua SEO e per la visibilità online del tuo progetto.

In questa guida ti spiego in modo chiaro e pratico cos’è il file robots.txt, come funziona e come configurarlo correttamente per il tuo blog su WordPress o qualsiasi altro CMS. Ti guiderò passo dopo passo, senza troppi tecnicismi, ma con la giusta dose di precisione per evitare errori che potrebbero penalizzare il tuo sito nei motori di ricerca.

Cos'è il file robots.txt

Cos’è il file robots.txt e perché è così importante

Quando un motore di ricerca come Google, Bing o DuckDuckGo visita un sito web per indicizzarne i contenuti, la prima cosa che fa è cercare un file chiamato robots.txt. Questo piccolo file di testo, posizionato nella radice del tuo sito (esempio: https://www.tuosito.it/robots.txt), contiene delle istruzioni precise per i cosiddetti crawler o spider, cioè quei software automatici che esplorano le pagine web per aggiungerle ai risultati di ricerca.

In pratica, il file robots.txt comunica ai motori di ricerca:

  • quali sezioni del sito devono essere indicizzate;
  • quali pagine devono essere ignorate (ad esempio, aree private o pagine duplicate);
  • ogni quanto tempo effettuare la scansione del sito;
  • e perfino in quali orari farlo, per non sovraccaricare il server.

Capire come configurarlo significa avere il pieno controllo su ciò che Google e gli altri motori “vedono” del tuo sito. E fidati, questa è una delle chiavi per ottimizzare la tua SEO tecnica.

Come funziona un file robots.txt

Il file robots.txt è composto da una serie di regole molto semplici, scritte con una sintassi essenziale. Ogni regola si applica a un determinato “user agent” (cioè un tipo di crawler) e stabilisce cosa può o non può fare. Ecco la struttura base:

<campo>: <valore>

I campi principali che puoi usare sono due:

  • User-agent: indica a quale crawler è destinata la regola. Il carattere * significa “tutti i crawler”.
  • Disallow / Allow: servono per impedire o consentire l’accesso a una determinata cartella o file del tuo sito.

Ecco un esempio pratico di file robots.txt molto semplice:

User-agent: *
Disallow:

Con questa configurazione stai dicendo a tutti i crawler che possono accedere liberamente a tutto il tuo sito, senza limitazioni. È la configurazione più “aperta” possibile e, per la maggior parte dei blog, va bene come punto di partenza.

Cos'è il file robots.txt

Esempi pratici di configurazione

Supponiamo che tu voglia impedire a Google di indicizzare la tua area di amministrazione (ad esempio, /wp-admin/) o le pagine di test. Ti basterà scrivere qualcosa di simile:

User-agent: *
Disallow: /wp-admin/
Disallow: /bozze/
Allow: /wp-admin/admin-ajax.php

In questo modo stai dicendo ai crawler: “Non indicizzare la cartella di amministrazione e quella delle bozze, ma puoi accedere al file admin-ajax.php che serve al corretto funzionamento di WordPress”.

Un altro esempio: se hai sezioni private o pagine riservate ai clienti, puoi escluderle completamente dai motori di ricerca con una regola dedicata. Ricorda, però, che robots.txt non è un sistema di sicurezza: serve solo a dare istruzioni ai crawler, ma non impedisce a qualcuno di accedere direttamente a un URL se lo conosce. Per la protezione vera e propria devi usare altri strumenti, come password o restrizioni lato server.

Comandi avanzati per migliorare la SEO

Oltre ai comandi base, esistono alcune direttive aggiuntive che possono aiutarti a ottimizzare ulteriormente il tuo sito.

  • Sitemap: serve per indicare ai motori di ricerca dove si trova la mappa XML del tuo sito. È un modo per facilitare la scoperta delle pagine. Esempio:
    Sitemap: https://www.tuosito.it/sitemap.xml
  • Request-rate: limita il numero massimo di pagine che un crawler può visitare in un dato intervallo di tempo. Utile se vuoi evitare di sovraccaricare il server.
  • Visit-time: imposta l’orario in cui i crawler possono effettuare la scansione del sito. Ad esempio:
    Visit-time: 0500-1745

    In questo modo comunichi che il crawler può visitare il sito solo dalle 5 del mattino alle 17:45.

Ecco un esempio completo di configurazione per il crawler di Google:

User-agent: Googlebot
Disallow: /documenti_privati/
Request-rate: 1/10
Visit-time: 0500-1745

Con questo file stai dicendo a Google di:

  • non indicizzare la cartella /documenti_privati/;
  • scansionare al massimo una pagina ogni 10 secondi;
  • visitare il sito solo tra le 5:00 e le 17:45.

Come creare e modificare il file robots.txt

Puoi creare il file robots.txt con qualsiasi editor di testo (come Notepad su Windows o TextEdit su macOS). Ti basta salvare il file come robots.txt e caricarlo nella directory principale del tuo sito, cioè dove si trova la home page (/public_html/ o /www/ a seconda dell’hosting).

Se invece usi WordPress, puoi gestire il file robots.txt direttamente da plugin come:

  • Yoast SEO: nella sezione “Strumenti” > “Editor di file”.
  • Rank Math: che ti permette di modificare il file senza accedere via FTP.

Con questi plugin puoi aggiungere, modificare o eliminare regole in modo sicuro, senza toccare manualmente i file del server.

Come verificare che il file funzioni correttamente

Una volta creato il file, dovresti controllare che sia accessibile e privo di errori. Puoi farlo in diversi modi:

  • digitando nel browser https://www.tuosito.it/robots.txt per vedere se viene mostrato correttamente;
  • utilizzando lo Strumento di Test Robots.txt disponibile nella Google Search Console;
  • oppure usando servizi esterni gratuiti come SEO Site Checkup o Ahrefs.

Se il file non è configurato correttamente, Google potrebbe non riuscire a scansionare parti importanti del tuo sito o, al contrario, indicizzare contenuti che preferiresti tenere nascosti. Un errore comune è bloccare per sbaglio la cartella /wp-content/, impedendo a Google di caricare le immagini o i file CSS: attenzione a non farlo!

Consigli pratici per un robots.txt efficace

  • Non bloccare mai le risorse essenziali del sito (come CSS o JS).
  • Se vuoi nascondere contenuti sensibili, usa sistemi di autenticazione, non robots.txt.
  • Inserisci sempre il percorso completo della sitemap per migliorare l’indicizzazione.
  • Testa regolarmente il file, soprattutto dopo aggiornamenti del sito o del tema.

Conclusioni

Come vedi, capire cos’è il file robots.txt e configurarlo nel modo giusto è un passaggio fondamentale per controllare come i motori di ricerca interagiscono con il tuo sito. Non serve essere un programmatore: bastano poche righe di testo per gestire al meglio l’indicizzazione e migliorare la tua visibilità su Google.

Se hai dubbi su come applicare queste regole al tuo blog WordPress o vuoi un parere sulla tua configurazione attuale, lascia pure un commento qui sotto: sarò felice di darti una mano.

Ciao, 👋
piacere di conoscerti.

Iscriviti alla newsletter settimanale gratuita.
Certificata NO-SPAM!

Non inviamo spam! Leggi la nostra Informativa sulla privacy per avere maggiori informazioni.


Articoli correlati

Pulsante per tornare all'inizio

Adblock rilevato

per supportare il sito ti chiedo di disattivare l'Adblock