[robots.txt] URL limitato? che cosa fare

In alcuni casi potrebbe presentarsi la notifica di errore “url limitato da robots.txt“, specificatamente nell’ambito della Search Console di Google (lo strumento per rilevare lo stato di un sito web sui motori di ricerca: scopri il mio corso online sulla Search Console). Questa notifica di errore non è detto che sia per forza grave, ma non deve in genere essere sottovalutata e soprattutto va collocata nel contesto corretto.

Questa notifica, infatti, può essere tipica della circostanza in cui sia stata sottoposta una nuova sitemap alla Search Console, oppure sia stata apportata una qualche modifica di rilievo al file robots.txt.

Vorresti pubblicare guest post per la tua azienda? Prova il servizio di link building di ➡️ Rankister.com ⬅️

Possibile causa: modifiche alla sitemap, incoerenza tra sitemap e robots.txt

Attraverso la sitemap, andando a vedere in modo più approfondito, diamo un’indicazione alla Search Console di Google riguardo alla struttura interna del nostro sito e delle sue varie pagine. In genere a livello pratico succede che la sitemap possa dare indicazioni di scansionare pagine che siano bloccate dai robots.txt, e questo ovviamente crea una sorta di conflitto tra mappa del sito e file robots.txt. Se andiamo a bloccare blocchi nel robots.txt una certa cartella ABC (ad esempio per motivi di sicurezza), il Googlebot non riuscirá a indicizzare il file della sitemap contenuto in essa. In genere, comunque, le impostazioni di sicurezza vanno effettuate mediante direttive server (esempio: file .htaccess) e non (come fanno molti principianti) mediante file robots.txt o sitemap.xml, che sono file pubblici non adatti allo scopo

LEGGI ANCHE:   Sitemap XML: cosa sono e a cosa servono

Che cosa fare per risolvere

In questi casi è necessario verificare la coerenza tra i due file (robots.txt e sitemap, quindi), facendo in modo che siano inclusi soltanto gli URL necessari (la sitemap indica al crawler dove andare, per semplificare un po’), mentre il robots.txt deve probabilmente essere reso meno restrittivo (il robots.txt indica al crawler cosa non scaricare, tra l’altro). Le modifiche ad entrambi i file vanno effettuate mediante accesso al sito web e/o modificando via FTP i file in questione.

In genere non esiste una soluzione unica al problema: una possibile soluzione potrebbe essere, anche in via temporanea, quella di togliere le limitazioni dal robots.txt e fare in modo che la sitemap sia rigenerata con tutti gli URL necessari. Fin quando non si risolveranno eventuali situazioni di incongruenza tra sitemap e robots.txt, oppure tra sitemap e direttive noindex/nofollow, il problema potrebbe riprensentarsi. In alcuni casi, il problema ha un’importanza secondaria se per esempio avviene su pagine che interessano poco lato SEO oppure che non servono a convertire (ad esempio).

Il servizio professionale per inviare SMS aziendali: ➡️ prova SMSHosting ! ⬅️

Photo by Franck V. on Unsplash

Salvatore Capolupo

Ingegnere informatico dal 2006.