Descuento 20% Diciembre
Plugin Optimización de Imágenes Gratuito para WordPress
Martes, 28 Julio 2015 23:24

robots.txt en WordPress ¿que problema tienes googlebot?

Escrito por 
CMS:  WordPress |  Versión:  Todas |  Nivel de dificultad:  Básico |  Tiempo estimado de lectura:  10 minutos


robots.txt en WordPress ¿que problema tienes googlebot?Para hablar de SEO hay que hablar ineludiblemente de robots.txt en WordPress y del papel que este archivo juega en la política de control de acceso a la indexación del sitio por parte de los bots de los motores de búsqueda.

Este archivo nos ayuda a bloquear o autorizar a los robots de los motores de búsqueda que indexan y rastrean una parte importante de nuestro blog. Si bien que en ocasiones un archivo robots.txt mal configurado puede provocar la pérdida de indexado de los contenidos del blog con la consiguiente pérdida de posiciones.

Optimizar el archivo robots.txt es muy importante y realizar los cambios de forma correcta es el camino hacia un buen indexado por parte de los bots que realizan estas tareas ¡si quieres tener presencia, no se lo pongas difícil!

En otros artículos del Blog te he hablado de robotx.txt en WordPress y como bloquear bots no deseados, por si te interesa echarle una ojeada.

Hay bastantes malentendidos con respecto a la indexación y la no indexación de contenidos y voy a tratar de desgranar la importancia de robots.txt en WordPress para dejarlo lo más claro posible.

El archivo robots.txt, con formato de texto plano, se localiza o se crea (si no existe) en la carpeta raíz de tu sitio web (pudiendo tener tantos como webs tengas instaladas en carpetas separadas) y puede ayudar en la optimización de forma importante de tu sitio web.

La mayoría de webmasters tienden a evitar la edición del archivo robots.txt, pero no es tan complejo ni peligroso hacerlo ¡no muerde! y cualquier persona con conocimientos básicos puede crear y editar sus archivos de gestión de robots.

Si tu sitio web no tiene un fichero robots.txt, verás que puedes crearlo en un par de minutos, sin necesidad de tener conocimientos avanzados del medio, incluso te mostraré algún generador de robots.txt que podrás utilizar para WordPress.


¿Porque tienes que tener un archivo robots.txt en WordPress?

El archivo robots.txt ayuda a los robots (bots de aquí en adelante) de los motores de búsqueda a entender qué carpetas y archivos pueden indexar y cuales no. Cuando bot de indexado pasa por tu sitio web y quiere indexar tu sitio lo primero que hace es buscar el archivo robots.txt para saber a qué atenerse.

Si no encuentras el archivo en tu instalación de WordPress lo más probable es que no exista y tengas que crearlo.


¿Cómo creo un archivo robots.txt para WordPress?

Te diria que uses un generador online que te permita hacer esto de forma más o menos intuitiva o guiada, así al menos te estarás asegurando que lo que obtienes en fruto de tus propias indicaciones.

Con poco conocimiento puedes obtener un archivo que sirva de base para luego, si quieres añadir otras reglas que lo bots deban tener en cuenta.


Generador robots.txt online

Un archivo robots.txt básico para WordPress podría ser:

User-Agent: *
Disallow: /cgi-bin/
Disallow: /wp-admin/
Disallow: /archives/
Disallow: /wp-content/plugins/
Disallow: /readme.html
Disallow: /refer/
Disallow: /wp-*
Disallow: /comments/feed/
User-agent: Googlebot-Image
Allow: /wp-content/uploads/
User-agent: Adsbot-Google
Allow: /
User-agent: Googlebot-Mobile
Allow: /

Sitemap: http://www.dominio.com/post-sitemap.xml
Sitemap: http://www.dominio.com/page-sitemap.xml
Sitemap: http://www.dominio.com/hosting-sitemap.xml

Si bien que no es recomendado llamar archivos XML del sitemap desde el archivo robots.txt, para eso tienes muy buenos plugins como WordPress SEO que te permiten llamar de forma independiente a los archivos del sitemap sin tener que ¡mezclar churras con merinas! (offtopic para los que no entiendan el dicho) :)

WordPress

Yoast SEO (antes WordPress SEO by Yoast)

Yoast SEO es el plugin SEO más completa disponible para WordPress. Ofrece todo lo necesario para optimizar su sitio.


Editor archivo Yoast SEO

Crear archivo robots.txt

Editar archivo robots.txt

Échale un vistazo a este archivo robots.txt que te propongo, pero debes tener presente que adaptarlo a tus necesidades específicas es la mejor forma de sacarle rendimiento. No por tener más cantidad de código ha de ser mejor, al final los bots entenderán lo que pueden y no pueden indexar ¡y punto!

# robots.txt para un blog WordPress.   

# Bloquear o permitir acceso a contenido adjunto. (Si la instalación está en /public_html).

User-Agent: *   
Allow: /wp-content/uploads/
Disallow: /cgi-bin
Disallow: /wp-content/plugins/   
Disallow: /wp-content/themes/   
Disallow: /wp-includes/   
Disallow: /wp-admin/

# Desindexar carpetas que empiecen por wp-

Disallow: /wp-

# Permitir sitemap pero no las búsquedas.

Sitemap: http://tu-web/sitemap.xml   
Disallow: /?s=   
Disallow: /search

# Permitir Feed general para Google Blogsearch.   
# Impedir que /permalink/feed/ sea indexado pues el feed de comentarios suele posicionarse antes de los post.
# Impedir URLs terminadas en /trackback/ que sirven como Trackback URI (contenido duplicado).   

Allow: /feed/$
Disallow: /feed   
Disallow: /comments/feed   
Disallow: /*/feed/$   
Disallow: /*/feed/rss/$   
Disallow: /*/trackback/$   
Disallow: /*/*/feed/$   
Disallow: /*/*/feed/rss/$   
Disallow: /*/*/trackback/$   
Disallow: /*/*/*/feed/$   
Disallow: /*/*/*/feed/rss/$   
Disallow: /*/*/*/trackback/$

# Evita bloqueos de CSS y JS.

Allow: /*.js$
Allow: /*.css$

# Lista de bots que deberías permitir.

User-agent: Googlebot-Image
Allow: /wp-content/uploads/

User-agent: Adsbot-Google
Allow: /

User-agent: Googlebot-Mobile
Allow: /

# Lista de bots que generan consultas abusivas aunque siguen las pautas del archivo robots.txt

User-agent: MSIECrawler
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: libwww
Disallow: /

# Slurp (Yahoo!), Noxtrum y el bot de MSN que suelen generar excesivas consultas.

User-agent: noxtrumbot
Crawl-delay: 50

User-agent: msnbot
Crawl-delay: 30

User-agent: Slurp
Crawl-delay: 10

Cuidado con el Crawl-delay si estableces tiempos altos puede que a Google no le guste y lo refleje en el Probador de robots.txt de Google Search Console.


¿Qué le pasa a Google con mis archivos CSS y JS?

Hace tiempo que Google dejó de centrarse solamente en archivos HTML omitiendo otro tipo de archivos y de un tiempo a esta parte (la era 'Panda 4' que comenzó en mayo de 2014 aproximadamente) presta mucha atención a los archivos de estilos en cascada o CSS y a los archivos javascritp o JS.

Si en tu archivo robots.txt bloqueas el acceso a los bots de Google a archivos CSS o JavaScript Google te advertirá de ello a través de las herramientas de webmaster ahora llamadas Google Search Console (antes Google Webmaster Tools).

Desde Google Search Console puedes comprobar si estás ejerciendo ese bloqueo en la opción Rastreo, Probador de robots.txt


Probador robots.txt

Lo siguiente es comprobar en WordPress que no estés bloqueando el indexado de contenidos a los bots. Esto lo verificas desde el dashboard de WordPress, Ajustes, Lectura, donde dice Visibilidad para los buscadores.


Ajustes Lectura WordPress

Comprueba también en Google Search Console, Rastreo, Errores de rastreo, donde lo ideal es que el resultado sea como el siguiente.


Errores rastreo

A esta pantalla debes prestarle mucha atención cuando modifiques tu archivo robots.txt, ya que pasadas unas horas desde que aplicas cambios al archivo, si no fueron correctos o los esperados por los bots de Google, puedes encontrarte con un listado de errores que tendrás que solucionar si no quieres ver perjudicado el indexado de tus contenidos y en consecuencia el posicionamiento.

Y como colofón a estas comprobaciones verifica si tu archivo robots.txt carga en Rastreo, Probador de robots.txt


Errores rastreo

En WordPress, y prestando atención a las nuevas políticas establecidas por Google para el indexado de contenidos, lo mejor es no bloquear el acceso a wp-includes y específicamente a plugins.

Si quieres llevarte bien con Google y que tu posicionamiento no se vea resentido, evita penalizaciones por errores de acceso de los bots a tu sitio, gestiona bien el archivo robots.txt y todo irá mejor.

¿Sabías que existe también un archivo humans.txt que puedes utilizar en tus sitios web? ...pero esa es otra historia para otro artículo de este Blog que espero un día poder contarte. :)


¿Te ha resultado interesante este artículo?

Suscríbete para recibir consejos exclusivos para WordPress, Joomla y PrestaShop



Luis Méndez Alejo

Miembro del equipo técnico de Webempresa.
Coordinador de contenidos en el Blog y en Youtube.
Google+


Plugin Optimización de Imágenes Gratuito para WordPress