Avisos
Vaciar todo

Dudas con directrices en robots.txt  

 
Luis
 Luis
Estimable Member

Buenas tardes, mucho tiempo sin escribirles, espero se encuentren bien.

Tengo una duda con relación a los resultados que arroja un auditoría de Semrush. Esta auditoría me indica los siguientes mensajes de Advertencias, pero no estoy seguro de lo que dice, pues la configuración de nuestro archivo robots.txt está basado en directrices que fueron basadas en un documento de seguridad para el archivo txt. El tema es que no lo consigo.

 

La auditoría me muestra un mensaje de advertencia por cada archivo .JS o .CSS que encuentra en /wp-content/themes/  pero esos archivos .js y .css están permitido por las siguientes lineas en el archivo robots.txt 

Allow: /wp-content/*.js
Allow: /wp-content/*.css 

 

Los mensajes de advertencia siguen el siguiente patrón:

https://online-tesis.com/wp-content/plugins/wp-rocket/assets/js/heartbeat.js?ver=3.12.4

Es decir, que parece que las l√≠neas "Allow" arriba se√Īaladas no tienen efecto.¬†

El mensaje de advertencia dice:

"Los recursos bloqueados son recursos (por ej., CSS, JavaScript, archivos de imagen, etc.) cuyo rastreo est√° bloqueado por una directiva ¬ęDisallow¬Ľ en tu archivo robots.txt. Al no permitir estos archivos, est√°s impidiendo que los motores de b√ļsqueda accedan a ellos y, como resultado, reproduzcan e indexen correctamente tus p√°ginas web. A su vez, esto puede producir un ranking m√°s bajo. Si deseas obtener m√°s informaci√≥n, consulta¬†este art√≠culo."
 

Anexo el archivo robots.txt

 

CURIOSIDAD

Lo curioso es que semrush me indica varios errores en el directorio: "app.online-tesis.com/", pero este est√° bloqueado por la directiva:

Disallow: /app.online-tesis.com/*

¬ŅC√≥mo puede rastrear ese directorio si est√° desautorizado su rastreo?

Muchas gracias por sus comentarios y/o sugerencias

Luis 

 

Contenido solo visible a usuarios registrados

Citar
Respondido : 06/03/2023 8:27 pm
Bruno
 Bruno
Soporte CMS Webempresa Moderator

Que tal luis,

Es raro que te marque dicha alerta pese a que la sintaxis en el archivo robots.txt es correcta

Te puedo sugerir colocar la expresión de una forma mas directa de la siguiente manera

# Evita bloqueos de CSS y JS.
Allow: /*.js$
Allow: /*.css$

Y esperar al reindexado de Google para validar si el error del an√°lisis de esta herramienta externa persiste

Saludos!

ResponderCitar
Respondido : 06/03/2023 8:55 pm

Luis
 Luis
Estimable Member

@bruno-vichetti Gracias Bruno,

 

Por favor puedes leer todo el mensaje enviado hasta el final.

 

1) Si puedes observar detenidamente el archivo robots.txt enviado las primeras líneas están configuradas como se indica más abajo. Será que los mensajes de advertencias que no puede leer archivos .JS y .CC los está produciendo la línea que se marca en rojo más abajo? 

User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
# Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/    ----> esta linea puedes estar produciendo los errores. Que opinan?
# Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*

2) No recibí respuesta de la siguiente consulta, por favor me podrían dar su opinión:

CURIOSIDAD

Lo curioso es que semrush me indica varios errores en el directorio: "app.online-tesis.com/", pero este est√° bloqueado por la directiva:

Disallow: /app.online-tesis.com/*

¬ŅC√≥mo puede rastrear ese directorio si est√° desautorizado su rastreo?

Muchas gracias por sus comentarios y/o sugerencias

 

 

Saudos

Luis 

 

ResponderCitar
Respondido : 07/03/2023 11:22 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

Tienes activados los archivos .js y .css de la carpeta wp-conten e incluidos pero estas bloqueando la de themes.

Para permitir todos los CSS y JS a√Īade lo siguiente:

Allow: /*.js$
Allow: /*.css$

En esta entrada del blog de tienes un Robots.txt est√°ndar que puedes adaptarlo:

-> robots txt en wordpress que problema tienes googlebot

semrush me indica varios errores en el directorio: "app.online-tesis.com/"

Puedes adjuntar un captura del aviso que te indica semrush para ver exactamente de qué se trata ?

 

Un saludo

ResponderCitar
Respondido : 07/03/2023 12:18 pm

Luis
 Luis
Estimable Member

Gracias por su respuesta Sr. @pepe

 

Anexo imagen solicitada de semrush donde aparecen las líneas, que se desea que no entre a rastrear que sería el caso de:

Disallow: /app.online-tesis.com/*

 

Ser√° que debe ir como Disallow: //app.online-tesis.com/*

 

Gracias por su respuesta.

 

Saludos

Luis

semrush

 

ResponderCitar
Respondido : 08/03/2023 11:51 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

A√Īade solo la carpeta admin:

Disallow: /admin/

 

Un Saludo

ResponderCitar
Respondido : 08/03/2023 12:13 pm

Luis
 Luis
Estimable Member

@pepesoler De acuerdo, pero en los ejemplos que he visto siempre indican colocar el toda la ruta, porque ahora me dices que solo coloque /admin/

¬ŅPuedes por favor explicarme cual es la raz√≥n?

Y muchas gracias por tu amable respuesta

 

Saludos

Luis

 

ResponderCitar
Respondido : 08/03/2023 1:23 pm
Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Luis, 

En este caso solo necesitas a√Īadir /admin/ para indicarle a los buscadores no rastrear el administrador de tu sitio web, con ello evitas los errores que se estan produciendo en semrush

No hace falta a√Īadir la ruta completa, al a√Īadir Disallow: /admin/ le est√°s indicando que incluya todo lo que se encuentra en la ruta admin de tu sitio web.

Un Saludo 

ResponderCitar
Respondido : 08/03/2023 1:41 pm

Luis
 Luis
Estimable Member

@karen Gracias Karen,

Estuve revisando el directorio app.online-tesis.com y resulta que no veo ning√ļn subdirectorio con la palabra "admin", lo que deseo es que no se rastree el directorio app.online-tesis.com enteramente¬†

Por ello había escrito Disallow: /app.online-tesis.com/*  pero no me funcionó. El semrush sigue rastreando el directorio y encuentra muchos errores. Lo que deseo es bloquear el rastreo de ese directorio. Todo su contenido.

 

image

La web online tesis se encuentra en el directorio public_html, y dentro de public_html se encuentra app.online-tesis.com

 

Gracias Karen por tu amable respuesta.

 

Saludos

Luis

 

ResponderCitar
Respondido : 08/03/2023 2:07 pm
Luis
 Luis
Estimable Member

Como pueden ver en esta imagen (y que incluyo para mayor claridad). La web está instalada en public_html directamente, y el directorio app.online-tesis.com es un subdominio. 

image

 Gracias

Luis

ResponderCitar
Respondido : 08/03/2023 2:18 pm

Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

app.online-tesis.com es una instalacion independiente del dominio principal, es decir es un subdominio y se trata como un dominio m√°s.

La carpeta admin la tienes dentro de la carpeta app.online-tesis.com -> controllers lo que no s√© en qu√© aplicaci√≥n est√° creada esa APP n√≠ se si puede utilizar alg√ļn archivo robots.txt.

El Robots.txt del dominio principal solo tiene efecto en ese dominio no en el subdominio y en otros dominios que tengas

Puedes probar a crear un archivo robots.txt en la raíz del subdominio y bloquearlo desde ese robots.txt

 

Un saludo

 

ResponderCitar
Respondido : 08/03/2023 2:46 pm
Luis
 Luis
Estimable Member

@pepesoler Gracias Pepe....

Se me había ocurrido incluir un robots.txt con las directivas:

 

User-agent: *
Disallow: /

Por favor déjame saber si está bien de esa manera.

Gracias por su amable respuesta.
Luis

 

 

ResponderCitar
Respondido : 08/03/2023 2:52 pm

Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

Si, estaria bien, de esa manera bloqueas todo el subdominio.

 

Un saludo

ResponderCitar
Respondido : 08/03/2023 2:56 pm