Avisos
Vaciar todo

Dudas con directrices en robots.txt  

 
Luis
 Luis
Estimable Member

Buenas tardes, mucho tiempo sin escribirles, espero se encuentren bien.

Tengo una duda con relación a los resultados que arroja un auditoría de Semrush. Esta auditoría me indica los siguientes mensajes de Advertencias, pero no estoy seguro de lo que dice, pues la configuración de nuestro archivo robots.txt está basado en directrices que fueron basadas en un documento de seguridad para el archivo txt. El tema es que no lo consigo.

 

La auditoría me muestra un mensaje de advertencia por cada archivo .JS o .CSS que encuentra en /wp-content/themes/  pero esos archivos .js y .css están permitido por las siguientes lineas en el archivo robots.txt 

Allow: /wp-content/*.js
Allow: /wp-content/*.css 

 

Los mensajes de advertencia siguen el siguiente patrón:

https://online-tesis.com/wp-content/plugins/wp-rocket/assets/js/heartbeat.js?ver=3.12.4

Es decir, que parece que las líneas "Allow" arriba señaladas no tienen efecto. 

El mensaje de advertencia dice:

"Los recursos bloqueados son recursos (por ej., CSS, JavaScript, archivos de imagen, etc.) cuyo rastreo está bloqueado por una directiva «Disallow» en tu archivo robots.txt. Al no permitir estos archivos, estás impidiendo que los motores de búsqueda accedan a ellos y, como resultado, reproduzcan e indexen correctamente tus páginas web. A su vez, esto puede producir un ranking más bajo. Si deseas obtener más información, consulta este artículo."
 

Anexo el archivo robots.txt

 

CURIOSIDAD

Lo curioso es que semrush me indica varios errores en el directorio: "app.online-tesis.com/", pero este está bloqueado por la directiva:

Disallow: /app.online-tesis.com/*

¿Cómo puede rastrear ese directorio si está desautorizado su rastreo?

Muchas gracias por sus comentarios y/o sugerencias

Luis 

 

Contenido solo visible a usuarios registrados

Citar
Respondido : 06/03/2023 8:27 pm
Bruno
 Bruno
Soporte CMS Webempresa Moderator

Que tal luis,

Es raro que te marque dicha alerta pese a que la sintaxis en el archivo robots.txt es correcta

Te puedo sugerir colocar la expresión de una forma mas directa de la siguiente manera

# Evita bloqueos de CSS y JS.
Allow: /*.js$
Allow: /*.css$

Y esperar al reindexado de Google para validar si el error del análisis de esta herramienta externa persiste

Saludos!

ResponderCitar
Respondido : 06/03/2023 8:55 pm

Luis
 Luis
Estimable Member

@bruno-vichetti Gracias Bruno,

 

Por favor puedes leer todo el mensaje enviado hasta el final.

 

1) Si puedes observar detenidamente el archivo robots.txt enviado las primeras líneas están configuradas como se indica más abajo. Será que los mensajes de advertencias que no puede leer archivos .JS y .CC los está produciendo la línea que se marca en rojo más abajo? 

User-agent: *
Allow: /wp-content/uploads/*
Allow: /wp-content/*.js
Allow: /wp-content/*.css
Allow: /wp-includes/*.js
Allow: /wp-includes/*.css
Disallow: /cgi-bin
# Disallow: /wp-content/plugins/
Disallow: /wp-content/themes/    ----> esta linea puedes estar produciendo los errores. Que opinan?
# Disallow: /wp-includes/
Disallow: /wp-admin/
Disallow: /page/
Disallow: /comments/
Disallow: /xmlrpc.php
Disallow: /?attachment_id*

2) No recibí respuesta de la siguiente consulta, por favor me podrían dar su opinión:

CURIOSIDAD

Lo curioso es que semrush me indica varios errores en el directorio: "app.online-tesis.com/", pero este está bloqueado por la directiva:

Disallow: /app.online-tesis.com/*

¿Cómo puede rastrear ese directorio si está desautorizado su rastreo?

Muchas gracias por sus comentarios y/o sugerencias

 

 

Saudos

Luis 

 

ResponderCitar
Respondido : 07/03/2023 11:22 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

Tienes activados los archivos .js y .css de la carpeta wp-conten e incluidos pero estas bloqueando la de themes.

Para permitir todos los CSS y JS añade lo siguiente:

Allow: /*.js$
Allow: /*.css$

En esta entrada del blog de tienes un Robots.txt estándar que puedes adaptarlo:

-> robots txt en wordpress que problema tienes googlebot

semrush me indica varios errores en el directorio: "app.online-tesis.com/"

Puedes adjuntar un captura del aviso que te indica semrush para ver exactamente de qué se trata ?

 

Un saludo

ResponderCitar
Respondido : 07/03/2023 12:18 pm

Luis
 Luis
Estimable Member

Gracias por su respuesta Sr. @pepe

 

Anexo imagen solicitada de semrush donde aparecen las líneas, que se desea que no entre a rastrear que sería el caso de:

Disallow: /app.online-tesis.com/*

 

Será que debe ir como Disallow: //app.online-tesis.com/*

 

Gracias por su respuesta.

 

Saludos

Luis

semrush

 

ResponderCitar
Respondido : 08/03/2023 11:51 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

Añade solo la carpeta admin:

Disallow: /admin/

 

Un Saludo

ResponderCitar
Respondido : 08/03/2023 12:13 pm

Luis
 Luis
Estimable Member

@pepesoler De acuerdo, pero en los ejemplos que he visto siempre indican colocar el toda la ruta, porque ahora me dices que solo coloque /admin/

¿Puedes por favor explicarme cual es la razón?

Y muchas gracias por tu amable respuesta

 

Saludos

Luis

 

ResponderCitar
Respondido : 08/03/2023 1:23 pm
Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Luis, 

En este caso solo necesitas añadir /admin/ para indicarle a los buscadores no rastrear el administrador de tu sitio web, con ello evitas los errores que se estan produciendo en semrush

No hace falta añadir la ruta completa, al añadir Disallow: /admin/ le estás indicando que incluya todo lo que se encuentra en la ruta admin de tu sitio web.

Un Saludo 

ResponderCitar
Respondido : 08/03/2023 1:41 pm

Luis
 Luis
Estimable Member

@karen Gracias Karen,

Estuve revisando el directorio app.online-tesis.com y resulta que no veo ningún subdirectorio con la palabra "admin", lo que deseo es que no se rastree el directorio app.online-tesis.com enteramente 

Por ello había escrito Disallow: /app.online-tesis.com/*  pero no me funcionó. El semrush sigue rastreando el directorio y encuentra muchos errores. Lo que deseo es bloquear el rastreo de ese directorio. Todo su contenido.

 

image

La web online tesis se encuentra en el directorio public_html, y dentro de public_html se encuentra app.online-tesis.com

 

Gracias Karen por tu amable respuesta.

 

Saludos

Luis

 

ResponderCitar
Respondido : 08/03/2023 2:07 pm
Luis
 Luis
Estimable Member

Como pueden ver en esta imagen (y que incluyo para mayor claridad). La web está instalada en public_html directamente, y el directorio app.online-tesis.com es un subdominio. 

image

 Gracias

Luis

ResponderCitar
Respondido : 08/03/2023 2:18 pm

Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

app.online-tesis.com es una instalacion independiente del dominio principal, es decir es un subdominio y se trata como un dominio más.

La carpeta admin la tienes dentro de la carpeta app.online-tesis.com -> controllers lo que no sé en qué aplicación está creada esa APP ní se si puede utilizar algún archivo robots.txt.

El Robots.txt del dominio principal solo tiene efecto en ese dominio no en el subdominio y en otros dominios que tengas

Puedes probar a crear un archivo robots.txt en la raíz del subdominio y bloquearlo desde ese robots.txt

 

Un saludo

 

ResponderCitar
Respondido : 08/03/2023 2:46 pm
Luis
 Luis
Estimable Member

@pepesoler Gracias Pepe....

Se me había ocurrido incluir un robots.txt con las directivas:

 

User-agent: *
Disallow: /

Por favor déjame saber si está bien de esa manera.

Gracias por su amable respuesta.
Luis

 

 

ResponderCitar
Respondido : 08/03/2023 2:52 pm

Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Luis.

Si, estaria bien, de esa manera bloqueas todo el subdominio.

 

Un saludo

ResponderCitar
Respondido : 08/03/2023 2:56 pm