Avisos
Vaciar todo

Configuracion del archivo robots.txt para los bots de OpenAI  

 
Virgili
 Virgili
Usuario activo

Hola buenos días.
Mirando el consumo de recursos y sobre todo que hemos tenido algún que otro error en la web de infosalut.com hemos visto que los bots de OpenAI siguen causando la saturación del servidor y lo que tengo puesto en el archivo robots.txt no parece que sigan las reglas o están mal puestas y quisiera saber si la regla de robots.txt está bien, se puede mejorar o es posible que OpenAI, que según ellos dicen respeta robots.txt, no lo esté respetando y por eso seguimos teniendo el servidor saturado algunas veces. El archivo robots.txt que tengo puesto dice que escaneé a los bots de OpenAI cada 60 segundos, pero viendo los logs no parece ser así, por eso no sé si es que lo he puesto mal o se salta esa regla. Ya que la única opción que funciona es bloquearles por IP en el archivo.htaccess, pero si se pudiera evitar hacer eso mejor.

Esto es lo que tiene el archivo robots.txt:
User-agent: OAI-SearchBot
Crawl-delay: 60

User-agent: ChatGPT-User
Crawl-delay: 60

User-agent: GPTBot
Crawl-delay: 60

Un saludo y gracias.
Tomás Sastre. Bibliosalut

Contenido solo visible a usuarios registrados

Citar
Respondido : 09/01/2025 11:13 am
Pepe
 Pepe
Soporte CMS Webempresa Admin

Hola Virgili.

es posible que OpenAI, que según ellos dicen respeta robots.txt, no lo esté respetando 

El bot de OpenAI debería respetar las directrices del archivo robots.txt

Una cosa que podrias probar es añadir lo siguiente al archivo .htaccess:

<IfModule mod_rewrite.c>
RewriteEngine On
RewriteCond %{HTTP_USER_AGENT} (OAI-SearchBot|GPTBot) [NC]
RewriteRule ^.*$ - [R=429,L]
</IfModule>

 

La regla devolvería un código de estado 429 (Too Many Requests) cuando los bots intenten realizar solicitudes demasiado frecuentes, lo que indica que deben esperar antes de intentar de nuevo. Esto puede ayudar a evitar que el servidor sea sobrecargado, mientras sigues permitiendo el acceso de los bots con un control.

 

Sobre el bot ChatGPT-User, no es un agente de usuario oficial utilizado por OpenAI. No se utiliza como un bot de rastreo para acceder a sitios web o indexar contenido y aunque lo tengas añadido no tendría ningún efecto porque no es un bot de rastreo.

 

Un Saludo

ResponderCitar
Respondido : 09/01/2025 12:49 pm

optimiza-automaticamente-todas-las-imagenes-de-tu-wordpress

Virgili
 Virgili
Usuario activo

Hola @pepesoler, probaré como dices y a ver si con esto funciona mejor y no tener que bloquearles por IP.

 

Un saludo y gracias.

Tomás Sastre. Bibliosalut

ResponderCitar
Respondido : 09/01/2025 1:21 pm
Karen Rios
 Karen Rios
Soporte CMS Webempresa Moderator

Hola Virgili, 

Gracias a ti, es un placer para nosotros siempre poder ayudarte. 

Quedamos atentos como ha ido todo

Un Saludo

ResponderCitar
Respondido : 09/01/2025 1:42 pm