El Bot que Nunca Pudo Leer la Web

"Los Core Web Vitals eran perfectos para usuarios. Pero el bot de IA tardaba 8 segundos en recibir el primer byte. Y los bots no esperan."

Era 2025. Un equipo de desarrollo habia optimizado exhaustivamente la experiencia de usuario de un sitio de contenido medico.

LCP bajo. CLS minimo. FID casi cero. El sitio volaba para los usuarios reales.

Pero cuando revisaron los logs del servidor, vieron algo inquietante: los crawlers de IA (GPTBot, ClaudeBot, PerplexityBot) tenian tiempos de respuesta entre 4 y 9 segundos. En muchos casos, la conexion se cerraba antes de recibir el contenido.

El problema: el servidor de origen estaba en Virginia. La mayoria del contenido medico que indexaban era relevante para Espana y Latinoamerica. Los bots intentaban crawlear desde datacenter europeos y americanos — y cada request viajaba hasta Virginia y volvía.

Movieron el contenido a Cloudflare Workers. En 48 horas, los tiempos de crawl cayeron a menos de 200ms globalmente.

La velocidad de crawling es una variable de visibilidad que muy pocos optimizan.

Lo que Aprenderas Hoy

Que es el Edge computing y por que cambia el juego para GEO
Como los bots de IA crawlean y que afecta su eficiencia
Cloudflare Workers para SEO/GEO: casos de uso practicos
Edge rendering: cuando el SSG no es suficiente
Headers de seguridad y crawl budget en el contexto de LLMs

Edge Computing: La Red como Computadora

El modelo tradicional de arquitectura web: tu servidor esta en un datacenter (Nueva York, Dublin, Singapur) y todos los usuarios del mundo se conectan a ese punto.

El modelo Edge: el codigo se ejecuta en los nodos mas cercanos al usuario (o al bot) en todo el mundo. En lugar de un datacenter, cientos de puntos de presencia.

Arquitectura tradicional

→ Bot en Frankfurt pide tu pagina

→ Request viaja a Virginia (80ms)

→ Servidor procesa (50-200ms)

→ Respuesta vuelve a Frankfurt (80ms)

Total: 210-360ms minimo

Arquitectura Edge

→ Bot en Frankfurt pide tu pagina

→ Request llega al nodo de Frankfurt (5ms)

→ Worker procesa en el edge (10-20ms)

→ Respuesta servida localmente (5ms)

Total: 20-30ms

Por que importa para GEO: los crawlers de IA tienen timeouts. Si tu servidor tarda demasiado en responder, el bot puede abandonar el crawl antes de recibir el contenido. El edge elimina la latencia geografica.

Como Crawlean los Bots de IA

Los bots de los principales LLMs tienen comportamientos de crawling propios que difieren de Googlebot:

Comportamiento de crawlers de IA conocidos

GPTBot (OpenAI)Respeta robots.txt

Crawlea para el training de modelos futuros. Se puede bloquear via robots.txt con User-agent: GPTBot. Frecuencia variable, no periodica.

PerplexityBotCrawlea para RAG en tiempo real

A diferencia de GPTBot, Perplexity crawlea para responder consultas en tiempo real. Alta frecuencia en contenido con actualizaciones frecuentes.

ClaudeBot (Anthropic)Respeta robots.txt

Crawlea para entrenamiento. Similar en comportamiento a GPTBot. Se puede bloquear con User-agent: ClaudeBot.

Decision critica de robots.txt

Bloquear GPTBot o ClaudeBot impide que tu contenido sea usado para entrenamiento futuro — pero no afecta las respuestas actuales de esos modelos. Bloquear PerplexityBot impide que aparezcas en sus respuestas en tiempo real. Piensa cual es tu objetivo antes de bloquear.

Cloudflare Workers para GEO: 4 Casos de Uso

Caso 1: Schema Injection en el Edge

En lugar de generar schemas en cada request desde el servidor de origen, puedes inyectarlos en el HTML directamente desde un Worker, sin latencia adicional.

Un Worker intercepta las requests de las URLs de contenido, lee los metadatos de un KV store (clave-valor en el edge), y añade el JSON-LD correspondiente antes de devolver la respuesta al bot o usuario.

Resultado: schemas siempre frescos, sin necesidad de rebuild del sitio, con latencia minima.

Caso 2: Redirects sin Latencia

Los redirects (301, 302) desde el servidor de origen aaden un round-trip completo. Desde el edge, el redirect se resuelve en el mismo nodo donde llega la request.

Especialmente relevante para migraciones de URL. Si cambias la estructura de URLs de tu sitio, los crawlers de IA encontraran el contenido correcto en el primer intento, sin penalizacion de latencia.

Caso 3: A/B Testing de Schemas

¿Que schema genera mas impacto en tu Share of Model? Puedes hacer A/B testing de diferentes implementaciones de schema sirviendo versiones distintas desde el edge sin tocar el codigo del sitio.

Caso 4: Crawl Budget Management

Puedes usar Workers para responder con 304 Not Modified a bots que intenten recrawlear contenido que no ha cambiado, conservando el crawl budget para el contenido nuevo o actualizado.

Edge Rendering: Cuando el Static No Es Suficiente

Next.js y otros frameworks modernos generan paginas estaticas en build time (SSG). Para la mayoria del contenido, esto es optimo.

Pero hay casos donde el edge rendering anade valor:

Contenido con precios o disponibilidad en tiempo real

Un producto con precio variable no puede ser estatico. El edge rendering permite servir la pagina desde el nodo mas cercano con los datos frescos del momento.

Personalizacion geografica de schemas

Si tienes presencia en multiples paises, puedes servir schemas LocalBusiness con la informacion del pais correspondiente segun la ubicacion del bot o usuario.

Contenido actualizado con alta frecuencia

Noticias, precios de mercado, datos de stock. El edge rendering con ISR (Incremental Static Regeneration) garantiza que los bots siempre vean datos actualizados sin rebuild completo.

Headers de Seguridad y Acceso para Bots de IA

Los headers HTTP tambien comunican informacion a los crawlers:

Headers relevantes para crawlers de IA

Cache-Control

max-age apropiado segun la frecuencia de actualizacion del contenido. Los bots respetan las directivas de cache — un tiempo de cache muy largo puede retrasar la indexacion de actualizaciones.

Last-Modified

Indica cuando fue modificado el contenido por ultima vez. Facilita que los bots implementen condicional crawling (304 Not Modified) y conserven su crawl budget.

X-Robots-Tag

Alternativa al meta robots en el HTML. Util para controlar el indexado de recursos no-HTML (PDFs, imagenes) directamente desde los headers de respuesta.

Lo Que Aprendiste Hoy

✓ El Edge computing reduce la latencia de crawling a menos de 30ms globalmente
✓ Los bots de IA tienen comportamientos distintos — bloquear GPTBot y bloquear PerplexityBot tienen efectos muy diferentes
✓ Cloudflare Workers: schema injection, redirects sin latencia, A/B testing, crawl budget
✓ El Edge rendering es relevante para contenido dinamico o con actualizacion frecuente
✓ Los headers HTTP tambien comunican metadatos relevantes para los crawlers de IA

La teoria esta completa. Ahora el plan de ejecucion.

18 modulos. 5 bloques. Una sola pregunta queda sin responder:
¿Por donde empiezas manana?

Continua con el Modulo 18: Protocolo de Despliegue, de la estrategia a la ejecucion →

Edge SEO y Optimizacion Distribuida