Checklist técnico AEO para SaaS: robots.txt, sitemap, canonical y WAF sin romper bots

Por Equipo Exista.io
SEO técnico robots.txt sitemap WAF

Respuesta corta

Antes de invertir en contenido AEO/GEO, asegurá lo básico: que bots respetables puedan rastrear tu sitio (robots/WAF), que puedan indexarlo (meta robots / headers), y que tus URLs canónicas no devuelvan fallbacks. Este checklist te permite validar en 30–60 minutos si ChatGPT Search (OAI-SearchBot), Google (Googlebot/Google-Extended), Bing y Perplexity pueden leer tus páginas.

1) Checklist ultra rápido (10 minutos)

Si alguno devuelve 403/5xx, resuelve eso antes de seguir con contenido. Para la estrategia de contenido, consulta nuestra guía de AEO para SaaS B2B.

2) Robots.txt: buenas prácticas (incluye IA)

Robots controla rastreo; no es seguridad. Google lo explica claramente.

Tabla de user-agents habituales:

Bot User-agent Para qué suele usarse Nota
Google Search Googlebot indexación respeta robots
Google entrenamiento Google-Extended uso para training de modelos (según Google) opt-out por robots
OpenAI search OAI-SearchBot descubrimiento/citas en ChatGPT Search doc oficial
OpenAI training GPTBot crawling para modelos doc oficial
Perplexity PerplexityBot indexing/citas doc oficial

Recomendación para Exista.io (y para tus clientes): permitir rastreo de páginas públicas que quieres que aparezcan.

3) Meta robots y X-Robots-Tag

Robots.txt define "puede entrar". Meta robots define "qué puede hacer con lo que ve".

Usá:

Google documenta estas directivas y cómo afectan la presentación.

4) Sitemap.xml: el error número 1 en sitios estáticos

Errores comunes:

Checklist:

5) WAF/CDN/anti-bot: cómo no auto-bloquear motores

Muchos 403 vienen de reglas anti-bot. Recomendación:

  1. Permití bots por User-Agent + (cuando exista) IP range
  2. No uses JS challenges en robots.txt, sitemap.xml, llms.txt
  3. Si usas rate limiting, eximí estos endpoints públicos

Nota: incluso con robots en Allow, un WAF puede bloquear antes.

6) Comandos de prueba (copy/paste)

curl -I https://exista.io/
curl -I https://exista.io/robots.txt
curl -I https://exista.io/sitemap.xml
curl -A "OAI-SearchBot" -I https://exista.io/
curl -A "PerplexityBot" -I https://exista.io/
curl -A "Googlebot" -I https://exista.io/

FAQs

¿Robots.txt garantiza que me indexen?

No. Solo controla acceso de rastreo. La indexación depende de calidad, canonical, noindex, enlaces, etc.

¿Qué hago si veo 403 solo para bots?

Revisá reglas de WAF/CDN. Permití user-agents y, cuando el proveedor publique rangos, allowlist por IP. Eximí robots/sitemap de challenges.

¿Google-Extended es lo mismo que Googlebot?

No. Son user-agents diferentes; Google indica que Google-Extended está relacionado a uso para modelos. Si quieres opt-out de eso, se maneja por robots.

¿Necesito permitir GPTBot para aparecer en ChatGPT Search?

No necesariamente. OpenAI diferencia GPTBot (crawling para modelos) de OAI-SearchBot (crawling para Search). Si quieres aparecer en Search, lo importante es no bloquear OAI-SearchBot.

¿Sitemap debe incluir robots.txt?

No es necesario. Lo importante es listar páginas indexables. Si lo incluyes, que devuelva 200 y no esté bloqueado.

¿El CDN de Hostinger puede romper esto?

Sí si activa anti-bot agresivo. El síntoma típico es: navegador OK, bots 403. Se corrige con reglas de allowlist/exceptions.

Fuentes y lecturas recomendadas

Cómo lo implementa Exista.io

Si quieres que Exista.io te ayude a subir menciones y citas (ChatGPT, Gemini/AI Overviews, Claude y Perplexity) sin perder el SEO clásico, armamos un diagnóstico en 48–72 horas con:

  • baseline de visibilidad en IA (20 money queries)
  • auditoría técnica (crawl/index/render)
  • plan de contenido "citable" por cluster
  • quick wins en 2 semanas + roadmap 90 días

Escribinos desde la web y coordinamos.