Checklist técnico AEO para SaaS: robots.txt, sitemap, canonical y WAF sin romper bots

Respuesta corta

Antes de invertir en contenido AEO/GEO, asegurá lo básico: que bots respetables puedan rastrear tu sitio (robots/WAF), que puedan indexarlo (meta robots / headers), y que tus URLs canónicas no devuelvan fallbacks. Este checklist te permite validar en 30–60 minutos si ChatGPT Search (OAI-SearchBot), Google (Googlebot/Google-Extended), Bing y Perplexity pueden leer tus páginas.

1) Checklist ultra rápido (10 minutos)

curl -I https://tudominio/ devuelve 200
curl -I https://tudominio/robots.txt devuelve 200
curl -I https://tudominio/sitemap.xml devuelve 200 y lista URLs reales
curl -A "OAI-SearchBot" -I https://tudominio/ devuelve 200
curl -A "PerplexityBot" -I https://tudominio/ devuelve 200

Si alguno devuelve 403/5xx, resuelve eso antes de seguir con contenido. Para la estrategia de contenido, consulta nuestra guía de AEO para SaaS B2B.

2) Robots.txt: buenas prácticas (incluye IA)

Robots controla rastreo; no es seguridad. Google lo explica claramente.

Tabla de user-agents habituales:

Bot	User-agent	Para qué suele usarse	Nota
Google Search	Googlebot	indexación	respeta robots
Google entrenamiento	Google-Extended	uso para training de modelos (según Google)	opt-out por robots
OpenAI search	OAI-SearchBot	descubrimiento/citas en ChatGPT Search	doc oficial
OpenAI training	GPTBot	crawling para modelos	doc oficial
Perplexity	PerplexityBot	indexing/citas	doc oficial

Recomendación para Exista.io (y para tus clientes): permitir rastreo de páginas públicas que quieres que aparezcan.

3) Meta robots y X-Robots-Tag

Robots.txt define "puede entrar". Meta robots define "qué puede hacer con lo que ve".

Usá:

<meta name="robots" content="index,follow"> en páginas públicas.
Evitá noindex por error en plantillas.
Si bloqueas snippets, usa nosnippet / data-nosnippet con intención.

Google documenta estas directivas y cómo afectan la presentación.

4) Sitemap.xml: el error número 1 en sitios estáticos

Errores comunes:

incluir URLs que redirigen en cadena
incluir /blog sin slash si responde 301 a /blog/
incluir slugs que devuelven index.html (fallback SPA)

Checklist:

que cada <loc> devuelva 200
que canonical coincida con el <loc>
que lastmod sea razonable

5) WAF/CDN/anti-bot: cómo no auto-bloquear motores

Muchos 403 vienen de reglas anti-bot. Recomendación:

Permití bots por User-Agent + (cuando exista) IP range
No uses JS challenges en robots.txt, sitemap.xml, llms.txt
Si usas rate limiting, eximí estos endpoints públicos

Nota: incluso con robots en Allow, un WAF puede bloquear antes.

6) Comandos de prueba (copy/paste)

curl -I https://exista.io/
curl -I https://exista.io/robots.txt
curl -I https://exista.io/sitemap.xml
curl -A "OAI-SearchBot" -I https://exista.io/
curl -A "PerplexityBot" -I https://exista.io/
curl -A "Googlebot" -I https://exista.io/

FAQs

¿Robots.txt garantiza que me indexen?

No. Solo controla acceso de rastreo. La indexación depende de calidad, canonical, noindex, enlaces, etc.

¿Qué hago si veo 403 solo para bots?

Revisá reglas de WAF/CDN. Permití user-agents y, cuando el proveedor publique rangos, allowlist por IP. Eximí robots/sitemap de challenges.

¿Google-Extended es lo mismo que Googlebot?

No. Son user-agents diferentes; Google indica que Google-Extended está relacionado a uso para modelos. Si quieres opt-out de eso, se maneja por robots.

¿Necesito permitir GPTBot para aparecer en ChatGPT Search?

No necesariamente. OpenAI diferencia GPTBot (crawling para modelos) de OAI-SearchBot (crawling para Search). Si quieres aparecer en Search, lo importante es no bloquear OAI-SearchBot.

¿Sitemap debe incluir robots.txt?

No es necesario. Lo importante es listar páginas indexables. Si lo incluyes, que devuelva 200 y no esté bloqueado.

¿El CDN de Hostinger puede romper esto?

Sí si activa anti-bot agresivo. El síntoma típico es: navegador OK, bots 403. Se corrige con reglas de allowlist/exceptions.

Fuentes y lecturas recomendadas

Cómo lo implementa Exista.io

Si quieres que Exista.io te ayude a subir menciones y citas (ChatGPT, Gemini/AI Overviews, Claude y Perplexity) sin perder el SEO clásico, armamos un diagnóstico en 48–72 horas con:

baseline de visibilidad en IA (20 money queries)
auditoría técnica (crawl/index/render)
plan de contenido "citable" por cluster
quick wins en 2 semanas + roadmap 90 días

Escribinos desde la web y coordinamos.

Video relacionado

Ver más videos en nuestro canal →