Respuesta corta
Antes de invertir en contenido AEO/GEO, asegurá lo básico: que bots respetables puedan rastrear tu sitio (robots/WAF), que puedan indexarlo (meta robots / headers), y que tus URLs canónicas no devuelvan fallbacks. Este checklist te permite validar en 30–60 minutos si ChatGPT Search (OAI-SearchBot), Google (Googlebot/Google-Extended), Bing y Perplexity pueden leer tus páginas.
1) Checklist ultra rápido (10 minutos)
curl -I https://tudominio/devuelve 200curl -I https://tudominio/robots.txtdevuelve 200curl -I https://tudominio/sitemap.xmldevuelve 200 y lista URLs realescurl -A "OAI-SearchBot" -I https://tudominio/devuelve 200curl -A "PerplexityBot" -I https://tudominio/devuelve 200
Si alguno devuelve 403/5xx, resuelve eso antes de seguir con contenido. Para la estrategia de contenido, consulta nuestra guía de AEO para SaaS B2B.
2) Robots.txt: buenas prácticas (incluye IA)
Robots controla rastreo; no es seguridad. Google lo explica claramente.
Tabla de user-agents habituales:
| Bot | User-agent | Para qué suele usarse | Nota |
|---|---|---|---|
| Google Search | Googlebot | indexación | respeta robots |
| Google entrenamiento | Google-Extended | uso para training de modelos (según Google) | opt-out por robots |
| OpenAI search | OAI-SearchBot | descubrimiento/citas en ChatGPT Search | doc oficial |
| OpenAI training | GPTBot | crawling para modelos | doc oficial |
| Perplexity | PerplexityBot | indexing/citas | doc oficial |
Recomendación para Exista.io (y para tus clientes): permitir rastreo de páginas públicas que quieres que aparezcan.
3) Meta robots y X-Robots-Tag
Robots.txt define "puede entrar". Meta robots define "qué puede hacer con lo que ve".
Usá:
<meta name="robots" content="index,follow">en páginas públicas.- Evitá
noindexpor error en plantillas. - Si bloqueas snippets, usa
nosnippet/data-nosnippetcon intención.
Google documenta estas directivas y cómo afectan la presentación.
4) Sitemap.xml: el error número 1 en sitios estáticos
Errores comunes:
- incluir URLs que redirigen en cadena
- incluir
/blogsin slash si responde 301 a/blog/ - incluir slugs que devuelven
index.html(fallback SPA)
Checklist:
- que cada
<loc>devuelva 200 - que canonical coincida con el
<loc> - que
lastmodsea razonable
5) WAF/CDN/anti-bot: cómo no auto-bloquear motores
Muchos 403 vienen de reglas anti-bot. Recomendación:
- Permití bots por User-Agent + (cuando exista) IP range
- No uses JS challenges en
robots.txt,sitemap.xml,llms.txt - Si usas rate limiting, eximí estos endpoints públicos
Nota: incluso con robots en Allow, un WAF puede bloquear antes.
6) Comandos de prueba (copy/paste)
curl -I https://exista.io/
curl -I https://exista.io/robots.txt
curl -I https://exista.io/sitemap.xml
curl -A "OAI-SearchBot" -I https://exista.io/
curl -A "PerplexityBot" -I https://exista.io/
curl -A "Googlebot" -I https://exista.io/
FAQs
¿Robots.txt garantiza que me indexen?
No. Solo controla acceso de rastreo. La indexación depende de calidad, canonical, noindex, enlaces, etc.
¿Qué hago si veo 403 solo para bots?
Revisá reglas de WAF/CDN. Permití user-agents y, cuando el proveedor publique rangos, allowlist por IP. Eximí robots/sitemap de challenges.
¿Google-Extended es lo mismo que Googlebot?
No. Son user-agents diferentes; Google indica que Google-Extended está relacionado a uso para modelos. Si quieres opt-out de eso, se maneja por robots.
¿Necesito permitir GPTBot para aparecer en ChatGPT Search?
No necesariamente. OpenAI diferencia GPTBot (crawling para modelos) de OAI-SearchBot (crawling para Search). Si quieres aparecer en Search, lo importante es no bloquear OAI-SearchBot.
¿Sitemap debe incluir robots.txt?
No es necesario. Lo importante es listar páginas indexables. Si lo incluyes, que devuelva 200 y no esté bloqueado.
¿El CDN de Hostinger puede romper esto?
Sí si activa anti-bot agresivo. El síntoma típico es: navegador OK, bots 403. Se corrige con reglas de allowlist/exceptions.
Fuentes y lecturas recomendadas
- OpenAI crawlers (GPTBot, OAI-SearchBot)
- OpenAI: Publishers & Developers FAQ
- Perplexity crawlers (PerplexityBot)
- Google: robots.txt intro
- Google: robots meta tag & X-Robots-Tag
- Cloudflare: reporte sobre crawlers de Perplexity (contexto anti-bot)
Cómo lo implementa Exista.io
Si quieres que Exista.io te ayude a subir menciones y citas (ChatGPT, Gemini/AI Overviews, Claude y Perplexity) sin perder el SEO clásico, armamos un diagnóstico en 48–72 horas con:
- baseline de visibilidad en IA (20 money queries)
- auditoría técnica (crawl/index/render)
- plan de contenido "citable" por cluster
- quick wins en 2 semanas + roadmap 90 días