On-site Readiness

1) Acceso y crawling (HTTP, robots, bots de IA)

Robots.txt: control de crawling, no de privacidad

Google explica que robots.txt guía a crawlers sobre qué pueden acceder, y que no es un mecanismo para mantener páginas fuera de Google (para eso hay otras técnicas). Esto es relevante porque, si bloqueas crawling por error, tu contenido deja de estar disponible para ser citado.

Bots relevantes (ejemplos)

OpenAI documenta sus robots y cómo usar robots.txt para controlar el acceso (p.ej., GPTBot / OAI-SearchBot).
Anthropic también documenta bots separados (p.ej., ClaudeBot y bots de acceso por usuario) y cómo permitir/bloquear cada uno.

En Exista.io, verificamos esto con test de user-agent y respuestas HTTP (200/3xx/4xx), y lo dejamos auditado.

2) Indexación y canonicalidad (evitar "ambigüedad")

Canonical: una URL "preferida" por tema

Google detalla métodos para consolidar URLs duplicadas o muy similares y definir una canonical. Cuando hay ambigüedad (www vs non-www, /blog vs /blog/index.html, parámetros, etc.), los motores pueden repartir señales y debilitar citabilidad.

Checklist típico

canonical consistente en cada página (y una sola vez).
redirecciones coherentes (301 donde corresponde).
sitemap con URLs canónicas (sin duplicados).

3) Sitemaps (descubrimiento y cobertura)

Google documenta cómo construir y publicar sitemaps y que enviarlos/indicarlos es una pista (no garantía). Bing también recomienda sitemaps (y explica cómo referenciarlos desde robots.txt) para mejorar descubrimiento, incluso en búsqueda "AI-powered".

Qué medimos:

sitemap accesible (200), sin errores de formato.
cobertura de URLs "money" + páginas pilar.
consistencia con canonicalidad.

4) Citabilidad editorial (AEO "desde tu web")

Esto es lo que más cambia el juego en motores generativos:

"Respuesta rápida para citar" (Answer Box)

Arriba del contenido, una respuesta de 2–4 líneas que pueda ser citada literalmente.
Definición + contexto + alcance + cuándo aplica.

Estructura

Un H1 único, descriptivo.
Subtítulos que respondan intenciones reales ("Cómo funciona", "Qué incluye", "Qué no incluye", "Ejemplos", "FAQ").
Lists y tablas simples (cuando suman claridad).

5) Structured data (Schema)

Schema.org existe para que los motores entiendan mejor el contenido y habiliten experiencias "rich". En Exista.io usamos schema de manera pragmática: no para "marcar por marcar", sino para:

clarificar qué es la empresa, qué ofrece, qué páginas son pilar,
estructurar FAQ/HowTo cuando aplica,
reforzar entidad y relaciones.

6) Authority on-site: señales de confianza

Google enfatiza contenido útil y confiable (people-first), y en su ecosistema la reputación, claridad de autoría y referencias importan.

Qué medimos / pedimos:

Sección de "Fuentes y referencias oficiales" donde corresponde.
Autoría clara (quién escribe, por qué sabe).
Política editorial mínima (si aplica).

Resultado: qué entregamos del On-site

Score 0–100 con breakdown por pilar.
Hallazgos con evidencia (URLs, headers, ejemplos).
Backlog priorizado con quick wins y fixes estructurales.