¿llms.txt es un estándar oficial?

No es un estándar W3C todavía, pero es una convención cada vez más adoptada. La propuesta original es de Jeremy Howard (Answer.AI). Anthropic, Vercel, Mintlify, FastAPI, Drizzle ORM y otros lo implementan. Mientras tanto, los crawlers de IA cada vez más lo respetan.

¿Qué tan distinto es de robots.txt?

robots.txt dice 'qué pueden leer los crawlers'. llms.txt dice 'qué somos, en lenguaje denso y plano'. Son complementarios. robots.txt sigue siendo necesario para controlar acceso; llms.txt agrega contexto editorial.

¿Hace falta tener también sitemap.xml?

Sí. sitemap.xml indexa URLs para crawlers tradicionales (Googlebot, Bingbot). llms.txt resume la marca para crawlers IA. Cada uno cubre un flujo distinto.

¿Cuándo agrego llms-full.txt?

Si tu sitio tiene documentación técnica relevante (típico en SaaS B2B, librerías, frameworks), llms-full.txt expone toda esa documentación en un solo archivo plano. Lo usan modelos cuando necesitan respuestas técnicas profundas. Si tu sitio es marketing puro, llms.txt es suficiente.

llms.txt explicado: el archivo que Anthropic, Vercel y Mintlify ya implementan

Qué es llms.txt, cómo se diferencia de robots.txt y sitemap.xml, cómo escribir uno bueno, errores comunes, y cuándo conviene sumar llms-full.txt.

llms.txt es un archivo markdown plano en la raíz de tu dominio que resume tu sitio para modelos de lenguaje. Un crawler de IA lo lee en segundos, sin tener que parsear HTML, CSS ni esperar a que se ejecute JavaScript. Anthropic, Vercel, Mintlify, FastAPI y Drizzle ya lo implementan. Esta es la guía para hacerlo bien.

Qué es exactamente

El archivo vive en https://tudominio.com/llms.txt. Es markdown plano, sin estilo, sin metadata complicada. Su objetivo es responder, en menos de 200 líneas, las preguntas básicas que un modelo se haría sobre tu sitio: qué somos, qué ofrecemos, dónde encontrar más información.

El estándar fue propuesto por Jeremy Howard (Answer.AI) en septiembre de 2024. No es W3C todavía. Pero la adopción avanza rápido en empresas que dependen de ser citadas por LLMs.

Cómo se diferencia de archivos que ya tienes

robots.txt dice qué pueden leer los crawlers. Control de acceso.
sitemap.xml lista todas las URLs indexables, con fechas de actualización. Para crawlers tradicionales.
llms.txt resume editorialmente la marca, en lenguaje denso, para crawlers IA.

Los tres conviven. No se reemplazan.

Estructura recomendada

El estándar no impone una estructura rígida. La que está funcionando mejor en producción es así:

# Nombre de tu marca

## Qué es
Una frase clara de qué haces y a quién sirves.

## Por qué importa
El problema concreto que resuelves. En 1-2 líneas.

## Servicios o productos
- Item 1 — qué incluye, en una línea.
- Item 2 — qué incluye, en una línea.
- Item 3 — qué incluye, en una línea.

## Quiénes somos
Equipo, ubicación, sitios o proyectos públicos relevantes.

## Diferenciales
Lo que te separa de los demás, sin marketingese. Hechos.

## Casos o evidencia
- Cliente / proyecto X — qué resultado logramos.
- Cliente / proyecto Y — qué resultado logramos.

## Contacto
Email: hola@tudominio.com
Web: https://tudominio.com

## Idiomas
Español: https://tudominio.com/es
Inglés: https://tudominio.com/en

El truco está en escribir como si tu lector fuera un editor con prisa. Sin adjetivos vacíos, sin enumeraciones largas, sin frases que suenen a brochure.

Cuándo conviene sumar llms-full.txt

Si tu sitio tiene documentación técnica relevante — APIs, frameworks, librerías, manuales — vale la pena exponerla en un archivo aparte: /llms-full.txt. Es un volcado plano y ordenado de toda la documentación, sin chrome HTML.

Anthropic lo hace para su API. Drizzle lo hace para su ORM. La idea es que un agente que esté programando contra tu producto pueda leer toda la doc relevante en una sola request, sin tener que navegar por páginas separadas.

Errores comunes

Llenarlo de slogans.“Líderes en innovación” no le dice nada a un modelo. Hechos verificables sí.
Copiar la home tal cual. La home tiene marketing. llms.txt necesita información comprimida y útil.
Olvidar mantenerlo. Cuando tus servicios cambian o tu posicionamiento se afina, llms.txt tiene que reflejarlo. Los crawlers vuelven.
No declararlo en robots.txt. No es estrictamente necesario, pero algunos crawlers lo descubren más rápido si lo listás.
Hacerlo de 5.000 palabras. El archivo está pensado para densidad. Si pasás de 200-300 líneas, perdés foco. Lo extenso va en llms-full.txt.

Cómo verificar que funciona

Servilo correctamente con Content-Type: text/markdown o text/plain. Algunos crawlers se confunden con tipos MIME raros.
Pedíselo a un LLM con búsqueda web: “Lee https://tudominio.com/llms.txt y resumime qué hace la marca”. Si el resumen es preciso, el archivo está bien escrito.
Revisá tus access logs por user-agents tipo GPTBot, Claude-Web, PerplexityBot. Si ves requests al archivo, los crawlers lo están consumiendo.

Por qué publicarlo aunque hoy poca gente lo respete

Es una apuesta a costo casi cero con upside material. Hoy lo respetan algunos crawlers; en 12 meses van a respetarlo más. Tu llms.txt va a estar listo cuando el ecosistema lo termine de adoptar — y va a ser leído cuando importe.

El precedente: robots.txt apareció en 1994 como una convención sin validez técnica. Hoy es respetado por todos los crawlers serios. llms.txt está en esa misma curva, una década después.