llms.txt es un archivo markdown plano en la raíz de tu dominio que resume tu sitio para modelos de lenguaje. Un crawler de IA lo lee en segundos, sin tener que parsear HTML, CSS ni esperar a que se ejecute JavaScript. Anthropic, Vercel, Mintlify, FastAPI y Drizzle ya lo implementan. Esta es la guía para hacerlo bien.
Qué es exactamente
El archivo vive en https://tudominio.com/llms.txt. Es markdown plano, sin estilo, sin metadata complicada. Su objetivo es responder, en menos de 200 líneas, las preguntas básicas que un modelo se haría sobre tu sitio: qué somos, qué ofrecemos, dónde encontrar más información.
El estándar fue propuesto por Jeremy Howard (Answer.AI) en septiembre de 2024. No es W3C todavía. Pero la adopción avanza rápido en empresas que dependen de ser citadas por LLMs.
Cómo se diferencia de archivos que ya tenés
- robots.txt dice qué pueden leer los crawlers. Control de acceso.
- sitemap.xml lista todas las URLs indexables, con fechas de actualización. Para crawlers tradicionales.
- llms.txt resume editorialmente la marca, en lenguaje denso, para crawlers IA.
Los tres conviven. No se reemplazan.
Estructura recomendada
El estándar no impone una estructura rígida. La que está funcionando mejor en producción es así:
# Nombre de tu marca
## Qué es
Una frase clara de qué hacés y a quién sirves.
## Por qué importa
El problema concreto que resolvés. En 1-2 líneas.
## Servicios o productos
- Item 1 — qué incluye, en una línea.
- Item 2 — qué incluye, en una línea.
- Item 3 — qué incluye, en una línea.
## Quiénes somos
Equipo, ubicación, sitios o proyectos públicos relevantes.
## Diferenciales
Lo que te separa de los demás, sin marketingese. Hechos.
## Casos o evidencia
- Cliente / proyecto X — qué resultado logramos.
- Cliente / proyecto Y — qué resultado logramos.
## Contacto
Email: hola@tudominio.com
Web: https://tudominio.com
## Idiomas
Español: https://tudominio.com/es
Inglés: https://tudominio.com/enEl truco está en escribir como si tu lector fuera un editor con prisa. Sin adjetivos vacíos, sin enumeraciones largas, sin frases que suenen a brochure.
Cuándo conviene sumar llms-full.txt
Si tu sitio tiene documentación técnica relevante — APIs, frameworks, librerías, manuales — vale la pena exponerla en un archivo aparte: /llms-full.txt. Es un volcado plano y ordenado de toda la documentación, sin chrome HTML.
Anthropic lo hace para su API. Drizzle lo hace para su ORM. La idea es que un agente que esté programando contra tu producto pueda leer toda la doc relevante en una sola request, sin tener que navegar por páginas separadas.
Errores comunes
- Llenarlo de slogans.“Líderes en innovación” no le dice nada a un modelo. Hechos verificables sí.
- Copiar la home tal cual. La home tiene marketing. llms.txt necesita información comprimida y útil.
- Olvidar mantenerlo. Cuando tus servicios cambian o tu posicionamiento se afina, llms.txt tiene que reflejarlo. Los crawlers vuelven.
- No declararlo en robots.txt. No es estrictamente necesario, pero algunos crawlers lo descubren más rápido si lo listás.
- Hacerlo de 5.000 palabras. El archivo está pensado para densidad. Si pasás de 200-300 líneas, perdés foco. Lo extenso va en llms-full.txt.
Cómo verificar que funciona
- Servilo correctamente con
Content-Type: text/markdownotext/plain. Algunos crawlers se confunden con tipos MIME raros. - Pedíselo a un LLM con búsqueda web: “Lee https://tudominio.com/llms.txt y resumime qué hace la marca”. Si el resumen es preciso, el archivo está bien escrito.
- Revisá tus access logs por user-agents tipo GPTBot, Claude-Web, PerplexityBot. Si ves requests al archivo, los crawlers lo están consumiendo.
Por qué publicarlo aunque hoy poca gente lo respete
Es una apuesta a costo casi cero con upside material. Hoy lo respetan algunos crawlers; en 12 meses van a respetarlo más. Tu llms.txt va a estar listo cuando el ecosistema lo termine de adoptar — y va a ser leído cuando importe.
El precedente: robots.txt apareció en 1994 como una convención sin validez técnica. Hoy es respetado por todos los crawlers serios. llms.txt está en esa misma curva, una década después.