Herramientas de tokens de IA

Contador de tokens de Llama — Cuenta tokens online (gratis)

Cuenta cuántos tokens usa tu texto con Llama. Pega o escribe abajo — el número de tokens se actualiza en vivo, ideal para mantenerte dentro de la ventana de contexto de Llama, recortar prompts y estimar el coste de la API antes de enviar una solicitud.

Desarrollador: Meta
Ventana de contexto: 128K tokens
Tokenizador: Llama BPE (estimated here)
Precisión aquí: Estimación cercana

Acerca de esta herramienta

Un token es la unidad básica que lee un modelo de lenguaje. Suele ser un trozo corto de palabra — en inglés, un token equivale a unos 4 caracteres o aproximadamente ¾ de una palabra. Llama lo mide todo en tokens: tanto la ventana de contexto (cuánto texto cabe en una solicitud) como la facturación de la API.

Conocer el número de tokens de Llama de antemano tiene tres ventajas: evitas superar la ventana de contexto y que se trunque, puedes prever el coste de una llamada a la API y puedes recortar prompts largos para que el modelo tenga más espacio para responder.

Este contador de tokens de Llama funciona completamente en tu navegador — tu texto nunca se sube ni se guarda. Los recuentos de OpenAI (GPT) usan la codificación exacta tiktoken; Llama se muestra como estimación cercana porque su tokenizador oficial no está publicado para el navegador. Para texto normal la estimación suele estar dentro de un pequeño porcentaje.

Cómo Llama convierte el texto en tokens

Llama no lee palabras ni letras directamente: divide el texto en tokens con un tokenizador de subpalabras (Llama BPE (estimated here)). Las palabras comunes suelen ser un solo token, mientras que las raras o largas, los emojis y el código se dividen en varios. Los espacios y la puntuación también cuentan — por eso «hello world» y «helloworld» pueden dar recuentos distintos.

El texto que no está en inglés suele usar más tokens por carácter. El chino, el japonés, el coreano y el tailandés son especialmente densos — un solo carácter puede ser uno o varios tokens —, así que el mismo significado puede costar bastantes más tokens que en inglés.

Ventana de contexto y límite de tokens de Llama

Llama tiene una ventana de contexto de unos 128K tokens, compartida entre la entrada (prompt, mensaje de sistema, historial, adjuntos) y la salida. Si el total supera la ventana, se descarta el contenido más antiguo o se rechaza la solicitud — contar primero lo evita.

Consejo práctico: deja margen para la respuesta. Si necesitas una respuesta larga, mantén el prompt bastante por debajo del límite para que al modelo le queden tokens para responder.

Trucos para usar menos tokens con Llama

Elimina instrucciones y plantillas redundantes, resume el contexto largo en vez de pegarlo entero, quita los ejemplos innecesarios y no repitas el mismo mensaje de sistema en cada turno. Recortar tokens acelera las respuestas y reduce la factura.

Cómo usar

Pega tu texto — Escribe o pega cualquier prompt, documento o código en la caja.
Lee el recuento — El número grande es el recuento de tokens de Llama, en vivo, con caracteres y palabras al lado.
Compara modelos — Usa la tabla para comparar el recuento con otros modelos en paralelo.
Copia o borra — Copia tu texto para usarlo en otro sitio, o bórralo y empieza de nuevo.

Preguntas frecuentes

¿Cuántos tokens tiene mi texto en Llama?

Pégalo arriba — el contador muestra el recuento de tokens de Llama al instante, junto con caracteres y palabras.

¿Es exacto el recuento de tokens de Llama?

Es una estimación cercana. El tokenizador oficial de Llama no se ejecuta en el navegador, así que lo aproximamos; para texto normal suele estar dentro de un pequeño porcentaje. Los recuentos de OpenAI/GPT de la tabla son exactos.

¿Cuál es la ventana de contexto de Llama?

Unos 128K tokens, compartidos entre entrada y salida. Mantén el total por debajo de este límite para evitar el truncamiento.

¿Cómo cuento tokens de Llama online y gratis?

Esta página es un contador de tokens de Llama online y gratuito — sin cuenta ni instalación. Todo se calcula en tu navegador.

¿Por qué importan los tokens en Llama?

Llama factura por token y limita las solicitudes por tokens, así que el recuento decide si tu prompt cabe y cuánto cuesta.

¿Se envía mi texto a un servidor?

No. El conteo ocurre completamente en tu navegador — nada se sube, registra ni almacena.

¿Cómo reduzco mi uso de tokens?

Acorta los prompts, resume el contexto largo, elimina instrucciones repetidas y recorta ejemplos. Menos tokens significa solicitudes más rápidas y baratas.