Un token de IA es la unidad fundamental de texto que los grandes modelos de lenguaje utilizan para procesar y generar lenguaje. Los tokens no son exactamente palabras: son fragmentos de texto determinados por el tokenizador del modelo, que divide el texto en segmentos manejables para su procesamiento.
La tokenización varía según el modelo: GPT-4 utiliza aproximadamente 1 token por cada 4 caracteres de texto en inglés (alrededor de 0,75 palabras por token), lo que significa que un documento de 1.000 palabras equivale a unos 1.333 tokens. Los distintos idiomas se tokenizan de forma diferente: algunos idiomas asiáticos pueden utilizar más tokens por carácter. Los caracteres especiales, el código y los datos estructurados también pueden tokenizarse de forma distinta al lenguaje natural.
Los tokens son importantes para la gestión de la IA en la empresa por varias razones: la gestión de costes (la tarificación de las API de IA suele basarse en los tokens consumidos, tanto de entrada como de salida), los límites de la ventana de contexto (los modelos tienen un límite máximo de tokens por conversación, lo que afecta a la información que puede procesarse), las implicaciones de rendimiento (las secuencias de tokens más largas aumentan la latencia y el tiempo de procesamiento), la planificación presupuestaria (estimar los costes de IA requiere comprender los patrones de uso de tokens) y la supervisión de seguridad (el análisis de tokens puede revelar el volumen de datos que circula por las herramientas de IA).
Las organizaciones que gestionan los costes y la gobernanza de la IA deberían supervisar el uso de tokens entre departamentos y herramientas, establecer presupuestos y alertas de tokens, optimizar las solicitudes para la eficiencia en tokens y comprender cómo los distintos casos de uso consumen tokens para tomar decisiones informadas sobre la asignación y el gasto en herramientas de IA.