Ein KI-Token ist die grundlegende Texteinheit, die große Sprachmodelle zur Verarbeitung und Generierung von Sprache verwenden. Tokens sind nicht exakt Wörter, sondern Textstücke, die vom Tokenizer des Modells bestimmt werden, der Text in handhabbare Abschnitte für die Verarbeitung zerlegt.
Die Tokenisierung variiert je nach Modell: GPT-4 verwendet etwa 1 Token pro 4 Zeichen englischen Textes (ungefähr 0,75 Wörter pro Token), das heißt, ein Dokument mit 1.000 Wörtern entspricht etwa 1.333 Tokens. Verschiedene Sprachen werden unterschiedlich tokenisiert; einige asiatische Sprachen können mehr Tokens pro Zeichen benötigen. Sonderzeichen, Code und strukturierte Daten können ebenfalls anders tokenisiert werden als natürliche Sprache.
Tokens sind aus mehreren Gründen für das KI-Management in Unternehmen wichtig: Kostenmanagement (die Preisgestaltung von KI-APIs basiert in der Regel auf den verbrauchten Tokens, sowohl Eingabe als auch Ausgabe), Kontextfenstergrenzen (Modelle haben pro Konversation eine maximale Token-Grenze, die beeinflusst, welche Informationen verarbeitet werden können), Leistungsauswirkungen (längere Token-Sequenzen erhöhen Latenz und Verarbeitungszeit), Budgetplanung (die Schätzung von KI-Kosten erfordert ein Verständnis der Token-Nutzungsmuster) und Sicherheitsüberwachung (die Token-Analyse kann das Datenvolumen offenlegen, das durch KI-Tools fließt).
Organisationen, die KI-Kosten und -Governance steuern, sollten die Token-Nutzung über Abteilungen und Tools hinweg überwachen, Token-Budgets und -Alarme festlegen, Prompts auf Token-Effizienz optimieren und verstehen, wie verschiedene Anwendungsfälle Tokens verbrauchen, um fundierte Entscheidungen über die Zuweisung und die Ausgaben für KI-Tools zu treffen.