Обучения
Как работает нейросеть: токены и контекст простыми словами
Что такое токены, почему важен размер контекста и как это использовать в SUIN.AI.
Команда SUIN.AI · · ~4 мин
Что такое нейросеть и токены
Нейросеть — это математическая модель, которая обучена находить закономерности в данных. Когда мы спрашиваем у неё что-то, она не «знает», как человек — она генерирует ответ токен за токеном, основываясь на статистике обучающего набора.
Что считается за токен
В английском один токен — это примерно 4 символа или 0.75 слова. В русском токен короче — модели режут кириллицу на меньшие куски, поэтому русский запрос «стоит» больше токенов, чем тот же запрос на английском.
- Hello world — это 2 токена
- «Здравствуй, мир» — около 6 токенов
- Длинный документ на 10 страниц — около 5000 токенов
| Модель | Контекст (токены) | Лучше всего для |
|---|---|---|
| GPT-4o mini | 128 000 | быстрых ответов |
| GPT-4o | 128 000 | сложных задач |
| Claude 3.5 Sonnet | 200 000 | длинных документов |
| Gemini 1.5 Pro | 2 000 000 | анализа книг и кодбаз |
Как с этим работать в SUIN.AI
В SUIN.AI вы видите счётчик токенов в каждом чате и можете выбрать модель под задачу: короткий запрос → быстрая модель, большой документ → модель с большим контекстом. Также можно создать базу знаний — тогда документы не уходят в каждый запрос, а подтягиваются только релевантные куски.