trueml — языковые модели и NLP для продакшена

Понимание языка,
готовое к продакшену.

trueml создаёт базовые модели на трансформерах и весь стек вокруг них — поиск, дообучение и инференс, — чтобы команды внедряли понимание языка, а не возились с инфраструктурой.

7.2B

параметров, флагманская модель

100+

поддерживаемых языков

32k

токенов в контексте

38 мс

медианная задержка первого токена

Один стек — от токенов до продакшена

Предобучение, дообучение, поиск и сервинг спроектированы как единое целое — вы доходите от прототипа до нагруженного сервиса без переписывания с нуля.

Базовые модели

Decoder‑only и encoder‑decoder трансформеры, предобученные на отобранном многоязычном корпусе.

NLP‑пайплайны

Токенизация, NER, классификация, суммаризация и семантический поиск как составные блоки.

Инференс под нагрузкой

Paged attention, continuous batching и speculative decoding для сервинга с низкой задержкой.

Как устроен трансформер

Каждая модель trueml построена на трансформере: стеки self‑attention и feed‑forward слоёв, в которых каждый токен параллельно «смотрит» на всю последовательность.

Encoder–decoder трансформер (Vaswani et al., 2017) — основа trueml‑seq.

1
Self‑attentionКаждый токен собирает взвешенную смесь по всем остальным — длинные зависимости при длине пути O(1).
2
Multi‑headНесколько голов внимания параллельно учат разные связи (синтаксис, кореференция, тема) в своих подпространствах.
3
Positional encodingИнформация о порядке добавляется аддитивно, чтобы инвариантная к перестановкам модель различала позиции токенов.
4
Residual + LayerNormSkip‑связи и нормализация удерживают градиенты стабильными в глубоких стеках.

Attention(Q,K,V) = softmax( QK^T / √d_k ) V

MultiHead = Concat(head₁…head_h) W^O
head_i = Attention(QW_i^Q, KW_i^K, VW_i^V)

Scaled dot‑product attention — базовая операция.

Выберите размер под задачу

От рабочих лошадок для эмбеддингов до многоязычного флагмана — у всех моделей единый API.

Модель	Тип	Параметры	Контекст	Назначение
trueml‑embed	Энкодер	140M	8k	Семантический поиск, RAG
trueml‑base	Декодер	1.3B	16k	Классификация, извлечение
trueml‑nlp‑7B	Декодер	7.2B	32k	Генерация, рассуждение
trueml‑seq	Энк–дек	3.1B	16k	Перевод, суммаризация

Модель

Тип

Параметры

Контекст

Назначение

trueml‑embed

Энкодер

140M

Семантический поиск, RAG

trueml‑base

Декодер

1.3B

16k

Классификация, извлечение

trueml‑nlp‑7B

Декодер

7.2B

32k

Генерация, рассуждение

trueml‑seq

Энк–дек

3.1B

16k

Перевод, суммаризация

Заметки из лаборатории

Делимся тем, что узнаём про attention, токенизацию и эффективный инференс.

14 мая 2026 · 9 мин

Grouped‑query attention: декодирование в 4× дешевле без потери качества

28 апреля 2026 · 12 мин

Байт‑уровневый BPE‑токенизатор, который вдвое сокращает многоязычный словарь

3 апреля 2026 · 7 мин

Понимание языка,
готовое к продакшену.

Один стек — от токенов до продакшена

Базовые модели

NLP‑пайплайны

Инференс под нагрузкой

Как устроен трансформер

Выберите размер под задачу

Заметки из лаборатории

Grouped‑query attention: декодирование в 4× дешевле без потери качества

Байт‑уровневый BPE‑токенизатор, который вдвое сокращает многоязычный словарь

Speculative decoding в проде: уроки trueml‑nlp‑7B

Создавайте на trueml

Понимание языка,готовое к продакшену.

Один стек — от токенов до продакшена

Базовые модели

NLP‑пайплайны

Инференс под нагрузкой

Как устроен трансформер

Выберите размер под задачу

Заметки из лаборатории

Grouped‑query attention: декодирование в 4× дешевле без потери качества

Байт‑уровневый BPE‑токенизатор, который вдвое сокращает многоязычный словарь

Speculative decoding в проде: уроки trueml‑nlp‑7B

Создавайте на trueml

Понимание языка,
готовое к продакшену.