trueml‑nlp v3 уже в общем доступе

Понимание языка,
готовое к продакшену.

trueml создаёт базовые модели на трансформерах и весь стек вокруг них — поиск, дообучение и инференс, — чтобы команды внедряли понимание языка, а не возились с инфраструктурой.

7.2B
параметров, флагманская модель
100+
поддерживаемых языков
32k
токенов в контексте
38 мс
медианная задержка первого токена

Платформа

Один стек — от токенов до продакшена

Предобучение, дообучение, поиск и сервинг спроектированы как единое целое — вы доходите от прототипа до нагруженного сервиса без переписывания с нуля.

Базовые модели

Decoder‑only и encoder‑decoder трансформеры, предобученные на отобранном многоязычном корпусе.

NLP‑пайплайны

Токенизация, NER, классификация, суммаризация и семантический поиск как составные блоки.

Инференс под нагрузкой

Paged attention, continuous batching и speculative decoding для сервинга с низкой задержкой.

Под капотом

Как устроен трансформер

Каждая модель trueml построена на трансформере: стеки self‑attention и feed‑forward слоёв, в которых каждый токен параллельно «смотрит» на всю последовательность.

Encoder ×N Decoder ×N Multi‑Head Attention Add & Norm Feed Forward Add & Norm Masked MHAself‑attention Add & Norm Cross‑Attentionenc–dec Add & Norm Feed Forward Add & Norm Input Embedding Output Embedding Inputs Outputs (shifted right) + + positional encoding Linear → Softmax Output probabilities
Encoder–decoder трансформер (Vaswani et al., 2017) — основа trueml‑seq.
  • 1
    Self‑attentionКаждый токен собирает взвешенную смесь по всем остальным — длинные зависимости при длине пути O(1).
  • 2
    Multi‑headНесколько голов внимания параллельно учат разные связи (синтаксис, кореференция, тема) в своих подпространствах.
  • 3
    Positional encodingИнформация о порядке добавляется аддитивно, чтобы инвариантная к перестановкам модель различала позиции токенов.
  • 4
    Residual + LayerNormSkip‑связи и нормализация удерживают градиенты стабильными в глубоких стеках.
Attention(Q,K,V) = softmax( QKT / √dk ) V

MultiHead = Concat(head1…headh) WO
  headi = Attention(QWiQ, KWiK, VWiV)
Q K V MatMul · scale Softmax Σ weighted values
Scaled dot‑product attention — базовая операция.

Семейство моделей

Выберите размер под задачу

От рабочих лошадок для эмбеддингов до многоязычного флагмана — у всех моделей единый API.

МодельТипПараметрыКонтекстНазначение
trueml‑embedЭнкодер140M8kСемантический поиск, RAG
trueml‑baseДекодер1.3B16kКлассификация, извлечение
trueml‑nlp‑7BДекодер7.2B32kГенерация, рассуждение
trueml‑seqЭнк–дек3.1B16kПеревод, суммаризация

Исследования

Заметки из лаборатории

Делимся тем, что узнаём про attention, токенизацию и эффективный инференс.

14 мая 2026 · 9 мин

Grouped‑query attention: декодирование в 4× дешевле без потери качества

28 апреля 2026 · 12 мин

Байт‑уровневый BPE‑токенизатор, который вдвое сокращает многоязычный словарь

3 апреля 2026 · 7 мин

Speculative decoding в проде: уроки trueml‑nlp‑7B

Создавайте на trueml

Запустите эндпоинт за пару минут. Бесплатный тариф включает 1 млн токенов в месяц.

Получить API‑ключ Документация