SpikeGPT Russian — 100M

Адаптация импульсной языковой модели SpikeGPT (Zhu et al., 2023) для русского языка.

Описание

SpikeGPT основана на архитектуре RWKV с бинарными событийно-управляемыми LIF-нейронами (Leaky Integrate-and-Fire), что делает её пригодной для нейроморфного аппаратного обеспечения (Intel Loihi, BrainScaleS).

Данная модель — первая публичная версия SpikeGPT, обученная на русскоязычном корпусе.

Конфигурация

Параметр Значение
Архитектура SpikeGPT (RWKV + MultiStepLIF)
Параметры ~100M (12 слоёв, d_model=512)
Токенизатор ruGPT-3 Large BPE (vocab=50 258)
Корпус Тайга: taiga_stripped_rest + taiga_stripped_proza
Объём данных ~1.8B токенов
Длина контекста 1 024 токена
Оборудование NVIDIA A100 SXM 80GB
Чекпоинт Эпоха 175

Использование

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer

# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained("Koras1k/spikerugpt-100M-Taiga")

# Загрузка модели — см. github.com/Koras1k/SpikeGPT
# (требует src/model.py и CUDA-ядро wkv_cuda.cu)

Полный код генерации: github.com/Koras1k/SpikeGPT

Результаты

Метрика Значение
Valid Perplexity ~67 (эпоха 175)
Firing rate (LIF) 33.2% активных нейронов
Молчащие нейроны 66.8%

Сравнение нейроморфной спарсити с английской моделью (SpikeGPT-OpenWebText-216M):

  • Русский: 33.2% активных нейронов
  • Английский: 21.7% активных нейронов
  • Русский язык требует на 53% больше спайков — следствие морфологической сложности.

Цитирование

@article{zhu2023spikegpt,
    title   = {SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks},
    author  = {Zhu, Rui-Jie and Zhao, Qihang and Li, Guoqi and Eshraghian, Jason K.},
    journal = {arXiv preprint arXiv:2302.13939},
    year    = {2023}
}
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for Koras1k/spikerugpt-100M-Taiga