SpikeGPT Russian — 100M

Адаптация импульсной языковой модели SpikeGPT (Zhu et al., 2023) для русского языка.

Описание

SpikeGPT основана на архитектуре RWKV с бинарными событийно-управляемыми LIF-нейронами (Leaky Integrate-and-Fire), что делает её пригодной для нейроморфного аппаратного обеспечения (Intel Loihi, BrainScaleS).

Данная модель — первая публичная версия SpikeGPT, обученная на русскоязычном корпусе.

Конфигурация

Параметр	Значение
Архитектура	SpikeGPT (RWKV + MultiStepLIF)
Параметры	~100M (12 слоёв, d_model=512)
Токенизатор	ruGPT-3 Large BPE (vocab=50 258)
Корпус	Тайга: taiga_stripped_rest + taiga_stripped_proza
Объём данных	~1.8B токенов
Длина контекста	1 024 токена
Оборудование	NVIDIA A100 SXM 80GB
Чекпоинт	Эпоха 175

Использование

import torch
import torch.nn.functional as F
from transformers import AutoTokenizer

# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained("Koras1k/spikerugpt-100M-Taiga")

# Загрузка модели — см. github.com/Koras1k/SpikeGPT
# (требует src/model.py и CUDA-ядро wkv_cuda.cu)

Полный код генерации: github.com/Koras1k/SpikeGPT

Результаты

Метрика	Значение
Valid Perplexity	~67 (эпоха 175)
Firing rate (LIF)	33.2% активных нейронов
Молчащие нейроны	66.8%

Сравнение нейроморфной спарсити с английской моделью (SpikeGPT-OpenWebText-216M):

Русский: 33.2% активных нейронов
Английский: 21.7% активных нейронов
Русский язык требует на 53% больше спайков — следствие морфологической сложности.

Цитирование

@article{zhu2023spikegpt,
    title   = {SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks},
    author  = {Zhu, Rui-Jie and Zhao, Qihang and Li, Guoqi and Eshraghian, Jason K.},
    journal = {arXiv preprint arXiv:2302.13939},
    year    = {2023}
}

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for Koras1k/spikerugpt-100M-Taiga

SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks

Paper • 2302.13939 • Published Feb 27, 2023 • 1