SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks
Paper • 2302.13939 • Published • 1
Адаптация импульсной языковой модели SpikeGPT (Zhu et al., 2023) для русского языка.
SpikeGPT основана на архитектуре RWKV с бинарными событийно-управляемыми LIF-нейронами (Leaky Integrate-and-Fire), что делает её пригодной для нейроморфного аппаратного обеспечения (Intel Loihi, BrainScaleS).
Данная модель — первая публичная версия SpikeGPT, обученная на русскоязычном корпусе.
| Параметр | Значение |
|---|---|
| Архитектура | SpikeGPT (RWKV + MultiStepLIF) |
| Параметры | ~100M (12 слоёв, d_model=512) |
| Токенизатор | ruGPT-3 Large BPE (vocab=50 258) |
| Корпус | Тайга: taiga_stripped_rest + taiga_stripped_proza |
| Объём данных | ~1.8B токенов |
| Длина контекста | 1 024 токена |
| Оборудование | NVIDIA A100 SXM 80GB |
| Чекпоинт | Эпоха 175 |
import torch
import torch.nn.functional as F
from transformers import AutoTokenizer
# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained("Koras1k/spikerugpt-100M-Taiga")
# Загрузка модели — см. github.com/Koras1k/SpikeGPT
# (требует src/model.py и CUDA-ядро wkv_cuda.cu)
Полный код генерации: github.com/Koras1k/SpikeGPT
| Метрика | Значение |
|---|---|
| Valid Perplexity | ~67 (эпоха 175) |
| Firing rate (LIF) | 33.2% активных нейронов |
| Молчащие нейроны | 66.8% |
Сравнение нейроморфной спарсити с английской моделью (SpikeGPT-OpenWebText-216M):
@article{zhu2023spikegpt,
title = {SpikeGPT: Generative Pre-trained Language Model with Spiking Neural Networks},
author = {Zhu, Rui-Jie and Zhao, Qihang and Li, Guoqi and Eshraghian, Jason K.},
journal = {arXiv preprint arXiv:2302.13939},
year = {2023}
}