Andrey's picture

17 3

Andrey

Bochkov

·

AI & ML interests

None yet

Recent Activity

upvoted a paper 3 days ago

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

updated a model 4 days ago

Bochkov/growing-transformers-model-frozen-16-bit-baseline-monolyth-181m

updated a model 4 days ago

Bochkov/growing-transformers-model-unfrozen-baseline-monolyth-247m

View all activity

Organizations

None yet

upvoted a paper 3 days ago

NVIDIA Nemotron Nano 2: An Accurate and Efficient Hybrid Mamba-Transformer Reasoning Model

Paper • 2508.14444 • Published Aug 20, 2025 • 40

updated 5 models 4 days ago

Bochkov/growing-transformers-model-frozen-16-bit-baseline-monolyth-181m

Text Generation • Updated 4 days ago • 20

Bochkov/growing-transformers-model-unfrozen-baseline-monolyth-247m

Text Generation • Updated 4 days ago • 10

Bochkov/growing-transformers-model-unfrozen-1-9-247m

Text Generation • Updated 4 days ago • 12

Bochkov/growing-transformers-model-16-bit-1-9-181m

Text Generation • Updated 4 days ago • 24

Bochkov/growing-transformers-model-frozen-unicode-baseline-monolyth-247m

Text Generation • Updated 4 days ago • 17

updated 10 models 6 days ago

Bochkov/emergent-semantics-model-uni-glyph-335m

Text Generation • Updated 6 days ago • 36

Bochkov/emergent-semantics-model-unfrozen-335m

Text Generation • Updated 6 days ago • 19

Bochkov/emergent-semantics-model-16-bit-269m

Text Generation • Updated 6 days ago • 35

Bochkov/emergent-semantics-model-64-bit-272m

Text Generation • Updated 6 days ago • 22

Bochkov/emergent-semantics-model-256-bit-285m

Text Generation • Updated 6 days ago • 25

Bochkov/emergent-semantics-model-1024-bit-335m

Text Generation • Updated 6 days ago • 29

Bochkov/emergent-semantics-model-16-float-269m

Text Generation • Updated 6 days ago • 30

Bochkov/emergent-semantics-model-64-float-272m

Text Generation • Updated 6 days ago • 23

Bochkov/emergent-semantics-model-256-float-285m

Text Generation • Updated 6 days ago • 13

Bochkov/emergent-semantics-model-1024-float-335m

Text Generation • Updated 6 days ago • 18

upvoted an article 6 days ago

Article

TFLOPS Gap: Why FP4 MoE Kernel Engineering Matters on Blackwell

8 days ago

•

11

updated a model 6 days ago

Bochkov/bvv241-2-3

Feature Extraction • Updated 6 days ago • 6

published an article 7 days ago

Article

Emergent Semantics Beyond Token Embeddings: A GPT-like Transformer Learns with Frozen 16‑D Binary Token-ID Embeddings (n_embed=16)

7 days ago

updated a model 9 days ago

Bochkov/growing-transformers-model-unicode-1-9-247m

Text Generation • Updated 9 days ago • 19