Tom Aarsen's picture

Building on HF

Tom Aarsen

tomaarsen

huggingface

·

https://linkedin.com/in/tomaarsen

AI & ML interests

NLP: text embeddings, information retrieval, named entity recognition, few-shot text classification

Recent Activity

updated a collection 4 days ago

deployed-models

updated a collection 4 days ago

deployed-models

updated a collection 4 days ago

deployed-models

View all activity

Organizations

upvoted a collection 5 days ago

Foundation Text-Generation Models Below 360M Parameters

Great candidates for fine-tuning targeting Wllama and Transformers.js for mobile devices, ordered by number of parameters. • 43 items • Updated 5 days ago • 45

upvoted 2 papers 6 days ago

Adaptive Chunking: Optimizing Chunking-Method Selection for RAG

Paper • 2603.25333 • Published Mar 26 • 4

(Sparse) Attention to the Details: Preserving Spectral Fidelity in ML-based Weather Forecasting Models

Paper • 2604.16429 • Published 15 days ago • 2

upvoted 2 collections 7 days ago

DeAR-Reranking

DeAR (Deep Agent Rank): Dual-Stage Document Reranking with Reasoning Agents Accepted at EMNLP Findings 2025 • 12 items • Updated Oct 21, 2025 • 2

Command A Plus

4 items • Updated 7 days ago • 41

upvoted an article 8 days ago

Article

OlmoEarth v1.1: A more efficient family of Earth observation models

allenai

•

8 days ago

• 19

upvoted an article 9 days ago

Article

Introducing the Ettin Reranker Family

tomaarsen

•

9 days ago

• 47

upvoted a collection 9 days ago

Ettin Rerankers

8 items • Updated 9 days ago • 8

upvoted an article 9 days ago

Article

Granite Embedding Multilingual R2: Open Apache 2.0 Multilingual Embeddings with 32K Context — Best Sub-100M Retrieval Quality

ibm-granite

•

13 days ago

• 31

upvoted 2 papers 11 days ago

Precise Zero-Shot Dense Retrieval without Relevance Labels

Paper • 2212.10496 • Published Dec 20, 2022 • 6

BiXSE: Improving Dense Retrieval via Probabilistic Graded Relevance Distillation

Paper • 2508.06781 • Published Aug 9, 2025 • 1

upvoted an article 13 days ago

Article

Unlocking asynchronicity in continuous batching

+1

ror, pcuenq, ariG23498

•

14 days ago

• 55

upvoted an article 14 days ago

Article

SSE Retrieval MRL v2: Regularization of Representation Space and Performance Improvement via Hyperparameter Optimization

RikkaBotan

•

14 days ago

• 2

upvoted a paper 14 days ago

Rethinking Agentic Search with Pi-Serini: Is Lexical Retrieval Sufficient?

Paper • 2605.10848 • Published 17 days ago • 5

upvoted a collection 15 days ago

Biomedical datasets & models

8 items • Updated 10 days ago • 6

upvoted 2 papers 15 days ago

A Causal Language Modeling Detour Improves Encoder Continued Pretraining

Paper • 2605.12438 • Published 16 days ago • 7

Scaling Laws for Cross-Encoder Reranking

Paper • 2603.04816 • Published Apr 18 • 2

upvoted a collection 16 days ago

jina-embeddings-v5-omni

Multimodal (text + image + video + audio) embedding models aligned with jina-embeddings-v5-text-*. Two sizes, four task variants each. • 27 items • Updated 15 days ago • 36

upvoted an article 18 days ago

Article

The State of Arabic Multimodal Embedding — What a 2B Finetune Taught Us

Omartificial-Intelligence-Space

•

Apr 23

• 3

upvoted an article 19 days ago

Article

EMO: Pretraining mixture of experts for emergent modularity

allenai

•

19 days ago

• 38