5 15 13

LIU Shih-yang

sliuau

AI & ML interests

None yet

Recent Activity

upvoted a paper 6 days ago

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

liked a Space 6 days ago

dylan-marimo-io/Reward-Policy-Intuition

upvoted a paper 6 days ago

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

View all activity

Organizations

upvoted a paper 6 days ago

Quantile Rendering: Efficiently Embedding High-dimensional Feature on 3D Gaussian Splatting

Paper • 2512.20927 • Published 28 days ago • 15

liked a Space 6 days ago

Reward Policy Intuition

🍃

GRPO vs GDPO: Understanding Multi-Reward Policy Optimization

upvoted a paper 6 days ago

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Paper • 2601.09708 • Published 6 days ago • 49

authored a paper 12 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 12 days ago • 200

upvoted 2 papers 12 days ago

TiDAR: Think in Diffusion, Talk in Autoregression

Paper • 2511.08923 • Published Nov 12, 2025 • 123

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 12 days ago • 200

submitted a paper to Daily Papers 12 days ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published 12 days ago • 200

upvoted a paper 30 days ago

4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Paper • 2512.17012 • Published Dec 18, 2025 • 43

liked a dataset about 1 month ago

allenai/Dolci-RL-Zero-Math-7B

Viewer • Updated 15 days ago • 13.3k • 438 • 9

liked 2 models about 1 month ago

Qwen/Qwen3-4B-Instruct-2507

Text Generation • 4B • Updated Sep 17, 2025 • 2.64M • • 652

EssentialAI/rnj-1-instruct

Text Generation • 8B • Updated 28 days ago • 4.78k • • 299

upvoted 2 papers about 2 months ago

ToolOrchestra: Elevating Intelligence via Efficient Model and Tool Orchestration

Paper • 2511.21689 • Published Nov 26, 2025 • 119

Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models

Paper • 2511.18890 • Published Nov 24, 2025 • 33

liked a model about 2 months ago

mistralai/Ministral-3-3B-Reasoning-2512

4B • Updated 6 days ago • 22.6k • 89

New activity in allenai/Olmo-3-7B-Think about 2 months ago

Endless reasoning loop when serving the model with vLLM

#2 opened about 2 months ago by

sliuau

liked a model about 2 months ago

allenai/Olmo-3-7B-Think

Text Generation • 528k • Updated 15 days ago • 13.6k • • 82

published a dataset 3 months ago

sliuau/DeepScaleR-Preview-Dataset-verl-format

Viewer • Updated Nov 3, 2025 • 40.8k • 14

updated a dataset 3 months ago

sliuau/DeepScaleR-Preview-Dataset-verl-format

Viewer • Updated Nov 3, 2025 • 40.8k • 14

upvoted a paper 3 months ago

DLER: Doing Length pEnalty Right - Incentivizing More Intelligence per Token via Reinforcement Learning

Paper • 2510.15110 • Published Oct 16, 2025 • 15

updated a model 3 months ago

nvidia/DLER-R1-7B-Research

8B • Updated Oct 25, 2025 • 6.81k • 15

LIU Shih-yang

AI & ML interests

Recent Activity

Organizations

sliuau's activity

Reward Policy Intuition

Endless reasoning loop when serving the model with vLLM