daily_paper
Paper • 2505.14231 • Published • 52Note 1. 构造带有COT过程的目标检测数据集 2. 基于1中的数据做SFT 3. 基于2中的模型做GRPO(difficulty-aware,训练过程中调整困难数据比例) --- 直接RL不如先COT-SFT SFT对比COT-SFT在推理任务上明显弱,其他任务旗鼓相当 GRPO-difficulty好于GRPO
Skywork-R1V3 Technical Report
Paper • 2507.06167 • Published • 72Note 主要围绕第6节来看 1. 无论SFT还是RL,都能让模型学会In-domain的结果提升;但是,SFT并不能带来out-of-domain的结果提升。(学习一种format其实一点都不难) 2. 抑制思考相关的token出现,可以让模型输出更短一些(-18%),结果也不会太差(-2%),但是No_think直接掉10个点... 3. 基于第2点提到的内容,观察think 长度对结果的影响,发现如果给思考过程的budgets太小,其实甚至都不如No_think(?有意思) 4. 模型在think时,有时候会表达“无法看到图像”的内容,但也能think图像相关的内容,不过在中从来都不会这么说。同时,有幻觉的cot会影响模型的最终指标 5. 随着RL训练进行,模型输出的平均熵在逐渐降低,但高熵token量在变多,表示模型的确定性和exploration(探索)性都更强了 6. 没太看懂,大概意思是,单纯用prompt要求模型能输出COT,它学的格式是对的,但没有学到真的long cot,指标并不会高;【确保模型在思考过程中能够访问并放大关键token才更重要】
Scaling Laws for Optimal Data Mixtures
Paper • 2507.09404 • Published • 36Note 1. 还是没脱离scaling law的范畴,用小模型预测大模型的loss。做法的一般形式:在参数量为N的模型下,训练数据来自不同domain:D_1, ... , D_k,搜索数据来自各个domain合适的比例h_1, ... , h_k,再在另外一个domain:D_T上测loss,这个loss是服从scaling law的 没啥新意
Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination
Paper • 2507.10532 • Published • 89Note 1. QWEN 2.5上出现了:随机Reward都能提升MATH-500的能力(其他模型没有)的现象 2. 实验验证,QWEN 2.5中存在数据泄露,训练过程中激发了预训练内容(背过题) 3. 实验设计:能否自动补全题目? 题干不完整时能否答对? 4. 实验结果:上述两个都能
-
On the Generalization of SFT: A Reinforcement Learning Perspective with Reward Rectification
Paper • 2508.05629 • Published • 180