Garyの梦呓
DeepSeek-R1 https://github.com/deepseek-ai/DeepSeek-R1
Unakar/Logic-RL
在 Logic Puzzle 上重现 R1 Zero.
在无 Long CoT 蒸馏,三阶段Rule Based RL 后,模型准确率超越 gpt4o 的 0.3 达到 0.41 ,相比初始 0.2 acc 翻了一倍,出现了迟疑 (标记并后续验证),多路径探索,回溯并分析,阶段性总结,回答前验证,多语言 thinking 等 feature
过程介绍
PS. 主要是一次 TinyZero 的实现
在 Logic Puzzle 上重现 R1 Zero.
在无 Long CoT 蒸馏,三阶段Rule Based RL 后,模型准确率超越 gpt4o 的 0.3 达到 0.41 ,相比初始 0.2 acc 翻了一倍,出现了迟疑 (标记并后续验证),多路径探索,回溯并分析,阶段性总结,回答前验证,多语言 thinking 等 feature
过程介绍
PS. 主要是一次 TinyZero 的实现
GitHub
GitHub - Unakar/Logic-RL: Reproduce R1 Zero on Logic Puzzle
Reproduce R1 Zero on Logic Puzzle. Contribute to Unakar/Logic-RL development by creating an account on GitHub.
This media is not supported in your browser
VIEW IN TELEGRAM
https://twitter.com/BTR_anime/status/1890725905338933484
アニメ「ぼっち・ざ・ろっく!」公式 : ◤ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
𝐖𝐞 𝐰𝐢𝐥𝐥 𝐁𝐞 𝐛𝐚𝐜𝐤!
________◢
ぼっち・ざ・ろっく!
アニメ2期制作決定
https://t.co/Iq4fgcismg
🎸スタッフ
原作:はまじあき
監督:山本ゆうすけ
脚本:吉田恵里香
キャラクターデザイン:小田景門 けろりら
制作:CloverWorks
#ぼっち・ざ・ろっく
アニメ「ぼっち・ざ・ろっく!」公式 : ◤ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
𝐖𝐞 𝐰𝐢𝐥𝐥 𝐁𝐞 𝐛𝐚𝐜𝐤!
________◢
ぼっち・ざ・ろっく!
アニメ2期制作決定
https://t.co/Iq4fgcismg
🎸スタッフ
原作:はまじあき
監督:山本ゆうすけ
脚本:吉田恵里香
キャラクターデザイン:小田景門 けろりら
制作:CloverWorks
#ぼっち・ざ・ろっく
Garyの梦呓
https://www.youtube.com/watch?v=yXHSPzHfe1s 因吹斯听,如果OAG三家下场加速就好玩了 BERT:错付了
Please open Telegram to view this post
VIEW IN TELEGRAM
DeepScaleR-1.5B-Preview
DeepscaleR-1.5b 是在 DeepSeekR1-distilled-Qwen1.5b 上仅使用 3800 A100h(~$4500) 进行 RL 微调的 LLM
该模型在 AIME 2024 上获得了 43.1%@1 的准确性,较基底(28.8%)提高 14%,在 1.5B 参数下超过了 o1-preview
(Arena Math 中 R1>Gemini 2 Thinking>o1p>Gemini 2 Pro)
Open sourced dataset, code, training logs and models
Github: Github.com/agentica-project/deepscaler
Inference GGUF
#AI
DeepscaleR-1.5b 是在 DeepSeekR1-distilled-Qwen1.5b 上仅使用 3800 A100h(~$4500) 进行 RL 微调的 LLM
该模型在 AIME 2024 上获得了 43.1%@1 的准确性,较基底(28.8%)提高 14%,在 1.5B 参数下超过了 o1-preview
(Arena Math 中 R1>Gemini 2 Thinking>o1p>Gemini 2 Pro)
Open sourced dataset, code, training logs and models
Github: Github.com/agentica-project/deepscaler
Inference GGUF
#AI
Scaling Law 和 The Bitter Lesson 其实就是「我们还没有达到扩展简单方法能走到的极限」的另一种说法,也是一个类似摩尔定律的自我实现预言,会在它真无法生效的时候失效。赌注是失效的尽头前是不是有他们说的 AGI。目前最新的两个模型代表最大的资源下的训练,出来以后到处看人复读这两个词。人们开始习惯了 LLM 是这样的东西,不再要求它做它做不到的事情了。看着像是数码产品一样在跑分上不断变高就满足了,就值得欢呼了。但是对我来说,看不到范式转换级别的变化。我不觉得目前的范式尽头有AGI,即便如此 LLM 给人类社会的冲击目前也还只是释放的开始吧。
From
From