Telegram Group Search
Garyの梦呓
DeepSeek-R1 https://github.com/deepseek-ai/DeepSeek-R1
Unakar/Logic-RL
在 Logic Puzzle 上重现 R1 Zero.

在无 Long CoT 蒸馏,三阶段Rule Based RL 后,模型准确率超越 gpt4o 的 0.3 达到 0.41 ,相比初始 0.2 acc 翻了一倍,出现了​迟疑 (标记并后续验证),​多路径探索,回溯并分析,阶段性总结,​回答前验证,多语言 thinking 等 feature

过程介绍

PS. 主要是一次 TinyZero 的实现
佛了,现在逼乎网页版彻底是不给登录就没法看了嚒
泽连斯基:乌克兰计划同俄罗斯互换部分领土
当地时间 2 月 11 日,乌克兰总统泽连斯基在接受媒体采访时表示,乌方计划利用已控制的俄罗斯库尔斯克州的部分地区交换部分被俄方控制的己方领土。
财经慢报
#快讯
美国 1 月 CPI 数据公布

1 月 CPI 同比 3%,预期 2.9%,前值 2.9%。核心 CPI 同比 3.3%,预期 3.1%,均超预期上涨。

受此影响三大股指均低开,期货跳水。标普 、纳指盘初跌超 1%,半导体指数跌 1.7%。5 年至 10 年期国债收益率日内至少上涨 10 个基点

市场押注六月仍不降息的概率较前一天大幅增加,甚至预期今年仅降息一次
#经济 #慢讯
Forwarded from 每日沙雕墙 (投稿机器人 2.0)
true happiness ☝️
This media is not supported in your browser
VIEW IN TELEGRAM
https://twitter.com/BTR_anime/status/1890725905338933484
アニメ「ぼっち・ざ・ろっく!」公式 : ◤ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
𝐖𝐞 𝐰𝐢𝐥𝐥 𝐁𝐞 𝐛𝐚𝐜𝐤!
________◢

ぼっち・ざ・ろっく!
アニメ2期制作決定
https://t.co/Iq4fgcismg

🎸スタッフ
原作:はまじあき
監督:山本ゆうすけ
脚本:吉田恵里香
キャラクターデザイン:小田景門 けろりら
制作:CloverWorks

#ぼっち・ざ・ろっく
DeepScaleR-1.5B-Preview

DeepscaleR-1.5b 是在 DeepSeekR1-distilled-Qwen1.5b 上仅使用 3800 A100h(~$4500) 进行 RL 微调的 LLM

该模型在 AIME 2024 上获得了 43.1%@1 的准确性,较基底(28.8%)提高 14%,在 1.5B 参数下超过了 o1-preview
(Arena Math 中 R1>Gemini 2 Thinking>o1p>Gemini 2 Pro)

Open sourced dataset, code, training logs and models
Github: Github.com/agentica-project/deepscaler
Inference GGUF
#AI
Forwarded from Gary の 书桦
Bybit 冷钱包被盗 40万 ETH

其 ETH 多签冷钱包在约 1 小时前发生异常转账,约有 14.6 亿美元以上的可疑资金流出。目前,Bybit 其他冷钱包安全,所有提现正常进行
#慢讯
Scaling Law 和 The Bitter Lesson 其实就是「我们还没有达到扩展简单方法能走到的极限」的另一种说法,也是一个类似摩尔定律的自我实现预言,会在它真无法生效的时候失效。赌注是失效的尽头前是不是有他们说的 AGI。目前最新的两个模型代表最大的资源下的训练,出来以后到处看人复读这两个词。人们开始习惯了 LLM 是这样的东西,不再要求它做它做不到的事情了。看着像是数码产品一样在跑分上不断变高就满足了,就值得欢呼了。但是对我来说,看不到范式转换级别的变化。我不觉得目前的范式尽头有AGI,即便如此 LLM 给人类社会的冲击目前也还只是释放的开始吧。

From
2025/02/27 17:14:12
Back to Top
HTML Embed Code: