Telegram Group & Telegram Channel
🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике

DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).

📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).

Каждая задача включает:

📌 Верифицируемый ответ — важно для обучения с подкреплением.

🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.

Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.

📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).

🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.

RLHF (reinforcement learning with human feedback) и self-improvement.

Дистилляция сильных моделей в более компактные.

🔜PAPER: https://arxiv.org/abs/2504.11456
🔜CODE: https://github.com/zwhe99/DeepMath
🔜 SET: https://huggingface.co/datasets/zwhe99/DeepMath-103K

@data_math
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_math/753
Create:
Last Update:

🌟 DeepMath-103K — датасет для прокачки LLM в продвинутой математике

DeepMath-103K — это новый мощный набор задач для обучения больших языковых моделей (LLMs) математическому рассуждению на высоком уровне сложности с помощью reinforcement learning (RL).

📦 Что в наборе?
103 000+ задач уровня сложности 5–9 (от среднего до продвинутого уровня).

Каждая задача включает:

📌 Верифицируемый ответ — важно для обучения с подкреплением.

🧪 3 решения, сгенерированных моделью R1 — для обучения с учителем или дистилляции.

Полная очистка от утечек данных (decontaminated) — можно безопасно использовать на бенчмарках.

📊 Почему это важно?
Модели, обученные на DeepMath-103K, показывают существенный прирост точности на сложных математических задачах и бенчмарках (MATH, GSM8K, MiniF2F и др.).

🛠 Применение:
Fine-tuning моделей (например, GPT, LLaMA) для математического reasoning.

RLHF (reinforcement learning with human feedback) и self-improvement.

Дистилляция сильных моделей в более компактные.

🔜PAPER: https://arxiv.org/abs/2504.11456
🔜CODE: https://github.com/zwhe99/DeepMath
🔜 SET: https://huggingface.co/datasets/zwhe99/DeepMath-103K

@data_math

BY Математика Дата саентиста




Share with your friend now:
group-telegram.com/data_math/753

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists." Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. Despite Telegram's origins, its approach to users' security has privacy advocates worried. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from us


Telegram Математика Дата саентиста
FROM American