Notice: file_put_contents(): Write of 1214 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 9406 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2137 -
Telegram Group & Telegram Channel
Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.



group-telegram.com/seeallochnaya/2137
Create:
Last Update:

Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2137

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The original Telegram channel has expanded into a web of accounts for different locations, including specific pages made for individual Russian cities. There's also an English-language website, which states it is owned by the people who run the Telegram channels. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. False news often spreads via public groups, or chats, with potentially fatal effects. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from sa


Telegram Сиолошная
FROM American