Notice: file_put_contents(): Write of 1215 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 9407 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2137 -
Telegram Group & Telegram Channel
Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.



group-telegram.com/seeallochnaya/2137
Create:
Last Update:

Ещё из этого поста узнал про ProcessBench от Qwen Team, вышедший неделю назад. Как вы могли понять из объяснения выше, очень важно, чтобы у вас был качественный оценщик — если он умеет обнаруживать ошибки почти идеально, и имеет интуицию о том, какие решения более перспективны, то это существенно улучшает оптимальность генерации десятков-сотен решений.

Вот ProcessBench и оценивает это: исследователи собрали 3400 примеров и разметили их вручную по шагам, а затем смотрели, насколько хорошо разные LLM умеют обнаруживать самый первый шаг, содержащий ошибку (или наоборот отсутствие проблем во всём решении).

Лучше всех из открытых моделей показала себя... их QwQ-32B-Preview, что не удивительно (не потому, что модель выпущена ими, а потому что она умеет рассуждать и сама по себе сильна в математике). Она правильно оценила 71.5% примеров, что больше, чем GPT-4o (61.9%), но меньше, чем o1-mini (87.9, существенно выше).

Почему это важно: с очень качественными оценщиками (верификаторами) можно запускать автоматический цикл генерации сотне решений и дообучения на самых высоко оценённых (и правильных). Предположительно, именно так и учили o1, и отсюда видно, насколько большим остаётся гэп в обучении оценщика.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2137

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from ru


Telegram Сиолошная
FROM American