Telegram Group & Telegram Channel
Screenshot 2024-10-27 at 17.26.28.png
353.5 KB
Обновление арены на Github от 27 октября

Офлайновая ru_llm_arena на Github была обновлена новыми моделями:

- Aya Expanse 8b
- Yandex GPT 4 (Pro и lite)
- Qwen2.5 14B

Все ответы моделей и вердикты судьи, также доступны в папке data на Github.

Напомню, что арена на GIthub отличается от арены на HF, тем что в ней испольуется в качестве судьи gpt-1106-preview, что дает более низкие скоры и, на мой взгляд, более справделивые.

Кроме того, в README мы пометили наши модели (Vikhr) с помошью "(!)", так как Илья Гусев недавно сообщал, что часть данных арены была случайно использована в SFT. Подробнее в комментариях к его посту. Мое мнение по этому поводу кратко: мы не считаем, что добавление данных арены в SFT дает большой буст, так как SFT версия нашей модели имеет скор 65, а ключ успеха лежит именно в SMPO этапе, про который мы скоро расскажем подробнее, в него утекло только 9 строк из арены, что не могло сильно повлиять на качество. В любом случае замечения мы услышали и отметили.

Скоро арену ждет масштабное обновление, которое сделает оценку моделей разноплановой, реалистичной и понятной.



group-telegram.com/nlpwanderer/65
Create:
Last Update:

Обновление арены на Github от 27 октября

Офлайновая ru_llm_arena на Github была обновлена новыми моделями:

- Aya Expanse 8b
- Yandex GPT 4 (Pro и lite)
- Qwen2.5 14B

Все ответы моделей и вердикты судьи, также доступны в папке data на Github.

Напомню, что арена на GIthub отличается от арены на HF, тем что в ней испольуется в качестве судьи gpt-1106-preview, что дает более низкие скоры и, на мой взгляд, более справделивые.

Кроме того, в README мы пометили наши модели (Vikhr) с помошью "(!)", так как Илья Гусев недавно сообщал, что часть данных арены была случайно использована в SFT. Подробнее в комментариях к его посту. Мое мнение по этому поводу кратко: мы не считаем, что добавление данных арены в SFT дает большой буст, так как SFT версия нашей модели имеет скор 65, а ключ успеха лежит именно в SMPO этапе, про который мы скоро расскажем подробнее, в него утекло только 9 строк из арены, что не могло сильно повлиять на качество. В любом случае замечения мы услышали и отметили.

Скоро арену ждет масштабное обновление, которое сделает оценку моделей разноплановой, реалистичной и понятной.

BY NLP Wanderer


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/nlpwanderer/65

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Anastasia Vlasova/Getty Images Despite Telegram's origins, its approach to users' security has privacy advocates worried. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS.
from ms


Telegram NLP Wanderer
FROM American