Telegram Group & Telegram Channel
Screenshot 2024-10-27 at 17.26.28.png
353.5 KB
Обновление арены на Github от 27 октября

Офлайновая ru_llm_arena на Github была обновлена новыми моделями:

- Aya Expanse 8b
- Yandex GPT 4 (Pro и lite)
- Qwen2.5 14B

Все ответы моделей и вердикты судьи, также доступны в папке data на Github.

Напомню, что арена на GIthub отличается от арены на HF, тем что в ней испольуется в качестве судьи gpt-1106-preview, что дает более низкие скоры и, на мой взгляд, более справделивые.

Кроме того, в README мы пометили наши модели (Vikhr) с помошью "(!)", так как Илья Гусев недавно сообщал, что часть данных арены была случайно использована в SFT. Подробнее в комментариях к его посту. Мое мнение по этому поводу кратко: мы не считаем, что добавление данных арены в SFT дает большой буст, так как SFT версия нашей модели имеет скор 65, а ключ успеха лежит именно в SMPO этапе, про который мы скоро расскажем подробнее, в него утекло только 9 строк из арены, что не могло сильно повлиять на качество. В любом случае замечения мы услышали и отметили.

Скоро арену ждет масштабное обновление, которое сделает оценку моделей разноплановой, реалистичной и понятной.



group-telegram.com/nlpwanderer/65
Create:
Last Update:

Обновление арены на Github от 27 октября

Офлайновая ru_llm_arena на Github была обновлена новыми моделями:

- Aya Expanse 8b
- Yandex GPT 4 (Pro и lite)
- Qwen2.5 14B

Все ответы моделей и вердикты судьи, также доступны в папке data на Github.

Напомню, что арена на GIthub отличается от арены на HF, тем что в ней испольуется в качестве судьи gpt-1106-preview, что дает более низкие скоры и, на мой взгляд, более справделивые.

Кроме того, в README мы пометили наши модели (Vikhr) с помошью "(!)", так как Илья Гусев недавно сообщал, что часть данных арены была случайно использована в SFT. Подробнее в комментариях к его посту. Мое мнение по этому поводу кратко: мы не считаем, что добавление данных арены в SFT дает большой буст, так как SFT версия нашей модели имеет скор 65, а ключ успеха лежит именно в SMPO этапе, про который мы скоро расскажем подробнее, в него утекло только 9 строк из арены, что не могло сильно повлиять на качество. В любом случае замечения мы услышали и отметили.

Скоро арену ждет масштабное обновление, которое сделает оценку моделей разноплановой, реалистичной и понятной.

BY NLP Wanderer

❌Photos not found?❌Click here to update cache.


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/nlpwanderer/65

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform.
from us


Telegram NLP Wanderer
FROM American