Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/data_secrets/-4809-4810-): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Data Secrets | Telegram Webview: data_secrets/4809 -
Telegram Group & Telegram Channel
На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".



group-telegram.com/data_secrets/4809
Create:
Last Update:

На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".

BY Data Secrets





Share with your friend now:
group-telegram.com/data_secrets/4809

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war.
from ua


Telegram Data Secrets
FROM American