Telegram Group & Telegram Channel
На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".



group-telegram.com/data_secrets/4809
Create:
Last Update:

На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".

BY Data Secrets





Share with your friend now:
group-telegram.com/data_secrets/4809

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from us


Telegram Data Secrets
FROM American