Telegram Group & Telegram Channel
На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".



group-telegram.com/data_secrets/4809
Create:
Last Update:

На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".

BY Data Secrets





Share with your friend now:
group-telegram.com/data_secrets/4809

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries. For tech stocks, “the main thing is yields,” Essaye said. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals.
from id


Telegram Data Secrets
FROM American