Telegram Group & Telegram Channel
На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".



group-telegram.com/data_secrets/4809
Create:
Last Update:

На LMSYS Арену завезли контроль стиля, чтобы модели не могли "заманивать" юзеров красивым форматированием текста и длиной ответов

Гипотеза состоит в том, что пользователь может отдать свой голос за ту или иную модель, ориентируясь не только на содержание ответа, но и то, как он выглядит, а это нечестно. Поэтому разработчики на Арене подумали-подумали, да и выкатили функцию style control для разделения содержания и стиля текста.

Оказалось, что когда текст оценивается без форматирования, некоторые модели заметно сдуваются. Например, GPT-4o-mini и Grok-2-mini оказались ниже всех, хотя до этого опережали Claude-3 Opus, Gemini-1.5-flash и других. А вот Claude 3.5 Sonnet, Opus, and Llama-3.1-405B наоборот сильно подскочили в рейтинге.

Как работает style control? Вообще, для сравнения двух моделей на основе предпочтений на Арене используется регрессия Брэдли-Терри. Чтобы контролировать стиль, теперь в нее в качестве независимых переменных добавились фичи длины и маркдауна (количество #, списков или болда в тексте). С их помощью можно оценить, насколько на предпочтения повлиял стиль.

Подход пока простой, и, конечно, может не учитывать некоторые корреляции. Но, как пишут разработчики, это "first step".

BY Data Secrets





Share with your friend now:
group-telegram.com/data_secrets/4809

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from sg


Telegram Data Secrets
FROM American