Telegram Group & Telegram Channel
What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.



group-telegram.com/seeallochnaya/1389
Create:
Last Update:

What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1389

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. The Securities and Exchange Board of India (Sebi) had carried out a similar exercise in 2017 in a matter related to circulation of messages through WhatsApp. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats.
from ye


Telegram Сиолошная
FROM American