Telegram Group & Telegram Channel
What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.



group-telegram.com/seeallochnaya/1389
Create:
Last Update:

What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1389

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Given the pro-privacy stance of the platform, it’s taken as a given that it’ll be used for a number of reasons, not all of them good. And Telegram has been attached to a fair few scandals related to terrorism, sexual exploitation and crime. Back in 2015, Vox described Telegram as “ISIS’ app of choice,” saying that the platform’s real use is the ability to use channels to distribute material to large groups at once. Telegram has acted to remove public channels affiliated with terrorism, but Pavel Durov reiterated that he had no business snooping on private conversations. In 2018, Russia banned Telegram although it reversed the prohibition two years later. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from cn


Telegram Сиолошная
FROM American