Telegram Group & Telegram Channel
What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.



group-telegram.com/seeallochnaya/1389
Create:
Last Update:

What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1389

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities. 'Wild West' The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from vn


Telegram Сиолошная
FROM American