Telegram Group & Telegram Channel
What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.



group-telegram.com/seeallochnaya/1389
Create:
Last Update:

What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1389

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from br


Telegram Сиолошная
FROM American