Telegram Group & Telegram Channel
What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.



group-telegram.com/seeallochnaya/1389
Create:
Last Update:

What’s up with Llama 3? Arena data analysis

Изначально материал этого поста готовился для лонга (и он может быть ещё выйдет!), но давайте расскажу вкратце. Если судить по LMSYS Arena ELO (не знаете что это? читать тут), то может сложиться ощущение, что LLAMA-3-70B уже почти как GPT-4(1208 очков против 1189 у первой мартовской GPT-4 и 1258 у текущей Turbo). «Вау, опенсурс круто, мы почти победили OpenAI» — орут твиттерские (я серьёзно).

Пришел Andrej Karpathy и выразил скепсис «это странно, потому что ваш бенчмарк говорит, что открытая модель почти такая же, как GPT-4, на любом пользовательском промпте».

Авторы Arena решили разобраться, в каких задачах и когда новая модель показывает себя хуже, и за счёт чего выигрывает и проигрывает. К каким выводам пришли:
1) LLAMA 3 превосходит другие топовые модели (топ-5) по свободному письму (без строгих правил и структуры) и творческим задачам (стихи, брейншторм), но проигрывает по более строгим задачам вроде рассуждений, математики и программирования.
2) По мере того, как запросы пользователей становятся сложнее, процент побед LLAMA 3 над моделями топ-5 моделями значительно падает
3) Генерации LLAMA 3 более дружелюбны, выглядят более разговорчивыми, и это больше проявляется в тех сравнениях, где модель выигрывает
4) (пункт лично от меня) модель хорошо говорит по-английски, а другие языки представлены слабо, из коробки пользоваться как ChatGPT не получится. Авторы это не исследовали, но такое легко пропустить, а между тем пункт важный для того, чтобы говорить «смотрите, у нас такая же полноценная модель!»

Замерялось это всё в основном так же, как и в бенчмарке Arena Hard (даже вопросы оттуда брали):
1) формируем категории
2) промптим LLM для классификации уже существующих запросов (по сложности и по топику) и ответов
3) фильтруем данные

Из интересного — LLAMA 3 гораздо чаще ставит восклицательные знаки, и её ответы несут позитивный сентимент и дружелюбие. Как показывают авторы, это немного влияет на процент побед, но не так значимо (и вообще «их влияние требует дальнейшего изучения для более четкого понимания»).

А судя по вот этому твиту, скоро все эти срезы для аналитики добавят сразу на лидерборд, чтобы можно было прямо там смотреть и сравнивать.

В общем, вывод такой, что для общетекстовых задач моделька норм, но по интеллектуальным пока отстаёт. Интересно будет дождаться 405B-версию и померяться там.

BY Сиолошная


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/seeallochnaya/1389

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. The company maintains that it cannot act against individual or group chats, which are “private amongst their participants,” but it will respond to requests in relation to sticker sets, channels and bots which are publicly available. During the invasion of Ukraine, Pavel Durov has wrestled with this issue a lot more prominently than he has before. Channels like Donbass Insider and Bellum Acta, as reported by Foreign Policy, started pumping out pro-Russian propaganda as the invasion began. So much so that the Ukrainian National Security and Defense Council issued a statement labeling which accounts are Russian-backed. Ukrainian officials, in potential violation of the Geneva Convention, have shared imagery of dead and captured Russian soldiers on the platform. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from it


Telegram Сиолошная
FROM American