🌸Человек vs Компьютер: 1953🌸
#не_про_nlp
Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...
Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!
На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.
Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ74 742 805 859 551 230 625.
Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.
Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.
Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".
#не_про_nlp
Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...
Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!
На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.
Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ
Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.
Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.
Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю!И коплю академическую злобу.
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
🟣 Монотонность при обучении
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
🟣 Разброс результатов
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
🟣 Нескомпрометированность
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
🟣 Несатурированность
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
🟣 Сонаправленность с другими бенчмарками
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, товозможно пробоема в вас нужно разбираться, почему.
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣 Оценка LLM в 2023 году
🟣 Оценка LLM в 2024 году
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю!
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
#nlp #про_nlp
🌸Сравнение языковых моделей в 2023 году🌸
Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.
Бенчмарки — инструменты для оценки компьютерных систем, в языковых…
🌸Сравнение языковых моделей в 2023 году🌸
Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.
Бенчмарки — инструменты для оценки компьютерных систем, в языковых…
🌸Стартапы и СССР🌸
#не_про_nlp
Вещи, которые случаются и в Силиконовой долине, и в СССР:
🟣 делаешь предзаказ на машину, ждешь год, после заказа понимаешь, что это какое-то говно
🟣 слышишь обещания о том, что скоро все полетят на Марс, а сам каждый день работаешь в две смены
🟣 таксовать после работы — нормально
🟣 живешь в одной квартире с пятью коллегами
🟣 надо проходить полит тренинг на работе
🟣 если облажались, то все равно упаковываете это как победу
🟣 даже не планируете использовать рыночные механизмы: либо работаете с отдельными крупными корпоратами, либо строите монополию
🟣 почему-то иногда приезжает Генри Киссинджер😛
#не_про_nlp
Вещи, которые случаются и в Силиконовой долине, и в СССР:
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня в рубрике #female_vocals — Green Apelsin, дарк-фолк из Якутии!
🟣 https://youtu.be/qVP1g54RMUI?si=-WCQiWvfoXx_9Qku
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Green Apelsin - Зверь (Live Version)
3 мая, Большой сольный концерт в Москве, BASE
Купить билеты:
https://greenapelsin.com
https://afisha.yandex.ru/moscow/concert/green-apelsin-tour
Prod/dop/edit: Egorova Polina https://www.instagram.com/kidpolya
Купить билеты:
https://greenapelsin.com
https://afisha.yandex.ru/moscow/concert/green-apelsin-tour
Prod/dop/edit: Egorova Polina https://www.instagram.com/kidpolya
🌸Llama 3.3 70B🌸
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.
🟣 Что поменяли:
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос
🟣 HF https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
meta-llama/Llama-3.3-70B-Instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса:
🟣 Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0
🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей
🟣 Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.
🟣 HF dataset
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment
Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.
В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.
Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?
Эмоции: счастье, грусть, страх, отвращение, гнев
Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet
🟣 Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+
🟣 Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.
🟣 OpenReview
#nlp #про_nlp #ai_alignment
Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.
В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.
Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?
Эмоции: счастье, грусть, страх, отвращение, гнев
Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸Llama 3.3 70B🌸
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.…
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.…