🌸Больше языков для LLM🌸
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
🟣 Сколько языков сейчас представлены в практике моделирования языка?
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
🟣 Бутылочное горлышко валидации
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
🟣 Инициатива HuggingFace
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
🟣 Контрибьютить новые задания и языки можно здесь в шаблоне
🟣 Мини-гайд
🟣 Блог HF
#nlp #про_nlp
Huggingface в поиске контрибьюторов носителей языков!
Корпус FineWeb на 15 трлн токенов теперь ждёт большое расширение на 1000+ языков 🎉
Если считать, что в целом живых языков 6-7 тысяч,
— в базе Ethnologue 7164
— суммарно во всех LLM работах упоминается примерно 1500 языков (в основном за счет работ NLLB и Towards MT for next 1000 languages)
— у звучащей речи чуть лучше: 4000 языков, но у 70% из них меньше чем 2 часа записей (за счет XEUS)
Все ресурсы, которые так или иначе языки описывают, можно расположить на 2 осях координат: их качество и их пригодность для ML-применений. Окажется, что наиболее доступные и пригодные для предобучения моделей корпуса (CommonCrawl, его вариации) в то же время оказываются и наименее качественными.
Причина тому — автоматическое определение языка (см fasttext) невозможность ручной валидации. Автоматические быстрые классификаторы как правило могут с высоким уровнем надежности определить не более 200 языков, тогда как большинство языков оказывается в большой куче "мусора" — наименее надежно атрибутированных данных.
Бутылочное горлышко для того, чтобы побороть валидацию на большом объеме данных — это наличие сообщества носителей языков, которые бы активно контрибьютили и помогали улучшить как классификаторы, так и способы оценки качества получаемых языковых моделей.
Я уже несколько раз рассказывала про ситуацию с многоязычными данными, и даже несколько раз за этот год меняла слайды — так быстро меняется ситуация! И сегодня даже в лучшую сторону.
Помимо расширения корпуса FineWeb, HuggingFace ищет волонтеров и носителей языка, чтобы расширить именно процедуру многоязычной оценки языковых моделей.
Новая инициатива — FineTasks — объединяет 4 стандартных бенчмарк-формата:
— Машинное чтение: Понимание предоставленного контекста и ответы на вопросы на его основе.
— Общие знания: Ответы на вопросы о фактах из различных областей без дополнительного контекста.
— Понимание естественного языка (NLU): Понимание семантики предоставленного ввода.
— Рассуждения на основе здравого смысла: Демонстрация способности выполнять простые рассуждения, требующие воплощенных знаний.
— Генеративные задачи: Умение генерировать корректный текст на целевом языке.
Авторы уже собрали 185 задач для 9 языков: поддерживаются
китайский, французский, арабский, русский, тайский, хинди, турецкий, суахили и телугу.
Цель для полного бенчмарка — как минимум 50 языков из разных семей, ареалов и с разной письменностью.
Ну и... ждём большой новый многоязычный корпус с открытой лицензией!
Куда контрибьютить?
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
Кстати, пока я пост писала, там HuggingFace треснул и упал:
HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…
HF выложили датасет на 15 триллионов токенов — FineWeb 🍷— отфильтрованный моноязычный CommonCrawl, ускоряющий сходимость моделей. Совпадает по размеру, собственно, тренировочным сетом Llama 3, хотя…
Ребята, хочется много сюда запостить, но я работаю по 12-14 часов и оставшиеся 10 сплю. Вот такая работа в FAANG, это тоже правда 😫
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Человек vs Компьютер: 1953🌸
#не_про_nlp
Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...
Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!
На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.
Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ74 742 805 859 551 230 625.
Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.
Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.
Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".
#не_про_nlp
Как давно пошла традиция сравнивать в бенчмарках результаты человека и алгоритма? А затем делать из этого промо материал: так было с вопросно-ответными системами, машинным переводом, распознаванием речи...
Мне попался исторический пример подобной маркетинговой публикации — аж 1953 года!
На рекламных фото General Electric ниже — Конни Ходжсон, одна из 6 участниц соревнования, в котором профессионалы сравнивали свои навыки умножения с Office of Air Research Automatic Computer (OARAC) General Electric.
Задача была одна — быстрее всех коррректно возвести в квадрат число 8 645 392 175.
Ответ
Ни один из участников-людей не дал правильный ответ, и ни один из ответов не совпал. Ходжсон оказалась ближе всех к правильному ответу, и на фото она указывает на место, где она забыла перенести 1, из-за чего ее окончательный ответ оказался на "всего лишь" триллион меньше.
Людям потребовалось от 4 до 8 минут, чтобы получить неправильный ответ. OARAC был намного быстрее, обрабатывая числа примерно за 4 мс.
Компьютер был сделан по заказу ВВС США, и отправился к закачику после такой "промоакции".
🌸LLM vs Бенчмарки: кто прав, а кто виноват?🌸
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю!И коплю академическую злобу.
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
🟣 Монотонность при обучении
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
🟣 Разброс результатов
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
🟣 Нескомпрометированность
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
🟣 Несатурированность
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
🟣 Сонаправленность с другими бенчмарками
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, товозможно пробоема в вас нужно разбираться, почему.
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
🟣 Оценка LLM в 2023 году
🟣 Оценка LLM в 2024 году
#nlp #про_nlp #nlp_papers
Прогресс неостановим, работать все равно ничего не будет
Как оценивать качество LLM, когда вроде и улучшения не явные, и бенчмарки вызывают вопросы?
Ещё два года назад мы радовались генерализующим оценкам LLM — BigBench, HELM, BigGen — сегодня же про это дружно все забыли, и рапортуют state-of-the-art на бенчмарках в 100 вопросов (я не шучу, Claude 3.5 репортует sota на tau bench, а там 115 и 50 вопросов).
Но я ничего не забываю!
Поэтому сегодня мы поговорим про лучшие практики, без которых сравнивать модели, сохраняя серьёзное лицо, нельзя.
Итак, что же делает оценку модели на бенчмарке хорошей?
Качество задачи можно отслеживать сразу во время обучения — смотреть не только на лосс, а на метрики непосредственно бенчмарка.
Если модель реально учится решать какую-то задачу, то вы увидите монотонно возрастающий график от одной сотник шагов к другой. Если график показывает нестабильность, то и метрика в конце обучения будет случайным результатом.
HF вообще заменяют ранговую корреляцию Спирмена между шагов обучения и результатом, чтобы оценить монотонность, даже если она нелинейная.
Если монотонности не наблюдается, черрипикать чекпоинт с лучшим результатом не имеет смысла.
Std, доверительные интервалы должны быть включены в процедуру оценки. В идеале тест должен проводиться 5-10 раз, чтобы оценить уровень шума в результатах модели.
У разных моделей на лидерборде будут разные доверительные интервалы, и при сравнении моделей это нужно принимать во внимание.
Доказательства того, что авторы модели не учились на тесте, ложится на авторов моделей!
Уже её раз фиксировалось, что MMLU, TruthfulQA, и другие бенчмарки утекли в трейн.
Особенно важно публиковать проверку на контаминацию, если у бенчмарка нет приватного/секретного теста.
Если приватный тест есть, это хоть какая-то гарантия, и ориентироваться надо на него.
Если в бенчмарке уже очень много публичных результатов с очень высоким результатом (см SuperGLUE), и разница в полпроцента становится решающей для получения 1го или 10го места, то бенчмарк можно считать решенным, результаты сатурированными, и двигаться дальше.
В противном случае малейшие изменения в модели или процедуре оценки кардинально меняют ранжирование лидерборда!
См Benchmark Lottery
Ваша задача — сделать модель, улучшенную сразу со стороны многих способностей.
Некоторые способности и бенчмарки, безусловно, могут быть отрицательно скоррелированы. Но если отрицательно скоррелированы два бенчмарка, тестирующие примерно одно и то же, например, SWE bench и Live code bench, то
К сожалению, очень много "лучших практик" существует вокруг хакинга метрик, обучения на тесте, манипуляций с погрешностью.
В конечном счете, цель у создателей моделей и бенчмарков одна — направить развитие моделей в нужную сторону.
Мои посты по теме:
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
#nlp #про_nlp
🌸Сравнение языковых моделей в 2023 году🌸
Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.
Бенчмарки — инструменты для оценки компьютерных систем, в языковых…
🌸Сравнение языковых моделей в 2023 году🌸
Как сравнивать языковые модели между собой? Как делать это в справедливых условиях?
Смотрим самые яркие системы оценки LLM в 2023.
Бенчмарки — инструменты для оценки компьютерных систем, в языковых…
🌸Стартапы и СССР🌸
#не_про_nlp
Вещи, которые случаются и в Силиконовой долине, и в СССР:
🟣 делаешь предзаказ на машину, ждешь год, после заказа понимаешь, что это какое-то говно
🟣 слышишь обещания о том, что скоро все полетят на Марс, а сам каждый день работаешь в две смены
🟣 таксовать после работы — нормально
🟣 живешь в одной квартире с пятью коллегами
🟣 надо проходить полит тренинг на работе
🟣 если облажались, то все равно упаковываете это как победу
🟣 даже не планируете использовать рыночные механизмы: либо работаете с отдельными крупными корпоратами, либо строите монополию
🟣 почему-то иногда приезжает Генри Киссинджер😛
#не_про_nlp
Вещи, которые случаются и в Силиконовой долине, и в СССР:
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня в рубрике #female_vocals — Green Apelsin, дарк-фолк из Якутии!
🟣 https://youtu.be/qVP1g54RMUI?si=-WCQiWvfoXx_9Qku
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Green Apelsin - Зверь (Live Version)
3 мая, Большой сольный концерт в Москве, BASE
Купить билеты:
https://greenapelsin.com
https://afisha.yandex.ru/moscow/concert/green-apelsin-tour
Prod/dop/edit: Egorova Polina https://www.instagram.com/kidpolya
Купить билеты:
https://greenapelsin.com
https://afisha.yandex.ru/moscow/concert/green-apelsin-tour
Prod/dop/edit: Egorova Polina https://www.instagram.com/kidpolya
🌸Llama 3.3 70B🌸
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.
🟣 Что поменяли:
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос
🟣 HF https://huggingface.co/meta-llama/Llama-3.3-70B-Instruct
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.
— новый SFT датасет на 25млн примеров
— лучше математика, кодинг
— лучше instruction following, теперь даже лучше 405B модели
— function calling такой же
— долили русский и китайский, в целом мультиязычные метрики выросли
— MMLU тоже вырос
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
meta-llama/Llama-3.3-70B-Instruct · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.