🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса:
🟣 Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0
🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей
🟣 Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.
🟣 HF dataset
#nlp #про_nlp
Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!
Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.
Корпус не содержит английского и является многоязычным дополнением для обучения моделей.
Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!
Вот как нужно делать многоязычные корпуса:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment
Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.
В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.
Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?
Эмоции: счастье, грусть, страх, отвращение, гнев
Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet
🟣 Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+
🟣 Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.
🟣 OpenReview
#nlp #про_nlp #ai_alignment
Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.
В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.
Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?
Эмоции: счастье, грусть, страх, отвращение, гнев
Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸Llama 3.3 70B🌸
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.…
#nlp #про_nlp
Минорный релиз Llama — Llama 3.3 70B
(Первая модель, где есть какой-то мой контрибьюшн)
Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.…
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Подборка NeurIPS: LLM-статьи 🌸
#nlp #про_nlp #nlp_papers
Вот и прошёл NeurIPS 2024, самая большая конференция по машинному обучению. Ниже — небольшая подборка статей, которые мне показались наиболее интересными. Про некоторые точно стоит сделать отдельный обзор.
Агенты
🟣 StreamBench: Towards Benchmarking Continuous Improvement of Language Agents arxiv
🟣 SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering arxiv
🟣 AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents arxiv
🟣 DiscoveryWorld: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents arxiv
Бенчмарки
🟣 DevBench: A multimodal developmental benchmark for language learning arxiv
🟣 CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark arxiv
🟣 LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages arxiv
🟣 CLUE - Cross-Linked Unified Embedding for cross-modality representation learning arxiv
🟣 EmoBench: Evaluating the Emotional Intelligence of Large Language Models arxiv
LLM
🟣 The PRISM Alignment dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models arxiv
🟣 UniGen: A Unified Framework for Textual Dataset Generation via Large Language Models arxiv
🟣 A Watermark for Black-Box Language Models arxiv
#nlp #про_nlp #nlp_papers
Вот и прошёл NeurIPS 2024, самая большая конференция по машинному обучению. Ниже — небольшая подборка статей, которые мне показались наиболее интересными. Про некоторые точно стоит сделать отдельный обзор.
Агенты
Бенчмарки
LLM
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
StreamBench: Towards Benchmarking Continuous Improvement of Language Agents
Recent works have shown that large language model (LLM) agents are able to improve themselves from experience, which is an important ability for continuous enhancement post-deployment. However,...
Forwarded from Сиолошная
Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.
В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.
Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).
В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.
Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).
The Information
Senior OpenAI Researcher Radford Departs
Alec Radford, an OpenAI researcher who helped develop some of its most important artificial intelligence, on Thursday told colleagues he was leaving to pursue research independently. Radford said he planned to collaborate with OpenAI as well as other AI…
Дополнение к посту вышло 🙈
Telegram
Kali Novskaya
🌸Хроники краха OpenAI🌸
#nlp #про_nlp
Пьеса в трех актах.
Пост — следствие моей хорошей, но избирательной памяти.
🌸Акт первый. Масштабирование
🟣Июнь 2018 — выходит декодерная модель GPT, Generative Pre-trained Transformer 1. К ней выходит статья, и все…
#nlp #про_nlp
Пьеса в трех актах.
Пост — следствие моей хорошей, но избирательной памяти.
🌸Акт первый. Масштабирование
🟣Июнь 2018 — выходит декодерная модель GPT, Generative Pre-trained Transformer 1. К ней выходит статья, и все…
🌸Открытость интернет-данных под конец 2024🌸
#nlp #про_nlp
Краткий итог под конец 2024:
🟣 Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.
🟣 Google Cache как фичу убрали, больше нельзя посмотреть сохраненную копию страницы
🟣 Архив Анны визуализирует текущее состояние резервных копий всех печатных изданий: информация есть про 16%
🟣 У компаний, разрабатывающих фундаментальные LLM, корпуса, сопоставимые по размеру с интернет-индексами поисковиков, однако, есть куча копирайт-страйков и исков — полная инфографика от wired.
🟣 Есть и хорошая новость: как я уже писала, стоимость хранения продолжает снижаться, а значит, порог вхождения для поддержания самых важных ресурсов будет продолжать падать.
#nlp #про_nlp
Краткий итог под конец 2024:
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Подкаст ML Inside🌸
Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на когонадо было учиться, чтобы пойти делать LLM
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа
🟣 Смотреть: https://youtu.be/U_wtmHr5ojk?si=2Hoxmh8P3tAm2fG9
Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на кого
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Вот кто делает GPT! | Интервью с Татьяной Шавриной
https://mlinside.ru/business - курс "ML в бизнесе" - старт 24 декабря 2024!
https://stepik.org/course/218409 - демо-курс "База ML"
https://www.group-telegram.com/ml_inside - подписывайтесь на MLinside в телеграм
https://www.group-telegram.com/rybolos_channel.com - телеграм канал Татьяны
Тайм…
https://stepik.org/course/218409 - демо-курс "База ML"
https://www.group-telegram.com/ml_inside - подписывайтесь на MLinside в телеграм
https://www.group-telegram.com/rybolos_channel.com - телеграм канал Татьяны
Тайм…