rybolos_channel Telegram Group

Kali Novskaya

🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp

Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!

Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.

Корпус не содержит английского и является многоязычным дополнением для обучения моделей.

Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!

Вот как нужно делать многоязычные корпуса:

🟣Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0

🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей

🟣Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.

🟣

HF dataset

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

10.1K views16:44

Kali Novskaya

🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣

Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣

Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣

OpenReview

Please open Telegram to view this post

VIEW IN TELEGRAM

Kali Novskaya

🌸Llama 3.3 70B🌸
#nlp #про_nlp

Минорный релиз Llama — Llama 3.3 70B

(Первая модель, где есть какой-то мой контрибьюшн)

Выросли почти все основные метрики в сравнении с Llama 3.1 70B, instruction following на уровне лучше 405B, при этом на меньшей модели.…

15.8K views16:27

Kali Novskaya

Пятница — время мемотреда! #шитпост

8.2K views14:05

Kali Novskaya

Отличное завершение года: смотрю на живого Суцкевера!

8.9K views22:10

Kali Novskaya

А теперь смотрю Бенджио🥹

Yoshua Bengio
Why and how to regulate Frontier AI?
Workshop on Regulatable ML

Please open Telegram to view this post

VIEW IN TELEGRAM

7.9K views19:39

Kali Novskaya

🌸Подборка NeurIPS: LLM-статьи 🌸
#nlp #про_nlp #nlp_papers

Вот и прошёл NeurIPS 2024, самая большая конференция по машинному обучению. Ниже — небольшая подборка статей, которые мне показались наиболее интересными. Про некоторые точно стоит сделать отдельный обзор.

Агенты
🟣StreamBench: Towards Benchmarking Continuous Improvement of Language Agents arxiv
🟣SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering arxiv
🟣AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents arxiv

🟣DiscoveryWorld: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents arxiv

Бенчмарки
🟣DevBench: A multimodal developmental benchmark for language learning arxiv
🟣CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark arxiv
🟣LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages arxiv
🟣CLUE - Cross-Linked Unified Embedding for cross-modality representation learning arxiv
🟣EmoBench: Evaluating the Emotional Intelligence of Large Language Models arxiv

LLM
🟣The PRISM Alignment dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models arxiv
🟣UniGen: A Unified Framework for Textual Dataset Generation via Large Language Models arxiv
🟣A Watermark for Black-Box Language Models arxiv

Please open Telegram to view this post

VIEW IN TELEGRAM

arXiv.org

StreamBench: Towards Benchmarking Continuous Improvement of Language Agents

Recent works have shown that large language model (LLM) agents are able to improve themselves from experience, which is an important ability for continuous enhancement post-deployment. However,...

9.6K views11:56

Kali Novskaya

Forwarded from Сиолошная

Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).

The Information

Senior OpenAI Researcher Radford Departs

Alec Radford, an OpenAI researcher who helped develop some of its most important artificial intelligence, on Thursday told colleagues he was leaving to pursue research independently. Radford said he planned to collaborate with OpenAI as well as other AI…

5.5K views21:20

Kali Novskaya

Дополнение к посту вышло 🙈

Kali Novskaya

🌸Хроники краха OpenAI🌸
#nlp #про_nlp

Пьеса в трех актах.
Пост — следствие моей хорошей, но избирательной памяти.

🌸Акт первый. Масштабирование
🟣Июнь 2018 — выходит декодерная модель GPT, Generative Pre-trained Transformer 1. К ней выходит статья, и все…

7.3K views21:21

Kali Novskaya

🌸Открытость интернет-данных под конец 2024🌸
#nlp #про_nlp

Краткий итог под конец 2024:

🟣

Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.

🟣

Google Cache как фичу убрали, больше нельзя посмотреть сохраненную копию страницы

🟣

Архив Анны визуализирует текущее состояние резервных копий всех печатных изданий: информация есть про 16%

🟣У компаний, разрабатывающих фундаментальные LLM, корпуса, сопоставимые по размеру с интернет-индексами поисковиков, однако, есть куча копирайт-страйков и исков — полная инфографика от wired.

🟣Есть и хорошая новость: как я уже писала, стоимость хранения продолжает снижаться, а значит, порог вхождения для поддержания самых важных ресурсов будет продолжать падать.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3.9K views09:12

Kali Novskaya

🌸Подкаст ML Inside🌸

Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на кого ~~надо было~~ учиться, чтобы пойти делать LLM
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа

🟣Смотреть: https://youtu.be/U_wtmHr5ojk?si=2Hoxmh8P3tAm2fG9

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

Вот кто делает GPT! | Интервью с Татьяной Шавриной

https://mlinside.ru/business - курс "ML в бизнесе" - старт 24 декабря 2024!
https://stepik.org/course/218409 - демо-курс "База ML"
https://www.group-telegram.com/ml_inside - подписывайтесь на MLinside в телеграм
https://www.group-telegram.com/rybolos_channel.com - телеграм канал Татьяны

Тайм…

5.1K views10:05

2024/12/25 01:22:50
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>