Telegram Group Search
🌸FineWeb 2: скейлим CommonCrawl на 1000+ языков 🌸
#nlp #про_nlp

Huggingface, как и обещали, выпустили многоязычную версию корпуса FineWeb на 1000+ языков!

Корпус содержит 1893 пары язык-письменность (это значит, что для некоторых языков есть несколько письменностей), и занимает 8Тб в сжатом виде и примерно 3 трлн слов.

Корпус не содержит английского и является многоязычным дополнением для обучения моделей.

Распределение языков, конечно, не равномерное, поэтому 80 топ языков имеют 1Гб+ данных, а хвост из последних 486 — меньше 1Мб.
Первый по объёму — русский язык!

Вот как нужно делать многоязычные корпуса:

🟣Полная воспроизводимость: пайплайн сбора и очистки данных в опен сорсе под Apache 2.0

🟣 Верифицируемая полезность для обучения: на подвыборке из 90+ задач FineTasks показан монотонный рост метрик у моделей

🟣Лицензия: ODC-By 1.0 license — не совсем стандартная лицензия, но позвляет использовать корпус для коммерческих и некоммерческиз целей при указании использование корпуса.

🟣HF dataset
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸EAI: эмоциональный интеллект в принятии решений у LLM🌸
#nlp #про_nlp #ai_alignment

Через пару часов — официальное открытие NeurIPS, самой основной конференции по ИИ.
Многие приурочили релизы к её открытию: мы выпустили Llama 3.3, OpenAI выпустил Sora, а Google — Gemini 2.

В этом году я затесалась в соавторы очень интересной, как мне кажется, статьи — EAI: Emotional Decision-Making of LLMs in Strategic Games and Ethical Dilemmas.

Много было сказано про то, как манипуляции могут повлиять на качество решения задач.
Что будет, если проверить качество принятия решений моделями основательно, взять широкий список именно эмотивных составляющих — и проверить на действительно сложных бенчмарках по принятию решений, кооперации, на этических дилеммах?

Эмоции: счастье, грусть, страх, отвращение, гнев

Задачи, на которых тестируемся:
— задачи на стратегию и кооперацию — дилемма заключенного, диктатор, война полов — чтобы оценить влияние и соотнесенность эмоций с человеческими при выборе стратегии
— задачи на этику и этический выбор, чтобы оценить смещенность — ETHICS, Moral Choice, StereoSet

🟣Список LLM:
— англоязычные: GPT-3.5, GPT-4, GPT-4o, Claude Haiku, Claude Opus, LLaMA 2, Mixtral of experts, OpenChat
— неанглоязычные: GigaChat, Command R+

🟣Краткий итог:
— почти все модели так или иначе демонстрируют нестабильность и серьезые отклонения от среднего качества, если включить в промпт эмоциональные составляющие различного характера, от самых простых до "сюжетных", вызванных поведением оппонента
— Гнев  — главный источник нестабильности и снижения качества.
— Отвращение и страх также являются сильными факторами снижения надежности, некоторые модели более чувствительны к ним, чем к гневу.
— Более крупные модели с более сильным alignment, такие как GPT-4, демонстрируют более высокую степень рациональности и значительно отклоняются от человеческих эмоциональных реакций. GPT-3.5 и Claude-Haiku, наряду с опенсорсными моделями (LLAMA-2 70b), демонстрируют возникающий эмоциональный интеллект и более точно соответствуют человеческому поведению.
— Явного обобщения по языкам сделать не получается, однако, явно видна разница между многоязычными моделями и моноязычными, и основной язык модели является важым фактором, влияющим на то, какие эмоции будут влиять на перформанс модели и будет ли это совпадать с усредненным ответом носителей языка.
— В целом, отдавать принятие решений LLM, даже в простых условиях, пока рано.

🟣OpenReview
Please open Telegram to view this post
VIEW IN TELEGRAM
Пятница — время мемотреда! #шитпост
Отличное завершение года: смотрю на живого Суцкевера!
А теперь смотрю Бенджио🥹

Yoshua Bengio
Why and how to regulate Frontier AI?
Workshop on Regulatable ML
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Подборка NeurIPS: LLM-статьи 🌸
#nlp #про_nlp #nlp_papers

Вот и прошёл NeurIPS 2024, самая большая конференция по машинному обучению. Ниже — небольшая подборка статей, которые мне показались наиболее интересными. Про некоторые точно стоит сделать отдельный обзор.

Агенты
🟣StreamBench: Towards Benchmarking Continuous Improvement of Language Agents arxiv  
🟣SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering arxiv  
🟣AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents arxiv
 
🟣DiscoveryWorld: A Virtual Environment for Developing and Evaluating Automated Scientific Discovery Agents arxiv 

Бенчмарки
🟣DevBench: A multimodal developmental benchmark for language learning arxiv  
🟣CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark arxiv  
🟣LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages arxiv  
🟣CLUE - Cross-Linked Unified Embedding for cross-modality representation learning arxiv  
🟣EmoBench: Evaluating the Emotional Intelligence of Large Language Models arxiv  

LLM
🟣The PRISM Alignment dataset: What Participatory, Representative and Individualised Human Feedback Reveals About the Subjective and Multicultural Alignment of Large Language Models arxiv  
🟣UniGen: A Unified Framework for Textual Dataset Generation via Large Language Models arxiv
🟣A Watermark for Black-Box Language Models arxiv
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Уходит эпоха — из OpenAI уходит Alec Radford, один из самых ранних и известных (и непубличных) исследователей. Он был первым автором статей про GPT-1 и GPT-2, а также работы Unsupervised sentiment neuron, напрямую им предшествующей.

В четверг он сообщил коллегам, что уходит, чтобы продолжить независимые и самостоятельные исследования. Alec написал, что планирует сотрудничать с OpenAI, а также с другими разработчиками ИИ-моделей.

Radford носит легендарный характер — о его блестящей интуиции исследователя и инженера ходит много баек (и все правдивые).
🌸Открытость интернет-данных под конец 2024🌸
#nlp #про_nlp

Краткий итог под конец 2024:

🟣Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.

🟣Google Cache как фичу убрали, больше нельзя посмотреть сохраненную копию страницы

🟣Архив Анны визуализирует текущее состояние резервных копий всех печатных изданий: информация есть про 16%

🟣У компаний, разрабатывающих фундаментальные LLM, корпуса, сопоставимые по размеру с интернет-индексами поисковиков, однако, есть куча копирайт-страйков и исков — полная инфографика от wired.

🟣Есть и хорошая новость: как я уже писала, стоимость хранения продолжает снижаться, а значит, порог вхождения для поддержания самых важных ресурсов будет продолжать падать.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Подкаст ML Inside🌸

Давайте о хорошем тоже — вышел наш большой разговор с Виктором Кантором на YouTube!
— на кого надо было учиться, чтобы пойти делать LLM
— разница в работе в РФ и на западе
— стартапы и большие компании, особенности работы RnD
— и немного всякого личного
Целых 1.5 часа

🟣Смотреть: https://youtu.be/U_wtmHr5ojk?si=2Hoxmh8P3tAm2fG9
Please open Telegram to view this post
VIEW IN TELEGRAM
2024/12/25 01:22:50
Back to Top
HTML Embed Code: