abstractDL 230 Telegram Group

AbstractDL

Visual Instruction Tuning: как нагенерить визуальные диалоги не обладая зрением (by Microsoft)

Это какое-то читерство! Совсем не обязательно видеть картинки, чтобы генерировать по ним сложные инструктивные диалоги — достаточно подать в ChatGPT их кэпшны и попросить позадавать вопросы в формате чатбота.

«Сделай вид, что ты видишь картинку и можешь ответить на все вопросы»

Потом обучаем на этих синтетических диалогах FROMAGe и готово! SOTA на нескольких бенчмарках!

Статья, GitHub, датасет, демо

👍43👎2

7.1K viewsedited 11:23

AbstractDL

Дропаут ускоряет обучение глубоких моделей (by META)

Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.

Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!

Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.

Статья, GitHub

👍123

7.61K views06:44

AbstractDL

Почему Adam иногда взрывается при обучении больших LM? (by META)

Очень тяжело учить гигантские языковые модели, к примеру, PaLM приходилось перезапускать десятки раз! И откатывать модель на сотни батчей назад из-за возникающих всплесков перплексии. Чтобы найти причины такой нестабильности, авторы провели кучу экспериментов и даже подвели теорию под всё это.

Главную вину возложили на оптимизатор Adam — оказалось, что при обучении больших моделей (от 60B параметров) возникает корреляция градиентов между разными степами. Это нарушает условия Центральной Предельной Теоремы, из-за чего распределение апдейтов весов становится бимодальным (см. картинку), а такие апдейты почти всегда ортогональны истинному направлению оптимизации. Именно это движение «вбок» и приводит к взрыву.

В конце статьи предлагается несколько способов как этого избежать, но единственный надёжный — откат модели на несколько шагов назад.

Статья

👍93

8.33K views06:24

AbstractDL

Forwarded from эйай ньюз

🔥DeepFloyd IF: новая text-2-image модель

StablityAI выпустили новую модель, которая очень похожа на Imagen от Google, но работает лучше и в open-source.

Архитектура IF, как и у Imagen состоит из трех диффузионных моделей, каждая из которых работает в пространстве RGB и прогрессивно увеличивают картинку. Сначала Text→64×64, затем (Text+64×64)→256×256, и наконец (Text+256×256)→1024×1024. А текст кодируется с помощью текстового энкодера T5.

Почему это круто?
— IF неплохо умеет генерировать текст (я даже генерил в канале ранее), явно лучше чем StableDiffusion XL

— Нормальная открытая имплементация по типу Imagen, которой до сих пор не было. Возможно с какими-то трюками, о которых мы узнаем, когда авторы выпустят блогпост

— FID скор измеряет похожесть снеренированных картинок на реальные. Это чуть ли не основная метрика для качества генерации. У IF FID=6.7, тогда как у Imagen 7.3. Меньше — лучше. Разрыв не космический, но приличный.

Код выложили, веса ждем тут. И ждем подробной статьи от авторов.

@ai_newz

👍39

5.23K views10:12

AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

Очень красивая шпаргалка по всем языковым моделям (от word2vec до ChatGPT)

Статья, GitHub

👍94👎8

8.77K views14:27

AbstractDL

Emergent Abilities of LLM — это всего лишь иллюзия (by Stanford)

Последнее время много говорят про эмерджентность гигантских языковых моделей — мол, некоторые их свойства (проблески сознания 😂) начинают резко проявляться на большом масштабе (~30B параметров). Но тут обнаружили, что это всего лишь следствие выбора сильно нелинейных метрик для тестирования (Multiple Choice Grade, String Accuracy). И если их поменять на более «плавные» аналоги (Brier Score, Edit Distance) — то вся эмерджентность куда-то пропадает и перформанс LLM масштабируется без резких скачков.

Авторы демонстрируют эту псевдо-эмерджентность на всём семействе моделей instructGPT/GPT-3 и даже на классических автоэнкодерах для MNIST. Похоже, что всё-таки никакого магического числа параметров для языковых моделей не существует, и все их свойства меняются постепенно и крайне предсказуемо.

Статья

👍129👎1

10.2K views06:25

AbstractDL

Нейро Конфуций стал понимать картинки! Ещё я сделал его ответы чуть более конкретными и добавил работу в групповых чатах ☺️

👍56

6.35K views18:49

AbstractDL

Deep learning models might be secretly (almost) linear

Линейные модели обычно сильно ограничены в своих возможностях, поэтому в нейронки всегда добавляются слои активации (ReLU и тп).

Забавно, но существует много свидетельств, что нейронные сети на самом деле почти линейные (по инпуту и по весам). В этом блогпосте собрано 17 таких примеров со ссылками. Вот несколько самых интересных из них:

1. Веса моделей обученных от одной инициализации можно складывать (да, прям W1 + W2) и всё будет работать (тык, тык)
2. Ластик концептов позволяет удалять целые понятия из моделей одним линейным оператором (тык)
3. Работает линейная алгебра внутренних репрезентаций (тык)
4. Unsupervised linear probing (тык)
5. GPT микроскоп (colab)
6. LoRa адаптеры линейно стыкуются (тык)

Похоже, что глубоким моделям достаточно совсем чуть-чуть нелинейности в поведении для получения потрясающих результатов.

Блогпост

👍67

11.4K viewsedited 07:44

AbstractDL

Wikipedia-based Image Text Datasets (by Google)

Представлены два крупнейших чистых мультимодальных датасета: WIT и WikiWeb2M — они содержат полные страницы википедии со всеми картинками, структурированным текстом и метадатой (37M изображений и 1.8М страниц).

Они идеально подходят для обучения таких штук как Flamingo или Fromage, а также отлично сочетаются с графами знаний.

Статья, WIT, WikiWeb2M

👍48

8.03K views11:57

AbstractDL

К слову, на Google I/O только что анонсировали обновление Bard — теперь он базируется на PALM-2, понимает картинки и использует графы знаний.

Статья, YouTube

👍35👎1

8.78K viewsedited 17:36

AbstractDL

🔥СhatGPT+ теперь имеет доступ в интернет!

Нужно зайти в настройки и включить beta features. Я проверил, всё уже работает!

P.S. А у кого-то сегодня даже плагины появились (не у меня).

Релиз

👍115👎1

9.88K viewsedited 06:19

AbstractDL

DarkBERT: A Language Model for the Dark Side of the Internet

Пока в EU пытаются зарегулировать AI вусмерть — в Южной Корее учат DarkBERT.

Ничего особенного, просто берт, обученный на дарквебе (наркоторговля, оружие, etc.). Якобы, такая модель нужна чтобы лучше классифицировать нелегальный контент и специфичный язык пользователей тёмной стороны интернета 🌚

P.S. Саму модель пока не выложили, поэтому можно проходить мимо.

Статья

👍54

9.45K views16:09

AbstractDL

TinyStories: The Smallest GPT with Coherent English (by Microsoft)

Как думаете, с какого размера у LM появляется возможность писать связный текст? Оказалось, что и 2.5M параметров достаточно!

Главное препятствие для полноценного понимания языка у трансформеров — огромное количество редких слов (длинный хвост распределения). Но если составить обучающий датасет из 1.5к наиболее частотных корней (словарный запас 5-летнего ребёнка), то даже однослойную GPT можно будет обучить так, что она обойдёт GPT2-XL!

Этот чудесный датасет, написанный руками GPT-4, отлично подходит для валидации новых архитектур, на нём даже скейлинг Шиншиллы подтверждается. Так что если хотите изобрести свою «SuperGPT» архитектуру, то рекомендую экспериментировать на этом сете. Его размер всего 3 Гб.

P.S. Из интересных выводов — лучше масштабировать GPT в глубину, чем в ширину.

Статья, датасет, модель

👍97

12.8K views11:13

AbstractDL

🔥QLoRA: Зафайнтюнить 30B модель в колабе? Легко!

Гениальная и удивительно простая идея лежит в основе этого подхода. Если мы тюним только LoRA адаптеры, а основная модель заморожена, то почему-бы не заквантовать её до предела?

Квантуется модель в новый 4-bit NormalFloat, который отлично подходит для normally distributed активаций. При этом все операции с LoRA остаются в bf16. Самое удивительное — такой подход не отстаёт от полного 16-bit файнтюнига базовой модели — авторы проверили на 1000(!) разных LM.

Всё это уже интегрировано в HuggingFace, а как бонус — авторы обучили нового SOTA чатбота (Guanaco + OASST1 + QLoRA).

Статья, GitHub, colab, модель

👍89

11.2K views06:53

AbstractDL

Skoltech

Три года назад я закончил Сколтех, и поступить туда — было лучшим решением в моей жизни. Настолько захватывающее и современное обучение стало для меня шоком, особенно после МГУ.

Так что, если кто-то из подписчиков думает про IT магистратуру — обязательно посмотрите в сторону Skoltech, дедлайн 10 июля.

👍84👎28

8.53K views14:55

AbstractDL

This media is not supported in your browser

VIEW IN TELEGRAM

MEMIT: Где именно GPT хранит свои знания? (by MIT)

Оказалось, что память у трансформеров находится в feed-forward части, а точнее в последнем слое некоторых MLP. При этом все факты можно довольно легко изменять без вреда для остальных знаний и навыков модели.

Авторы придумали хитрый способ как определить место внутри модели, связанное с отдельной ассоциацией. Для этого они берут текст нужного факта, зашумляют эмбеддинги его токенов и смотрят какой фрагмент модели наиболее подвержен влиянию такого искажения — всегда оказывается, что это один из feed-forward слоёв.

А для подмены факта необходимо внести небольшие изменения в выходную матрицу найденного MLP (rank-one modification), основываясь на желаемом аутпуте для этого слоя. Такой подход работает надёжнее, чем файнтюнинг, ведь если долго учить GPT тексту «Лувр находится в Париже» — то она может начать говорить, что и Статуя Свободы, и Кремль, и вообще всё остальное тоже находится в Париже.

Авторы смогли запихнуть десятки тысяч фактов из Wikidata внутрь GPT-J и подготовили демо, где можно наблюдать за внутренним «развитием» ассоциаций в модели от слоя к слою.

Статья, GitHub, демо, colab

👍154

12.9K viewsedited 14:40

AbstractDL

Understanding Optimization of Deep Learning

Крутой обзор всех аспектов и методов оптимизации нейронных сетей. Тут описано как бороться с возникающими проблемами, в чём отличия оптимизаторов, почему трансформеры капризнее резнетов (сильная кривизна лосса → большое значение константы Липшица) и ещё много всего интересного на 50 страниц.

P.S. На картинке показано как можно справиться с взрывающимися градиентами.

Статья

👍100👎1

17.4K views12:31

AbstractDL

Forwarded from DL in NLP (Vlad Lialin)

Direct Preference Optimization: Your Language Model is Secretly a Reward Model
arxiv.org/abs/2305.18290

Интересная статья, которая предлагает делать RLHF без RL. Используя пару математических трюков, можно показать что при модели Bradley-Terry человеческих предпочтений (которая похожа на то как моделируется reward в RLHF) можно вывести определённый лосс L который нам надо минимизировать.

Таким образом мы сводим RL задачу которая оптимизирует выученный (произвольный) reward к прямой задачи оптимизации на нашем датасете человеческих предпочтений. На практике это означает, что вам больше не надо страдать с PPO, не нужно генерировать текст во время обучения, и можно просто напрямую оптимизировать L. Экспериментальные результаты показывают что DPO работает так же как RLHF или лучше.

👍60

6.45K views10:16

AbstractDL

LightGlue: Local Feature Matching at Light Speed (by Microsoft)

Появилась новая SOTA по качеству и скорости для сопоставления изображений.

Выравнивание происходит при помощи трансформера, который матчит эмбеддинги ключевых точек (SuperPoint, DISK). А высокая скорость достигается «ранним выходом» из модели — на лёгких изображениях инференс завершается на начальных слоях трансформера (очень похоже на CALM).

Код и веса выложены в открытый доступ.

Статья, GitHub

👍59

7.51K views18:45

AbstractDL

Forwarded from эйай ньюз

The Little Book of Deep Learning

Карманная книга по DL от профессора из Женевского Университета François Fleuret. Всего 160 страниц размером с экран телефона, где очень ёмко описываются основные принципы Глубокого Обучения с отличными иллюстрациями.

Классно подойдёт для того чтобы освежить знания перед собеседованиями либо для быстрого входа в DL (желательно, конечно, пользоваться и другими источниками параллельно).

• По ссылке можно бесплатно скачать PDF, отформатированную специально для удобного чтения на мобильных телефонах.

• Либо можно заказать бумажный вариант. #books

@ai_newz

👍108

7.12K views17:51

2025/09/21 08:22:30
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>