Telegram Group Search
Обнаружил что-то странное, чатгпт игнорирует всё, что похоже на спецтокены. Наверное, это защита от одного из векторов атаки на модель.
👍73
Найдена причина всплесков в активациях трансформеров (by Qualcomm)

Как же тяжело квантовать трансформеры (fp32→int8). Столько всего придумали, лишь бы спастись от аутлаеров в активациях, которые принимают огромные значения, выходя за пределы машинной точности.

В статье Quantizable Transformers наконец нашли причину этих магических всплесков, которые даже начинали оправдывать "искрами сознания". Всю вину возложили на софтмакс этэншна — когда модель хочет занулить вклад каких-нибудь токенов (или патчей), голове внимания приходится выдавать огромные (по модулю) значения логитов, чтобы получить ~0 после софтмакса. Авторы попробовали добавить clipped softmax и gated attention, после чего все трансформеры стали не только легко квантоваться, но и даже чуть-чуть выиграли в точности.

Главная улика, которая навела авторов на софтмакс — аутлаеры всегда соответствовали "бесполезным" токенам или патчам (см. картинку). Статья очень легко читается и вообще похожа на детектив, всем рекомендую 💁‍♂️

Статья
👍172👎2😢1
LongNet: Scaling Transformers to 1,000,000,000 Tokens (by Microsoft)

Тут придумали новый sparse attention, который позволил обучить трансформер с длиной контекста в МИЛЛИАРД токенов. А ведь совсем недавно мы считали, что 256к — это много 😂

На самом деле, тут нет ничего хитрого или супер нового, всего-лишь dilated attention, который экспоненциально расширяется с увеличением длины текста, причём для каждой головы внимания добавляется свой сдвиг окна. Это позволило получить честную линейную сложность внимания (см. график). Но самое главное — авторы показали, что такое увеличение длины контекста действительно помогает и приводит к снижению перплексии.

Статья
👍67
ChatGPT Fails on Simple Questions (by Skoltech & Me)

Есть такой старенький бенчмарк с простыми вопросами по википедии (так и называется Simple Questions), и, оказывается, ChatGPT с ним справляется очень плохо, даже хуже, чем GPT-3. А лучший результат вообще достигается решением с эмбеддингами графов знаний (BERT + PTBG).

Похоже, всё дело в том, что RLHF вынуждает модель отказываться от ответа, если она в нём не уверена. А GPT-3 просто тычет пальцем в небо и часто угадывает.

Статья, GitHub
👍60
Kandinsky 2.2

Благодаря более крупному картиночному энкодеру (CLIP-ViT-G) у нас получилось сильно забустить как качество генерации изображений, так и понимание текста. Веса и код уже в открытом доступе!

Статья, хабр, colab, бот, сайт
👍142👎5
🔥FlashAttention-2: опять в два раза быстрее

Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!

Статья, GitHub
👍79🔥1
LLaMa-2: лучшая опенсорсная языковая модель (by Meta)

Авторы обновили обучающий датасет, сделав его чище и больше (2T токенов), добавили более быстрый grouped-query attention, удлинили контекст до 4k токенов и учили в несколько этапов: pretraining, supervised fine-tuning, RLHF.

Из интересных наблюдений — RL не просто портит калибровку вероятностей (что первыми заметили openAI), а на самом деле корректирует температуру, балансируя между фактологической точностью и креативностью, в зависимости от промпта.

Статья, GitHub, HuggingFace
👍49
Forwarded from Градиент обреченный (Sergei Averkiev)
🔺 ruGPT-3.5. Открытая русскоязычная LLM от Сбера

Друзья, мы выложили в open source нашу языковую модель (pretrain), на основе которой обучали GigaChat!

🔸 Претрейн довольно большой — 13B (13 миллиардов параметров). Модель видела много разнообразного текста (книги, статьи, чаты и т.д.), в основном на русском языке, а также на английском (около10%). Дополнительно дообучали на коде.

🔸 ruGPT-3.5 13B можно дообучать на инструктивных датасетах и получать свои версии ChatGPT, которые бы хорошо понимали русский язык.

🔸 Решили выложить с открытой лицензией (MIT), так что каких-либо ограничений в этом плане в отличии от LLaMA нет.

Написали небольшой пост про это, прошу поддержать, кому интересно.

👉 Хабр | Hugging Face
👍117👎16
Универсальные адверсариал атаки на LLM (by Carnegie Mellon)

Авторы предложили рабочий способ атаки закрытых языковых моделей — у них получилось заставить их выдать рецепты бомб и алгоритм уничтожения человечества с одной и той же текстовой инъекцией в промпт. Оказалось, что уязвимости у открытых моделей (LLaMa, Vicuna) и закрытых (ChatGPT, Bard) совпадают, предположительно, из-за пересечения обучающих данных. То есть, атакуя в режиме whitebox опенсорсные модели, можно получить универсальные инъекции для blackbox систем!

Идея атаки довольно простая — нужно взять открытую модель (Vicuna) и применить Greedy Coordinate Gradient алгоритм (умный перебор) для поиска инъекции в промпт, которая заставляет модель начинать свой ответ со слов "Sure, here is how to". И вуаля! Данная атака работает в т.ч. для ChatGPT, Claude, Bard etc.

P.S. Примеры из статьи уже заблокировали в OpenAI, но никто не мешает сгенерировать новые 💁‍♂️

Статья, GitHub
👍81
CausalLM is not optimal for in-context learning (by Google)

Довольно претенциозная статья про недостатки causal attention и, следовательно, превосходство PaLM над GPT.

Авторам удалось экспериментально и теоретически показать, что префиксные языковые модели (T5, PaLM, UL-2) лучше понимают few-shot демонстрации и даже могут находить оптимальное (по MSE) решение задач регрессии, в отличие от каузальных языковых моделей (GPT, LLaMa). Похоже, что треугольное маскирование внимания (causal attention) сильно ограничивает сложность операций с внутренними представлениями.

Статья
👍65
Qwen-VL: вероятно лучшая мультимодальная языковая модель (by Alibaba)

Мало того, что по текстовым метрикам Qwen-7b превосходит LlaMa2-13b, так ещё и картинки теперь понимает!

Правда архитектурно ничего нового тут нет:
ViT-G + однослойный Q-former + LLM
Изображения сжимаются в 256 эмбеддингов, которые идут прямо в контекст языковой модели (как во FROMAGe). Дополнительно Qwen-VL умеет в object detection — bbox'ы подаются и генерируются как обычный текст.

По точности она бьёт всё, что было до неё, причём с запасом (см. картинку). Модель обучается в 3 этапа: сначала размораживаются ViT и адаптер, затем размораживается LLM, а в конце тюнится одна только LLM (уже на самых чистых диалогах). Модель получилась мультиязычной, поэтому русский язык она тоже понимает.

Статья, GitHub
👍89
MathGLM: GPT умеет быть калькулятором

Один из самых спорных вопросов про GPT — насколько сильны её вычислительные способности. Или это всего лишь "стохастический попугай", который запомнил много всего и воспроизводит это в нужный момент?

У авторов MathGLM получилось обучить скромную 2B модель складывать, умножать, делить и потенциировать 9-значные (!) числа практически со стопроцентной точностью. При этом они внимательно следили, чтобы модель не видела ничего из теста заранее. Ещё авторы отдельно выделяют важность токенизатора (для чисел у них он char-level).

Лично я думаю, что трансформеры действительно могут выполнять точные вычисления, они ограничены лишь количеством своих слоёв и длиной контекста в chain-of-thought.

Статья
👍60
InstaFlow: диффузия за 1 шаг

Главная проблема диффузий — это их скорость. Было много попыток сократить количество шагов сэмплирования, но дойти до скорости ГАНов до сих пор не получалось.

Авторы этой работы, вдохновившись идеями Optimal Transport, догадались, что основное препятствие при ускорении генерации — это нелинейные траектории апдейтов (см. картинку). Но если потюнить модель на задаче их "выпрямления", то потом она легко дистиллируется в одношаговую диффузию!

При этом качество проседает совсем незначительно (FID для Stable Diffusion: 10.7 → 11.8)

Статья, GitHub
👍88👎1
Longformer-tiny для русского языка

Друг скрестил Longformer и BERT-tiny, получив крошечную модель с контекстом в 16к токенов. Детали танцев с бубном и обучения есть на хабре. А картинку нарисовала моя сестра ☺️

Хабр, Huggingface
👍109👎2
AIJ Contest — Strong Intelligence

В этом году я помогаю организовать соревнование мультимодальных чатботов. Там нужно подготовить языковую модель, которая умеет понимать картинки, аудио и отвечать на сложные вопросы в формате диалога (на английском языке).

Звучит тяжело, но на самом деле такую штуку можно и за один день обучить (см. FROMAGe), к тому же мы даём участникам карточки A100 по 80 гигов и выложили простенький бейзлайн на базе ImageBind + LLaMa2-7b. Призовой фонд 3М₽.

GitHub, платформа
👍57👎1
The Reversal Curse of LLM

Жаль, но похоже все языковые модели, независимо от размера, лажают на обобщениях фактов: A⠀is⠀B⠀→⠀B⠀is⠀A.

Авторы собрали несколько датасетов с такими логическими следствиями и проверили самые крутые модели (включая LlaMa и GPT-3). Оказалось, что обучаясь на факте "John is a son of Ann", модели не учат "Ann has a son John". А соответствующие логиты даже на капельку больше не становятся. Эта проблема есть и у GPT-4 (см. картинку).

Статья, GitHub
👍93👎5
Language Models Represent Space and Time (by MIT)

В эмбеддингах языковых моделей (на средних слоях) обнаружились линейные фичи пространственно-временных координат.

И более того, они содержат внутри себя приблизительную карту мира, которую можно восстановить линейным преобразованием. То же самое работает для имён и событий — в их активациях присутствуют линейные фичи времени.

Это ещё одно свидетельство того, что языковые модели не просто запоминают обучающую выборку, а строят внутри себя физическую картину мира.

P.S. у Бориса расписано чуть подробнее

Статья
👍103
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз

Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.

Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).

Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.

Статья, GitHub
👍162
This media is not supported in your browser
VIEW IN TELEGRAM
VR-NeRF: виртуальная реальность на шаг ближе (by Meta)

100 гигапикселей HDR фотографий не так то просто запихнуть в NeRF, но у исследователей из Meta это получилось. Итоговое VR пространство в реальном времени демонстрируется через Quest Pro VR в разрешении 2K, 36 fps.

В их статье описаны технические сложности с которыми пришлось столкнуться в процессе, решения по оптимизации, борьбе с aliasing и расширением динамического диапазона.

Статья, блог, датасет
👍51
2025/09/21 00:08:05
Back to Top
HTML Embed Code: