Telegram Group Search
The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень маленькое пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

UPD: приняли на EACL 🎉

Статья
Forwarded from Denis Sexy IT 🤖
Альтман написал, что они временно перестали принимать новые платные подписки в ChatGPT.

Вдумайтесь в это, компания добровольно отказывается от денег, потому что у нее временно кончились вычислительные ресурсы 😵

Нечасто такое увидишь в ИТ-секторе
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
🔥Stable Video Diffusion

Друзья из Stability.AI наконец-то зарелизили image-to-video модель! Работает на базе весов SD v2.1.

Есть две версии
- SDV, генерит 14 фреймов 576x1024
- SDV-XT, которая зафайнтюнена с SDV, чтобы генерить 25 кадров.

Фрейм рейт можно менять во время инференас от 3 fps до 30 fps, то есть можно получить видео длиной от 1 до 8 сек. Достигается это за счет дополнительного кондишенинга на фрейм-рейт, также как в SDXL был добавлен кондишенинг на разрешение выходной картинки.

По представленным бенчмаркам, SDV обходит Gen-2 и Pika.

Количество фреймов, генерируемых за раз, конечно, меньше чем у EMU-Video, но зато полный опен-соурс, и веса тоже уже доступны!

Статья с деталями.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
NoPE: лучший позишн энкодинг — это тот, которого нет

Правда ли, что позиционное кодирование критически необходимо трансформерам? Оказывается, это справедливо только для энкодеров, а вот декодеры (GPT, LLaMA и тд) могут прекрасно работать и без него!

Похоже, что каузальные маски внимания (которые не позволяют заглядывать в правый контекст) сами по себе являются отличным источником информации о позиции токенов. И более того, трансформер БЕЗ позиционного кодирования лучше обобщается на размер контекста, выходящий за длину примеров из обучения, даже по сравнению с такими мудрёными методами, как Rotary или ALiBi.

P.S. Eсли вас на собеседовании спросят зачем нужнен позишн энкодинг в GPT — можете говорить, что не особо он и нужен 💁‍♂️

Статья, GitHub
Гугл представил Gemini — семейство мультимодальных моделей

Есть 4 размера — Ultra, Pro, Nano-1 (1.8B) и Nano-2 (3.25B), все они обладают контекстом в 32k токенов и понимают 4 модальности: текст, звук, картинки и видео. Из технических деталей могу только добавить, что там был RLHF 🤷‍♂️

Pro версия уже встроена внутри Bard, маленькие будут внутри Pixel 8, а самая крупная Ultra появится чуть позже после прохождения всех проверок на безопасность.

P.S. По метрикам самая крупная модель капельку получше, чем GPT-4 (но не везде). Поэтому, на мой взгляд, самые интересные модели — Gemini-Nano.

Статья, блог
This media is not supported in your browser
VIEW IN TELEGRAM
Я выиграл Yandex ML Prize! (ex. премия Сегаловича)

За научные исследования в области графов знаний, языковых и мультимодальных моделей
This media is not supported in your browser
VIEW IN TELEGRAM
VideoPoet: языковая модель для генерации и редактирования видео БЕЗ диффузий (by Google)

Да, это возможно! Рано выкинули Dall·E-1 на помойку истории, авторегрессионная генерация всё ещё на коне! Гугл представил модель, которая умеет создавать картинки, видео и аудио + редактировать всё это по тексту.

VideoPoet — это префиксная языковая модель (8B) с общим словарём для всех модальностей, при этом видео-ролики кодируются всего лишь в 1280 токенов. А промпт энкодится при помощи T5-XL и добавляется через линейную проекцию в префикс (просто безумие!). Дополнительно тут есть модуль super-resolution, ведь изначально видео генерируется в разрешении 128x128.

Статья, блог
This media is not supported in your browser
VIEW IN TELEGRAM
Точечное редактирование знаний внутри LLM (by Alibaba)

Тут вышел крутейший обзор всех методов редактирования памяти языковых моделей! Авторы собрали всё внутри единого фреймворка, и теперь можно в пару строчек кода подправить мозги вашей LLM 🌚

Статья, GitHub
🔥Завершено обучение TinyLlama

Это крошечная (1.1B) версия Llama-2, которой за 4 месяца скормили 3 триллиона токенов (SlimPajama + StarCoder).

Авторам огромный респект, т.к. они опубликовали все промежуточные чекпоинты, chat-версию и даже очень шустрый код для претрейна!

Статья, GitHub, Huggingface
This media is not supported in your browser
VIEW IN TELEGRAM
Depth Anything (by TikTok)

Новая сота в monocular depth estimation, код и веса уже в открытом доступе! Никаких супер инноваций, просто огромный датасет с псевдо-разметкой.

Статья, Github, huggingface
SliceGPT: сжимаем LLM, уменьшая размерность эмбеддингов (by Microsoft)

Языковые модели обладают избыточной, не используемой ёмкостью — что-то похожее мы уже видели в статье про мёртвые нейроны. А тут авторы предлагают убрать всё лишнее ортогональными преобразованиями с последующим отбрасыванием малоактивных строк и столбцов из матриц весов.

Выглядит это так, будто бы размерность эмбеддингов итоговой модели стала на 10-30% меньше, а перплексия и метрики почти не ухудшаются, особенно у крупных моделей (Llama-70B и OPT-66B). При этом в коде инференса ничего менять не надо.

P.S. Забавно, но модели вроде Phi-2 сжимаются гораздо менее охотно, возможно они эффективнее используют свою ёмкость.

Статья, GitHub (soon)
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!

У гугла с неймингом продуктов и моделей большие пролемы. Давайте разбираться что за 1.5.

То что сейчас крутится у них в проде, и что я недавно тестил, Gemini Ultra (Advanced), - это Gemini 1.0. А тут анонсировали, что уже сделали новую версию - Gemini 1.5.

Что нового?
- Эта модель уже основана на Mixture of Experts (MoE).
- может работать с контекстами в длиной 1M токенов, что на порядок больше чем у конкурентов.
- Причем, токены могут быть из разных модельностей. Например, в Gemini 1.5 можно тупо загрузить видео и попросить модель проанализировать его.

В 1M токенов поместится примерно часовое видео, 11 часов аудио, более 30k строк кода или более 700к строк текста.

Подробности есть в тех-репорте (58 стр). Либо в блог блог-посте.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Сиолошная
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.

На всех достаточно важных бенчмарках Opus показывают существенный прирост относительно GPT-4.

Opus, наша самая интеллектуальная модель, достигает возможностей понимания, близких к человеческому. Она может ловко обрабатывать широко сформулированные запросы и решать сложные задачи.

— Добавили новую модальность, модель принимает на вход картинки (а значит и видеоряд — как последовательность кадров)
— Лучше понимает языки, отличные от английского (в частности испанский, японский и фрацузский)
— Контекст всё еще 200к токенов
— Цена Opus $15/$75 за 1M токенов на вход и на выход соответственно. Для сравнения GPT-4-turbo стоит $10/$30
— Также обещают, что самая мощная модель имеет «more advanced agentic capabilities», что бы это ни значило :)
— Вдобавок, к модели подключили интерпретатор кода и возможность добавлять свои собственные инструменты
— Самый большой прирост метрик — на задачах, связанных с математикой. Даже без примеров в промпте модель показывает себя лучше, чем Gemini Ultra / GPT-4. Круто, если не переобучение, особенно в контексте того, что модели — НАПОМНЮ, ЭТО МНОГИЕ УПУСКАЮТ — будут использоваться для АВТОМАТИЗАЦИИ научных исследований.

Модели доступны по API сегодня всем, никакого листа ожидания больше нет. Для подписчиков Pro на сайте уже должна быть доступна модель Opus, а Sonet достанется бесплатным пользователям. Заходите: claude.ai

Ночью ждём релиза GPT-4.5 как симметричный ответ, видимо 😐 Почему? Потому что релиз Арракиса (кодовое название проекта в OpenAI) отложили до выпуска Дюны 2 😀
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Галлюцинации LLM можно определять по внутренней размерности активаций (by CISCO)

На мой взгляд один из самых красивых и простых способов выявлять враньё языковых моделей. Внутренняя размерность активаций — это что-то вроде сложности манифолда на котором лежат промежуточные эмбеддинги (кину в комменты пример).

И вот оказывается, когда LLM выдумывает что-то несуществующее, то размерность эмбеддингов со средних слоёв значительно подрастает (см. гистограммы). Таким образом, по всплескам размерности можно определить, где именно модель галлюцинирует, а где говорит правду.

Статья
Forwarded from эйай ньюз
🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"

Как всегда бывает на презентациях NVIDIA, слово "быстро" - это вчерашний день.

↪️ B200 GPU обещает до 20 петафлопс производительности в FP4 и 208 миллиардов транзисторов. Ваша GTX 1080 Ti нервно курит в сторонке.

↪️ В одной B200 будет 192GB памяти с пропускной способностью 8 ТБ/с. Идеально для LLM моделей, которые жрут память как не в себя и требуют большую пропускную способность.

↪️ GB200 "суперчип" объединяет 2 таких B200 GPU с одним Grace CPU (на ARM архитектуре). Nvidia хвастается, что это в 30 раз производительнее для инференса в LLM в FP4 по сравнению с H100.

↪️ Ключевая фишка - второе поколение трансформерного движка, который удваивает вычислительную мощность, пропускную способность и размер модели. Но хз, какая потеря точности будет после конвертации в FP4.

↪️ Nvidia утверждает, что GB200 снижает стоимость и энергопотребление в 25 раз по сравнению с H100 (опять же, в FP4).

↪️ Теперь будет поддерживаться и новый формат - FP6, золотая середина по скорости и точности между FP4 и FP8. Но бенчмарков не показали.

↪️ FP64 на уровне 45 терафлопс на GPU (против 60 у H100). Для нейронок double precision не релевантен, поэтому они особо и не парятся ускорять тут.

↪️ Тренировка GPT-MoE с 1.8 триллиона параметров требовала 90 дней на 8,000 GH100 и 15МВт энергии. Теперь достаточно 2,000 GB200 и 4МВт. То есть во время тренировки 1x GB200 примерно в 4 раза быстрее чем 1x H100.

↪️ На инференсе GPT-3 с 175 млрд параметров, GB200 "всего" в 7 раз быстрее H100. Ну ладно, не все сразу.

Но не радуйтесь раньше времени - цены будут ядреными! Если H100 стоит около $40k, то GB200 будет минимум в 4-5 раз дороже.

Да и не достать их будет простым смертным. Первыми их получат Amazon, Google, Microsoft и Oracle. Известно, что Амазон уже планирует кластер на 20,000 GB200.

А потребительские версии Blackwell ожидаются не раньше 2025 года.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Quiet-STaR: думательные токены вместо Chain-of-Thought

Очень интересная идея, как обобщить CoT-промптинг, приближая его к подобию мыслительного процесса человека (говорить не всё, что думаешь).

Для этого авторы предложили позволить LLM иногда «думать», — старт и конец такой мысли определяются обучаемыми RL спецтокенами, а вот сама мысль чаще всего состоит из какой-то белиберды, уменьшающей перплексию дальнейшего текста.

В отличие от CoT, тут нет требования писать внятно, поэтому то, что генерится внутри мысли далеко не всегда получается интерпретировать. Тем не менее, это сильно бустит метрики и практически не замедляет инференс, т.к. генерация идёт параллельно.

Понятное дело, что это не работает без дообучения, но я попросил чатгпт притвориться, что она использует эти мыслительные токены, и спросил её помогло ли это ответить на мой вопрос. Она сказала что помогло 😁

Статья
2025/01/01 10:56:26
Back to Top
HTML Embed Code: