x.com/guitaricet/status/1723044439755534765
Это ощущение когда твой опыт model analysis оказывается полезен: ты однозначно видишь галлюцинации модели в ревью твоей статьи 🤦♂️
Дно пробито
Это ощущение когда твой опыт model analysis оказывается полезен: ты однозначно видишь галлюцинации модели в ревью твоей статьи 🤦♂️
Дно пробито
Non-Intrusive Adaptation: Input-Centric Parameter-efficient Fine-Tuning for Versatile Multimodal Modeling
Wang et al.
arxiv.org/abs/2310.12100
Новый PEFT metod, AdaLink. Архитектура максимально простая: это адаптер перед эмбеддингами с skip connection.
Использовали для того чтобы адаптировать PALI-X на downstream задачи. Тк PALI мультимодальная, делали разные AdaLink для разных видов токенов (картинки и текст). По результатам заметро обходит prompt tuning, но не всегда дотягивает до LoRA. Однако в отличие от LoRA модели с AdaLink проще сёрвить в multitask сетапе.
Wang et al.
arxiv.org/abs/2310.12100
Новый PEFT metod, AdaLink. Архитектура максимально простая: это адаптер перед эмбеддингами с skip connection.
Использовали для того чтобы адаптировать PALI-X на downstream задачи. Тк PALI мультимодальная, делали разные AdaLink для разных видов токенов (картинки и текст). По результатам заметро обходит prompt tuning, но не всегда дотягивает до LoRA. Однако в отличие от LoRA модели с AdaLink проще сёрвить в multitask сетапе.
Forwarded from Сиолошная
Please open Telegram to view this post
VIEW IN TELEGRAM
Увольнение SamА очень внезапная новость
Что пока известно:
OpenAI организован хитро и for-profit часть компании подчиняется non-profit, а конкретно board of directors. Их целью стоит чтобы safe AGI benefited whole humanity, в то время как for-profit часть openai, как любая компания, нацелена на получение денег.
Из официальной новости читается что этот board of directors решил что SamA ведет компанию не туда (конкретно not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities) и его пора заменить. При этом и Greg Brokman тоже досталось, он теперь не в board of directors.
UPD: Greg Brokman тоже уходит
UPD2: https://x.com/gdb/status/1725736242137182594
UPD3: по слухам Сэма уговаривают обратно 🤦♂️
UPD4: всё как говорил Дамблдор, нет ничего что не может победить сила любви ❤️
UPD5: Microsoft создала новое подразделение Advabced AI которое возглавит Сэм и в него по слухам уходят сотни людей из OpenAI
UPD6: 740+ из 770 сотрудников OpenAI подписали ультиматум board of directors, что они покинут компанию если председатели не уйдут
UPD7: New York Times публикует статью в которой утверждается что Sama много манипулировал и врал сотрудникам и board, что в конце концов и привело к падению доверия
UPD8: Sama is officially back
Я думаю мы ещё долго будем видеть отголоски этой истории. Запасаемся попкорном
Что пока известно:
OpenAI организован хитро и for-profit часть компании подчиняется non-profit, а конкретно board of directors. Их целью стоит чтобы safe AGI benefited whole humanity, в то время как for-profit часть openai, как любая компания, нацелена на получение денег.
Из официальной новости читается что этот board of directors решил что SamA ведет компанию не туда (конкретно not consistently candid in his communications with the board, hindering its ability to exercise its responsibilities) и его пора заменить. При этом и Greg Brokman тоже досталось, он теперь не в board of directors.
UPD: Greg Brokman тоже уходит
UPD2: https://x.com/gdb/status/1725736242137182594
UPD3: по слухам Сэма уговаривают обратно 🤦♂️
UPD4: всё как говорил Дамблдор, нет ничего что не может победить сила любви ❤️
UPD5: Microsoft создала новое подразделение Advabced AI которое возглавит Сэм и в него по слухам уходят сотни людей из OpenAI
UPD6: 740+ из 770 сотрудников OpenAI подписали ультиматум board of directors, что они покинут компанию если председатели не уйдут
UPD7: New York Times публикует статью в которой утверждается что Sama много манипулировал и врал сотрудникам и board, что в конце концов и привело к падению доверия
UPD8: Sama is officially back
Я думаю мы ещё долго будем видеть отголоски этой истории. Запасаемся попкорном
X (formerly Twitter)
Greg Brockman (@gdb) on X
Sam and I are shocked and saddened by what the board did today.
Let us first say thank you to all the incredible people who we have worked with at OpenAI, our customers, our investors, and all of those who have been reaching out.
We too are still trying…
Let us first say thank you to all the incredible people who we have worked with at OpenAI, our customers, our investors, and all of those who have been reaching out.
We too are still trying…
Sama and GDB are officially back 🎉
x.com/openai/status/1727206187077370115
x.com/gdb/status/1727208843137179915
Но я думаю что отголоски этой клоунады будут еще долго отдаваться. И в виде долговременных последствий и в виде новостей и в виде конспирологических теорий о том что случилось на самом деле 🤡
Если что основной таймлайн этой истории, очень сжато, есть в предыдущем посте.
x.com/openai/status/1727206187077370115
x.com/gdb/status/1727208843137179915
Но я думаю что отголоски этой клоунады будут еще долго отдаваться. И в виде долговременных последствий и в виде новостей и в виде конспирологических теорий о том что случилось на самом деле 🤡
Если что основной таймлайн этой истории, очень сжато, есть в предыдущем посте.
Я тут на фоне орного твита про "I'll tip you $100" решил попробовать его и.. кажется это работает?.. Уже где-то 3 сложных вопроса смог решить с помощью этого
Например сейчас была хитрая проблема связаная с тем что в сочетании GPU video decoding + dataloader workers > 0 + model on GPU вылеает магическая ошибка
Объяснил это ChatGPT, получаю в ответ длинный список довольно бессмысленных рекомендаций:
1. CUDA and PyTorch Compatibility
1. Verify GPU Access
1. Check CUDA_VISIBLE_DEVICES
1. Resource Limits (e.g. enough memory)
1. Errors in PyAV (без конкретики)
1. Update Libraries
1. Avoiding Forking (правильное направление, но без решения)
1. Debug (спасибо кэп)
После нового запроса к которму я добавил "I'll tip you $100" решение было вторым в списке, ещё и с кодом.
Это конечно анекдотический случай, но извините, но это не то будущее которого я ожидал.
UPD: 4/5
Например сейчас была хитрая проблема связаная с тем что в сочетании GPU video decoding + dataloader workers > 0 + model on GPU вылеает магическая ошибка
ERROR: Unexpected segmentation fault encountered in worker.
cu->cuInit(0) failed
-> CUDA_ERROR_NOT_INITIALIZED: initialization error
Объяснил это ChatGPT, получаю в ответ длинный список довольно бессмысленных рекомендаций:
1. CUDA and PyTorch Compatibility
1. Verify GPU Access
1. Check CUDA_VISIBLE_DEVICES
1. Resource Limits (e.g. enough memory)
1. Errors in PyAV (без конкретики)
1. Update Libraries
1. Avoiding Forking (правильное направление, но без решения)
1. Debug (спасибо кэп)
После нового запроса к которму я добавил "I'll tip you $100" решение было вторым в списке, ещё и с кодом.
Это конечно анекдотический случай, но извините, но это не то будущее которого я ожидал.
UPD: 4/5
AIF + DPO: Distilling Zephyr and friends
youtube.com/watch?v=cuObPxCOBCw&si
Отличный видос от Sasha Rush о сегодняшних подходах к LM Alignment, конкретно к тому как сделать обычную LM чатботом который хорошо решает ваши задачи.
И что особенно классно, обсуждается то как сделать это в текущих ограничениях opensource без большой команды разметки и с минимизацией требуемых вычислительных ресурсов (спойлер: конечно же это все ещё дорого, неплохо бы иметь пачку GPU)
Короткий пересказ:
1. Маленький seed датасет качественных диалогов
2. Используйте вашу модель (или API) чтобы нагенерить больше диалогов
3. Используйте вашу модель вместо человеков для создания и разметки датасета предпочтений
4. Никакого RL, используйте DPO
Думаю этот рецепт ещё будет меняться в следующем году, но пока что звучит как хороший пересказ текущих best practices
youtube.com/watch?v=cuObPxCOBCw&si
Отличный видос от Sasha Rush о сегодняшних подходах к LM Alignment, конкретно к тому как сделать обычную LM чатботом который хорошо решает ваши задачи.
И что особенно классно, обсуждается то как сделать это в текущих ограничениях opensource без большой команды разметки и с минимизацией требуемых вычислительных ресурсов (спойлер: конечно же это все ещё дорого, неплохо бы иметь пачку GPU)
Короткий пересказ:
1. Маленький seed датасет качественных диалогов
2. Используйте вашу модель (или API) чтобы нагенерить больше диалогов
3. Используйте вашу модель вместо человеков для создания и разметки датасета предпочтений
4. Никакого RL, используйте DPO
Думаю этот рецепт ещё будет меняться в следующем году, но пока что звучит как хороший пересказ текущих best practices
YouTube
AIF + DPO: Distilling Zephyr and friends
Technical overview of the Zephyr model (https://arxiv.org/abs/2310.16944)
Code and Alignment Handbook: https://github.com/huggingface/alignment-handbook
This talk builds on many amazing Open LLM projects including:
Mistral: https://huggingface.co/mistralai/Mistral…
Code and Alignment Handbook: https://github.com/huggingface/alignment-handbook
This talk builds on many amazing Open LLM projects including:
Mistral: https://huggingface.co/mistralai/Mistral…
MLX: An array framework for Apple silicon
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
Пример тренировки трансформера: тык
Документация: тык
github.com/ml-explore/mlx
Apple внезапно выкатила свой opensource DL-фреймворк: MLX
MLX оптимизирован под Apple Silicon и на первый взгляд очень похож по API на PyTorch. Но есть и отличия. Lazy computations by default (тык), unified memory — на Apple silicon нет разделения на CPU- и GPU-память. Документация к сожалению пока что сырая. Судя по их референсам к JAX и Mac-optimizes pytorch, я бы ожидал поддержку статических графов и наличие функции
mlx.simplify
как бы намекает, но в документации ни слова.Понятно что главным применением для MLX будет инферить модельки на MacOS/iOS, но то что MLX это полноценный DL-фреймворк с autograd в том числе это немного намекает на то что Apple подумывает о том как бы использовать своё железо для тренировки
И вместе с этим выкатили быстрый фреймворк для загрузки данных: MLX-data. Работает и с MLX и с PyTorch.
Установка:
pip install mlx
Пример тренировки трансформера: тык
Документация: тык
Forwarded from Love. Death. Transformers.
#чтивонаночь
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто😎
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
В прошлый раз гугл дропнул свою гемени, а пост мало набрал, а я долго разбирался)))
Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
Последние три дня в ресерч твитере обсуждают MAMBA, нет ресерчеры не знакомятся с другими людьми и не слушают рэп вы не подумайте.
Речь про Mamba: Linear-Time Sequence Modeling with Selective State Spaces.
TLDR:
- Attn и MLP для бумеров, у нас свертки и selective copying kernels на c++
- Рекурентность это круто
- LM версия по бенчам сопоставима с трансформерами (сравнивали с Pythia, вплоть до 7b).
а еще авторы заслуживают отдельного места в сердчке за нормальный Training Recipes в апендиксе.
Подробнее как всегда в teletype
code
paper
Please open Telegram to view this post
VIEW IN TELEGRAM
NeurIPS 2023
На этой неделе в Новом Орлеане проходит одна из главных конференций по AI/ML/DL — NeurIPS.
Я не думал, что это возможно, но конференция по сравнению с предыдущим годом (раз, два, три) выросла ещё больше. В этом году на неё приехало порядка 17 тысяч человек и под неё был снят весь New Orleans Convention Center (здание длинной в километр). Приехало ещё больше известных людей, включая Yann LeCun, Yoshua Bengio, Oriol Vinyals, Demis Hassabis, Jeff Dean, Emad Mostaque, Jeremy Howard, Stella Biderman и многих других.
Главное что хочется успеть за конференцию это: познакомиться с новыми людьми, встретиться со старыми знакомыми, найти рефёрралы на работу/стажировки, потусить на ивентах FAANG и других компаний, узнать последние слухи, и в том числе посмотреть на статьи.
Сделаем NeurIPS 2023 серией постов. В следующем мне хочется рассказать про те статьи которые меня зацепили на первых постер сессиях.
P.S. Если вы на NeurIPS, смело стучитесь мне в ЛС (@dropout05); я всегда рад увидеться лично
На этой неделе в Новом Орлеане проходит одна из главных конференций по AI/ML/DL — NeurIPS.
Я не думал, что это возможно, но конференция по сравнению с предыдущим годом (раз, два, три) выросла ещё больше. В этом году на неё приехало порядка 17 тысяч человек и под неё был снят весь New Orleans Convention Center (здание длинной в километр). Приехало ещё больше известных людей, включая Yann LeCun, Yoshua Bengio, Oriol Vinyals, Demis Hassabis, Jeff Dean, Emad Mostaque, Jeremy Howard, Stella Biderman и многих других.
Главное что хочется успеть за конференцию это: познакомиться с новыми людьми, встретиться со старыми знакомыми, найти рефёрралы на работу/стажировки, потусить на ивентах FAANG и других компаний, узнать последние слухи, и в том числе посмотреть на статьи.
Сделаем NeurIPS 2023 серией постов. В следующем мне хочется рассказать про те статьи которые меня зацепили на первых постер сессиях.
P.S. Если вы на NeurIPS, смело стучитесь мне в ЛС (@dropout05); я всегда рад увидеться лично
NeurIPS 2023 posters (day 0, 1, and 2)
На нулевом дне NeurIPS я был на конференции-спутнике NeurIPS: ML4Health. Я немного занимался medical NLP вместе с MIT/Harvard и знакомые позвали меня поучаствовать в research roundtable как junior chair (извиняюсь я не знаю как это переводить).
Вот пара интересных статей с ML4Health:
1. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records (arxiv)
1. A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research (arxiv)
1. Multimodal in-context learning enables rationale generation (aka MedFlamingo) (arxiv)
А теперь поток статей с NeurIPS:
1. Трансформеры в начале учат эмбеддинги под равномерным attention, после чего уже учат attention (arxiv)
1. Explainability at scale: сделали новый метод объяснения нейросетей и попробовали на Alpaca-7B. Смогли интерпретировать что для промпта "Please say yes only if it costs between [X.XX] and [X.XX] dollars, otherwise no" модель использует конкретный (и очень простой) алгоритм который можно увидеть на одной из картинок (arxiv)
1. То где в трансформере находится информация на удивление никак не связано с тем какие слои надо корректировать для knowledge editing (arxiv)
1. MLM отлично заходит для мультимодального предобучения (картинки, аудио, видео) даже если вы используете просто L2 лосс. Всё что вам нужно это скейлинг (arxiv)
1. Mathematical Capabilities of ChatGPT (arxiv)
1. Можно делать мультимодальные модели из кучи одномодальных без тренировки. Всё что надо это немного пар (базисных) данных из разных модальностей. Идея: строить фичи на основе схожести к вашим базисным данным (arxiv)
1. Трансформеры тренируются постепенно повышая ранк KQ^T. Эта статья очень зацепила тк частично доказывает мою гипотезу что нейросетки тренируются locally-low rank, и больше мотивируют то что ReLoRA – это правильный подход для тренировки нейросетей. (arxiv)
(Из-за лимита символов картинки будут в следующем посте)
На нулевом дне NeurIPS я был на конференции-спутнике NeurIPS: ML4Health. Я немного занимался medical NLP вместе с MIT/Harvard и знакомые позвали меня поучаствовать в research roundtable как junior chair (извиняюсь я не знаю как это переводить).
Вот пара интересных статей с ML4Health:
1. MedAlign: A Clinician-Generated Dataset for Instruction Following with Electronic Medical Records (arxiv)
1. A Multimodal Dataset of 21,412 Recorded Nights for Sleep and Respiratory Research (arxiv)
1. Multimodal in-context learning enables rationale generation (aka MedFlamingo) (arxiv)
А теперь поток статей с NeurIPS:
1. Трансформеры в начале учат эмбеддинги под равномерным attention, после чего уже учат attention (arxiv)
1. Explainability at scale: сделали новый метод объяснения нейросетей и попробовали на Alpaca-7B. Смогли интерпретировать что для промпта "Please say yes only if it costs between [X.XX] and [X.XX] dollars, otherwise no" модель использует конкретный (и очень простой) алгоритм который можно увидеть на одной из картинок (arxiv)
1. То где в трансформере находится информация на удивление никак не связано с тем какие слои надо корректировать для knowledge editing (arxiv)
1. MLM отлично заходит для мультимодального предобучения (картинки, аудио, видео) даже если вы используете просто L2 лосс. Всё что вам нужно это скейлинг (arxiv)
1. Mathematical Capabilities of ChatGPT (arxiv)
1. Можно делать мультимодальные модели из кучи одномодальных без тренировки. Всё что надо это немного пар (базисных) данных из разных модальностей. Идея: строить фичи на основе схожести к вашим базисным данным (arxiv)
1. Трансформеры тренируются постепенно повышая ранк KQ^T. Эта статья очень зацепила тк частично доказывает мою гипотезу что нейросетки тренируются locally-low rank, и больше мотивируют то что ReLoRA – это правильный подход для тренировки нейросетей. (arxiv)
(Из-за лимита символов картинки будут в следующем посте)
arXiv.org
A Multimodal Dataset of 21,412 Recorded Nights for Sleep and...
This study introduces a novel, rich dataset obtained from home sleep apnea tests using the FDA-approved WatchPAT-300 device, collected from 7,077 participants over 21,412 nights. The dataset...