NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
▪ arxiv.org
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Бесплатно приехать в топовый вуз, поучиться у IT-экспертов и познакомиться с единомышленниками — звучит как мечта? Тогда вам стоит подать заявку на весенний студкемп Яндекс Образования в ФПМИ МФТИ. Он пройдёт с 14 по 26 апреля и будет посвящён робототехнике и генеративному ИИ.
В программе — лекции от экспертов, воркшопы, работа над проектами и вдохновляющая атмосфера. Студенты выпускного курса смогут поступить в магистратуру ФПМИ МФТИ, сдав на студкемпе вступительный экзамен. Участие, как и всегда, бесплатное. Каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте зарегистрироваться до 23 февраля.
В программе — лекции от экспертов, воркшопы, работа над проектами и вдохновляющая атмосфера. Студенты выпускного курса смогут поступить в магистратуру ФПМИ МФТИ, сдав на студкемпе вступительный экзамен. Участие, как и всегда, бесплатное. Каждому, кто пройдёт отбор, оплатят проезд и проживание. Успейте зарегистрироваться до 23 февраля.
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Arena Trend август 2024 г. - февраль 2025 г
После нескольких падений и взлетов
Deepseek ai в прошлом месяце,
XAI вырывается вперед на вершину таблицы лидеров.
Гонка ИИ продолжается! 📈
После нескольких падений и взлетов
Deepseek ai в прошлом месяце,
XAI вырывается вперед на вершину таблицы лидеров.
Гонка ИИ продолжается! 📈
🚀 AI от Sakana AI пишет оптимизированный код для CUDA-ядрер для ускорения ИИ!
🔑 Основное:
AI CUDA Engineer — агентная система, которая автоматически создаёт высокооптимизированные CUDA-ядра, ускоряя операции машинного обучения в PyTorch в 10–100 раз.
CUDA-программирование сложное, требует глубоких знаний и часто кажется "алхимией". Эта система упрощает задачу, используя эволюционные алгоритмы и LLMs.
Уникальная идея — "Innovation Archive" (аналог "библиотеки навыков" из нашего проекта Voyager для Minecraft), где LLM сохраняет лучшие фрагменты кода, найденные в процессе эволюционного поиска.
Это идеальный пример AutoML: максимальная отдача от вычислительных ресурсов, делая ИИ быстрее и эффективнее.
Великолепная работа, Sakana AI!
Также интересно, что NVIDIA параллельно работает над схожими исследованиями по улучшению CUDA-ядер с помощью мощных LLM.
#AI #MachineLearning #CUDA #AutoML
▪Paper: https://pub.sakana.ai/ai-cuda-engineer/paper/
▪Kernel Archive Webpage: https://pub.sakana.ai/ai-cuda-engineer/
▪HuggingFace Dataset: https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive
@data_analysis_ml
🔑 Основное:
AI CUDA Engineer — агентная система, которая автоматически создаёт высокооптимизированные CUDA-ядра, ускоряя операции машинного обучения в PyTorch в 10–100 раз.
CUDA-программирование сложное, требует глубоких знаний и часто кажется "алхимией". Эта система упрощает задачу, используя эволюционные алгоритмы и LLMs.
Уникальная идея — "Innovation Archive" (аналог "библиотеки навыков" из нашего проекта Voyager для Minecraft), где LLM сохраняет лучшие фрагменты кода, найденные в процессе эволюционного поиска.
Это идеальный пример AutoML: максимальная отдача от вычислительных ресурсов, делая ИИ быстрее и эффективнее.
Великолепная работа, Sakana AI!
Также интересно, что NVIDIA параллельно работает над схожими исследованиями по улучшению CUDA-ядер с помощью мощных LLM.
#AI #MachineLearning #CUDA #AutoML
▪Paper: https://pub.sakana.ai/ai-cuda-engineer/paper/
▪Kernel Archive Webpage: https://pub.sakana.ai/ai-cuda-engineer/
▪HuggingFace Dataset: https://huggingface.co/datasets/SakanaAI/AI-CUDA-Engineer-Archive
@data_analysis_ml
🔥 Уже этой весной состоится 5-я юбилейная конференция Data Fusion 2025. Не пропустите самое масштабное событие в сфере анализа данных и ИИ.
💻Специалисты по работе с ИИ и данными из бизнеса, науки и государства соберутся на одной площадке, чтобы вместе ответить на ключевые вопросы:
— О чем говорят новейшие исследования в области ИИ в России и за рубежом?
— Как готовить кадры в эру ИИ?
— Как устроена экономика данных и какие отрасли будут ее драйверами?
— В чем особенности применения технологий ИИ и ML в фарме, медицине, промышленности, нейробиологии?
📍Встречаемся 16-17 апреля в Технологическом кластере «Ломоносов» в Москве.
Участие в конференции — бесплатное. Регистрация уже открыта – https://data-fusion.ru/
🙌 Увидимся на Data Fusion 2025!
#AI #ML #DataFusion #Конференция #IT #bigdata #datascience
💻Специалисты по работе с ИИ и данными из бизнеса, науки и государства соберутся на одной площадке, чтобы вместе ответить на ключевые вопросы:
— О чем говорят новейшие исследования в области ИИ в России и за рубежом?
— Как готовить кадры в эру ИИ?
— Как устроена экономика данных и какие отрасли будут ее драйверами?
— В чем особенности применения технологий ИИ и ML в фарме, медицине, промышленности, нейробиологии?
📍Встречаемся 16-17 апреля в Технологическом кластере «Ломоносов» в Москве.
Участие в конференции — бесплатное. Регистрация уже открыта – https://data-fusion.ru/
🙌 Увидимся на Data Fusion 2025!
#AI #ML #DataFusion #Конференция #IT #bigdata #datascience
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
NVIDIA в соавторстве с Arc Institute опубликовали Evo-2, самую большую ИИ-модель для биологии, обученную на 9,3 трлн. пар ДНК из геномного атласа всех форм жизни.
Можно считать, что это LLM, ориентированная на ДНК. Вместо текста Evo 2 генерирует геномные последовательности, читает и интерпретирует сложную ДНК, включая некодирующие регионы, которые обычно считаются неинформативными, генерирует целые хромосомы, новые геномы и предсказывает мутации, вызывающие заболевания, даже те, которые еще не изучены.
Тем самым, можно утверждать, что ИИ переходит от описания биологии к ее проектированию. Это позволяет создавать синтетическую жизнь с нуля, программируемые белковые последовательности, потенциальные новые генные терапии и закладывает основу для моделирования целых клеток. Evo 2 делает биологию вычислительной дисциплиной.
Evo-2 использует StripedHyena 2 - многогибридную модель, сочетающую различные типы операторов для баланса между качеством модели, эффективностью обучения и инференса. StripedHyena 2 опирается на комбинацию из 3 вариантов сверточных операторов, зависящих от входных данных, и механизма внимания. Она моделирует ДНК в нескольких масштабах, улавливая даже слабые взаимодействия, и автономно обучается таким характеристикам, как границы экзонов и интронов, сайты связывания транскрипционных факторов, без участия человека.
Модель была обучена в два этапа (претрейн с контекстом 8192 и последующее обучение с увеличенным до 1 млн.) на датасете из 9,3 триллиона пар оснований бактерий, архей, эукариот и бактериофагов. Evo 2 обрабатывает до 1 млн. пар оснований в одном контекстном окне, умеет "держать в уме" целые хромосомы и может выявлять эволюционные закономерности, ранее не замеченные человеком.
Evo-2 была протестирована на практических возможности генерации, создав синтетические дрожжевые хромосомы, митохондриальные геномы и минимальные бактериальные секвенции и продемонстрировала высокую производительность в задачах, связанных с вариациями генов, включая некодирующие и сплайсинговые варианты
Проект полностью открыт: веса моделей, код и набор данных OpenGenome 2. Представлены два вида моделей:
@ai_machinelearning_big_data
#AI #ML #Evo2 #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ SigLIP2 – это семейство визуально-языковых энкодеров, разработанных для улучшенного семантического понимания, точного локализования объектов и извлечения плотных (dense) признаков из изображений .
В основе его концепции лежит возможность проводить классификацию изображений без дополнительного обучения на конкретных объектах – так называемая zero-shot классификация. Это позволяет применять модель к новым задачам и доменам, где может не быть размеченных данных.
Как работает инструмент?
- Патчевое представление изображений: Изображение разбивается на небольшие участки (патчи), которые затем обрабатываются энкодером. Это позволяет модели эффективно извлекать пространственные признаки даже при изменении разрешения.
- Совмещение текстовых и визуальных признаков: Модель обучена сопоставлять описания на естественном языке с визуальными объектами. Такой подход даёт возможность «понимания» изображения через текстовые описания, что особенно полезно в zero-shot сценариях.
- Мульти-языковая поддержка: Благодаря обучению на данных на разных языках, SigLIP2 демонстрирует высокую эффективность в задачах, где требуется понимание многоязычных текстовых описаний.
- Различные архитектурные варианты: Коллекция включает модели с различными размерами патчей (например, patch16 или patch32) и оптимизированными архитектурами (например, с динамическим разрешением или с использованием shape-optimized So-400m backbones).
Это позволяет подобрать оптимальный вариант для конкретной задачи .
За счёт плотного представления признаков, модель способна не только определять, что изображено на картинке, но и точно локализовать объекты внутри изображения.
Примеры применения
Системы безопасности и наблюдения: Автоматическая идентификация и локализация объектов в реальном времени.
Мультимодальные поисковые системы: Улучшение результатов поиска за счёт объединения визуальных и текстовых данных.
Мобильные приложения и AR: Интеграция возможностей классификации изображений без необходимости обучения модели на каждом устройстве.
SigLIP2 – это мощный инструмент, который демонстрирует значительный прогресс в области визуально-языкового анализа. Его способность работать в режиме нулевого обучения, мульти-языковая поддержка и высокая точность извлечения признаков открывают новые горизонты для разработчиков и исследователей в области компьютерного зрения. Если вы ищете решение для задач, где требуется быстрая адаптация модели к новым данным и языкам, SigLIP2 может стать отличным выбором.
https://huggingface.co/collections/google/siglip2-67b5dcef38c175486e240107
@data_analysis_ml
В основе его концепции лежит возможность проводить классификацию изображений без дополнительного обучения на конкретных объектах – так называемая zero-shot классификация. Это позволяет применять модель к новым задачам и доменам, где может не быть размеченных данных.
Как работает инструмент?
- Патчевое представление изображений: Изображение разбивается на небольшие участки (патчи), которые затем обрабатываются энкодером. Это позволяет модели эффективно извлекать пространственные признаки даже при изменении разрешения.
- Совмещение текстовых и визуальных признаков: Модель обучена сопоставлять описания на естественном языке с визуальными объектами. Такой подход даёт возможность «понимания» изображения через текстовые описания, что особенно полезно в zero-shot сценариях.
- Мульти-языковая поддержка: Благодаря обучению на данных на разных языках, SigLIP2 демонстрирует высокую эффективность в задачах, где требуется понимание многоязычных текстовых описаний.
- Различные архитектурные варианты: Коллекция включает модели с различными размерами патчей (например, patch16 или patch32) и оптимизированными архитектурами (например, с динамическим разрешением или с использованием shape-optimized So-400m backbones).
Это позволяет подобрать оптимальный вариант для конкретной задачи .
За счёт плотного представления признаков, модель способна не только определять, что изображено на картинке, но и точно локализовать объекты внутри изображения.
Примеры применения
Системы безопасности и наблюдения: Автоматическая идентификация и локализация объектов в реальном времени.
Мультимодальные поисковые системы: Улучшение результатов поиска за счёт объединения визуальных и текстовых данных.
Мобильные приложения и AR: Интеграция возможностей классификации изображений без необходимости обучения модели на каждом устройстве.
SigLIP2 – это мощный инструмент, который демонстрирует значительный прогресс в области визуально-языкового анализа. Его способность работать в режиме нулевого обучения, мульти-языковая поддержка и высокая точность извлечения признаков открывают новые горизонты для разработчиков и исследователей в области компьютерного зрения. Если вы ищете решение для задач, где требуется быстрая адаптация модели к новым данным и языкам, SigLIP2 может стать отличным выбором.
https://huggingface.co/collections/google/siglip2-67b5dcef38c175486e240107
@data_analysis_ml