Telegram Group Search
🔥 Letta (ранее MemGPT) — это фреймворк с открытым исходным кодом для создания stateful-приложений на основе больших языковых моделей!

🌟 Он позволяет разрабатывать агентов с продвинутыми возможностями рассуждения и долгосрочной памяти. Letta работает как API-сервер, который можно запускать локально или в облаке и поддерживает контейнеризацию через Docker.

🔐 Лицензия: Apache-2.0

🖥 Github
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 SmolVLM: набор компактных VLM от HuggingFace - Base, Synthetic и Instruct.

SmolVLM - серия компактных VLM отличающихся высокой эффективностью использования памяти и могут быть развернуты на локальных устройствах с ограниченными ресурсами.

Только что были выпущены SmolVLM (256M и 500M), которым требуются GPU <1GB для запуска.

🤗 SmolVLM-256M – это cамая маленькая VLM в мире!

Модели настолько маленькт, что могут работать 100% локально в вашем браузере на WebGPU!

🧠МЕНЬШЕ И УМНЕЕ: теперь модели на 256M параметров достаточно, чтобы превзойти Idefics 80B- модель, которая вышла 18 месяцев назад 🔥

📌Лицензирование:  Apache 2.0

⭐️ Smolervlm: https://huggingface.co/blog/smolervlm
🤗 Модели: https://huggingface.co/collections/HuggingFaceTB/smolvlm-256m-and-500m-6791fafc5bb0ab8acc960fb0

@ai_machinelearning_big_data


#AI #ML #SmallVLM #Huggingface
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Работа в Data Science занимает первое место в рейтинге профессий с самым большим спросом на рынке до 2025 года по данным Всемирного экономического форума.Бизнесу нужны спецы, которые умеют создавать модели машинного обучения и нейросети.

Если вы хотите войти в эту профессию с нуля, не обязательно сразу покупать дорогие программы обучения — познакомиться с профессией и понять, подходит она вам или нет можно на бесплатном онлайн-вебинаре от karpov courses, который пройдёт 28 января в 19:00 по мск.

На бесплатном практическом вебинаре узнайте, кто такие ML-инженеры, какие навыки и инструменты необходимы для старта в профессии, а также с какими повседневными задачами сталкивается ML-инженер.

Переходите по ссылке, регистрируйтесь на вебинар и получите карьерный гайд в подарок: https://clc.to/erid_2W5zFJa4EXz

Реклама. ООО "КАРПОВ КУРСЫ". ИНН 7811764627.
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ 4 стратегии для обучения на нескольких GPU наглядно

@machinelearning_interview
🖥 Cuda-120-Days-Challenge

Гайд 120-дневной программы обучения CUDA для всех, кто хочет углубиться в программирование на GPU.

Это структурированный, ежедневный план, охватывающий потоки, управление памятью, параллелизм и отладку и многое другое.

Урок на каждый день включает в себя:
- Разбор основной темы занятии
- Практическое упражнение / мини-проект
Разбор ошибок при отладке кода
- Рекомендованные ресурсы

Github
CUDA C Programming Guide
CUDA Toolkit Reference
CUDA Best Practices Guide
Бесплатный 12-ти часовой курс по CUDA от freeCodeCamp

@machinelearning_interview - материалы для мл собеса

#cuda #nvidia #freecourse #opensource #tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 GRPO (Group Relative Policy Optimization) - основной алгоритм deepseek r1

@machinelearning_interview
Forwarded from Machinelearning
⭐️ The Illustrated DeepSeek-R1

Одно из лучших иллюстрированных объяснение внутренностей DeepSeek-R1.
Читать

⭐️ Видео генератор Pika 2.1 официально выпущен ​​— поддерживает разрешение 1080p и генерирует более согласованные и детализированные на видео.
Попробовать

⭐️ DeepSeek-R1 теперь может работать в 1.58-битном режиме, оставаясь при этом полностью функциональным. Умельцы из Unsloth AI уменьшили размер модели 671B с 720 ГБ до 131 ГБ - это на 80 % меньше.

Наивное квантование всех слоев полностью ломает модель, вызывая бесконечные циклы и тарабарщину на выходе. Их динамические кванты решают эту проблему.

1,58-битный квант помещается в 160 ГБ VRAM (2x H100 80 ГБ) для быстрого вывода со скоростью ~140 токенов/сек.

Изучив архитектуру DeepSeek-R1, разработчики выборочно квантовали определенные слои в более высокие биты (например, в 4-битные), а большинство слоев MoE оставили в 1,5 бита.
Бенчмарки + блог
GGUF (131-212 ГБ) на Hugging Face:

⭐️ YuE (乐) - новая мощная модель генерации музыки с открытым исходным кодом! 🎵 Поддерживает преобразования текста в песню (как Suno.ai) с поддержкой различных жанров, вокала и множества языков. Модель совместима с Hugging Face и LLAMA.
Код
Демо

⭐️ Qwen 2.5-VL – обновленная визуальная модель, доступная в трех размерах: 3B, 7B и 72B параметров.
Qwen-2.5-VL
Qwen-2.5-1M


⭐️Netflix выпустили Go-with-the-Flow
Netflix выпустили новый алгоритм искажения шума для генерации видео, достаточно быстрый, чтобы работать в реальном времени, который заменяет случайную временную гауссиану на коррелированный искаженный шум, полученный из полей оптического потока, который сохраняет при этом пространственную гауссиану. Эффективность алгоритма позволяет тонко настраивать современные модели диффузии видео с минимальными расходами и предоставляет универсальное решение для широкого спектра управления движением на видео. Обширные эксперименты и исследования демонстрируют преимущества метода, делая его надежным и масштабируемым подходом для управления движением в диффузионных моделях видео.
HF
Github

⭐️ «Awesome DL-Based MRI Reconstruction» - новый Awesome репозиторий, содержащий ресурсы, инструменты и научные статьи, посвященные использованию глубокого обучения для ускорения получения магнитно-резонансных изображений. Созданный для обмена знаниями и сотрудничества, он служит важным руководством для исследователей и медиков со всего мира.
Github

@ai_machinelearning_big_data


#ai #ml #news #llm #deepseek #Netflix #Qwen #Pika #news #ainews
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥 Почему DeepSeek считает себя YandexGPT?

🌟 По телеграм-каналам разлетелись скрины ответов от китайского чат-бота, где он упоминает продукты Яндекса и утверждает, что создан в России. В сети задались вопросом, как такое возможно. Аналитики говорят, что галлюцинация могла возникнуть из-за обучения модели на общедоступных данных. В рунете много публичных обсуждений, связанных с технологиями Яндекса, поэтому модель может случайным образом воспроизвести информацию, утверждая, что она является YandexGPT.

@machinelearning_interview
This media is not supported in your browser
VIEW IN TELEGRAM
⭐️ Запускаем DeepSeek R1 на своём компьютере локально.

Вот что нужно сделать:


— Скачиваете LMStudio под свою операционную систему. У него удобный интерфейс, а также можно загружать документы;

Открываете программу, переходите в раздел Discover и выбираете DeepSeek R1 Distill Llama 8b;

Эта версия отличается от онлайн-версии DeepSeek R1 — в ней используется Llama 8b.

📌 Скачать

#DeepSeek #free #LMStudio
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/30 04:05:59
Back to Top
HTML Embed Code: