Telegram Group Search
This media is not supported in your browser
VIEW IN TELEGRAM
🤖🚀 iRonCub3: Первый робот, взлетевший на реактивной тяге

Учёные из AMI Lab впервые в истории подняли гуманоидного робота в воздух с помощью реактивных двигателей.

Робот iRonCub3 поднялся на ~50 см, оставаясь устойчивым в воздухе — всё это благодаря:

🔸 интеллектуальной системе управления
🔸 точной аэродинамической модели
🔸 адаптивной стабилизации в реальном времени

Маленький шажок к будущему, где гуманоиды смогут летать и выполнять миссии в экстремальных условиях.

@ai_machinelearning_big_data

#роботы #технологии #реактивныйвзлет #гуманоид #инновации #инженерия
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft разработала компактную языковую модель Mu для Windows Settings.

Microsoft представила мини-модель Mu с 330 млн. параметров для локальной работы на NPU в Windows Settings. На чипах Qualcomm модель показывает в 4,7 раза быстрее генерацию токенов, чем аналоги. Mu адаптировали под особенности NPU: настроили размеры слоев, применили квантование весов до 8-16 бит и уменьшили потребление памяти.

Mu уже используется в агенте Settings, который преобразует запросы вроде «увеличь яркость» в системные команды. Модель обучали на 3,6 млн примеров, добавили синтетические данные и шум, чтобы повысить точность. Результат: ответы за 500 мс даже на сложных задачах. При этом Mu в 10 раз меньше Phi-3.5-mini, но сохраняет конкурентную производительность.
blogs.windows.com

✔️ SYNTHETIC-2: децентрализированный проект генерации логических данных.

Prime Intellect запустила SYNTHETIC-2, децентрализованную систему генерации для обучения ИИ. Проект позволяет любым GPU, от бытовых до промышленных, присоединиться к генерации данных. Управляет процессом TOPLOC v2, технология, которая проверяет корректность вычислений через хэширование активаций и распределяет награды за успешные результаты.

Датасет включает более 20 задач: математика, генерация JSON и неформальные задания для разнообразия данных. Верификация работает через сравнение ответов разных моделей (Qwen3, DeepSeek и др.). Все данные доступны на HuggingFace.

Присоединиться может любой желающий, арендовав ресурсы через Prime Intellect или подключив собственные GPU. Цель проекта - ускорить развитие открытой суперинтеллектуальной системы, где контроль распределен, а технологии общедоступны.
primeintellect.ai

✔️ DIY-устройство для превращения снов в фильмы с помощью ИИ.

«The Dream Recorder», открытый DIY-гаджет от компании Modem Works, превращающий воспоминания о снах в короткие фильмы с помощью ИИ. Устройство использует Raspberry Pi, микрофон и экран, а его стоимость сборки составляет около $310. После пробуждения пользователь рассказывает сон, который транскрибируется и отправляется в ChatGPT, а затем в Luma AI для генерации видео. Итоговый ролик сохраняется в цифровой дневник.

Проект сочетает DIY-культуру и доступные технологии, демонстрируя, как ИИ может визуализировать субъективный опыт. Все схемы и исходники доступны на GitHub, включая 3D-модели для печати. Примерная стоимость записи одного сна составляет $0.15, что делает эксперименты с памятью и сознанием доступными. И это не прототип, а рабочее решение, которое можно собрать самостоятельно.
dreamrecorder.ai

✔️ Мини-движок nano-vLLM.

Исследователь Синькай Ю из DeepSeek разработал nano-vLLM, облегченный движок для работы с LLM. Он написан на Python вручную, объемом всего 1,2 тыс. строк кода, и воспроизводит основные функции оригинального vLLM.

nano-vLLM поддерживает кэширование префиксов, тензорный параллелизм, компиляцию с torch.compile и CUDA Graphs. Это позволяет достичь скорости, близкой к vLLM, но без сложных алгоритмов планирования задач или динамического батчинга. Зато разработчики получают четкую архитектуру в одном месте: токенизатор, управление кэшем и механизм выборки токенов. Проект подойдет для исследований, обучения или небольших систем, где важна простота.
github.com

✔️ OpenAI готовит ChatGPT к конкуренции с Google Workspace и Office 365.

По данным источников, OpenAI разрабатывает продвинутые функции для ChatGPT, превращая его в платформу для командной работы. Пользователи смогут группировать чаты, загружать файлы, использовать голосовой ввод и сохранять контекст диалогов. Все это позиционируется как альтернатива офисным пакетам. Мобильное приложение получит поддержку загрузок и переключения моделей на лету.

Этот проект, задуманный в 2024 году, активно развивается сейчас и OpenAI видит в ChatGPT «операционную систему для жизни», интегрируемую в рабочие процессы. Microsoft, поддерживающий стартап, теперь рискует стать конкурентом самому себе, а Google получает нового серьезного оппонента.
theinformation.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 VideoPrism: энкодер, заточенный для понимании видеоконтента.

VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.

По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.

В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.

Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:

На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.

На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.

Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".

▶️В открытом доступе опубликованы 2 версии, Base и Large:

🟢VideoPrism-B, 114М параметров, на базе ViT-B;

🟠VideoPrism-L, 354M параметров, на базе ViT-L.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🟡Google Collab
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Теперь официально Google выпустили Gemini CLI - AI-агента для работы в терминале

• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)

Запуск в cli: npx https://github.com/google-gemini/gemini-cli

🔜 Анонс: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/
🔜 Github: https://github.com/google-gemini/gemini-cli/

@ai_machinelearning_big_data

#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Cloud․ru представил новые AI-инструменты

Cloud․ru сегодня зарелизили две свежие разработки:

AI-помощника для автоматизации работы пользователей в облаке — Клаудию. Помощник на основе GenAI доступен в режиме Public Preview. Клаудии можно будет передать часть DevOps-рутины, чтобы освободить время для стратегических и архитектурных задач.

Клаудия поможет пользователям управлять облачными ресурсами и инфраструктурой, самостоятельно выполняя конкретные действия. AI-помощник упростит подбор облачных сервисов под задачи пользователя, развернет виртуальные машины, поможет работать с консолью в режиме Co-pilot, а также настроить опции мониторинга и алертинга.

Основные сценарии применения AI-помощника:

- создание базовой инфраструктуры в облаке;
- подбор персонализированных рекомендаций по решениям, которые лучше всего соответствуют бизнес-задачам пользователей;
- подсказки команд для работы в серийной консоли виртуальных машин в режиме Co-pilot и другое.

Cloud․ru Evolution AI Factory. Облачная среда с готовыми AI- и ML-инструментами. С ее помощью бизнес и разработчики смогут ускорить процесс дообучения и развёртывания ML-моделей для различных задач, разрабатывать AI-агентов и запускать мультиагентные системы. Простой интерфейс позволяет реализовать идеи даже без навыков программирования, так что Cloud․ru Evolution AI Factory рассчитана не только на опытных разработчиков, но и на тех, у кого нет специальных знаний в ML.

В составе ИИ-фабрики:

- Evolution Foundation Models. Сервис с популярными AI-моделями доступными по API;
- Evolution ML Inference. Инструмент для развертывания ML-моделей: GigaChat и других open source моделей из библиотеки Hugging Face;
- Evolution Managed RAG. Готовый сервис для Retrieval Augmented Generation;
- Evolution ML Finetuning. Сервис для быстрой адаптации LLM-моделей;
- Evolution Notebooks. Среда визуализации данных и работы с кодом Jupyter Notebooks как сервисами ;
Evolution AI Agents. Визуальный редактор агентов на базе LLM.

В Cloud․ru отмечают, что платформа доступна не только опытным разработчикам, но и тем, кто не обладает специальными знаниями в области ML.
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 alphaXiv —выпустили расширение для хрома

alphaXiv упрощает работу с научными статьями (arXiv, bioRxiv, PDF):

● чат с ИИ прямо в документе: выделение текста открывает диалог
● ссылки на другие статье через “@” для быстрого вызова статей
● позволяет генерировать блог одним кликом: иллюстрации к статьям, ключевые идеи, перевод
● закладки и автоматические BibTeX-цитаты для хранения и ссылок

Ранее был поставлен ИИ-агент для работы со статьями


https://chromewebstore.google.com/detail/alphaxiv-understand-resea/liihfcjialakefgidmaadhajjikbjjab

@ai_machinelearning_big_data

#ArXiv #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🛡️ GigaConf 2025: мультиагенты в кибербезопасности

Автономные AI-системы могут стать основой будущей защиты. Об этом рассказал Сергей Лебедь, вице-президент по кибербезопасности Сбера.

По его словам, мультиагентные атакующие системы уже в ближайшем будущем смогут искать уязвимости, писать вредоносный код и запускать фишинг. Противостоять им можно только такими же автономными системами — но на стороне защиты. При минимальном участии человека они смогут быстрее и точнее реагировать на инциденты.

🧩 В модели киберзащиты четыре ключевых блока:

— поиск уязвимостей
— детектирование
— управление средствами защиты
— реагирование

Каждый работает через взаимодействие AI-агентов — от мониторинга до устранения угроз.

💬 Лебедь отметил, что мультиагенты в том числе могут закрыть кадровый дефицит — если не хватает специалистов, задачи берут на себя ИИ. А у людей остаются роли более высокого уровня: разработка подходов, прогнозирование, обучение моделей.

Среди новых профессий:
— тренер моделей
— конструктор AI-агентов
— специалист по знаниям ИИ

@ai_machinelearning_big_data

#AI #Cybersecurity #ML #MultiAgent #Sber #GigaConf2025
📌Тренируем LoRA: эффективный тюнинг LLM в гайде от Unsloth.

Добиться от LLM нужного поведения - задача нетривиальная, особенно в тонкой настройке с помощью LoRA.

LoRA позволяет адаптировать модель под конкретные задачи, не переобучая ее целиком, но результат сильно зависит от правильно подобранных гиперпараметров. Небольшой, но очень полезный гайд от Unsloth - ваш гид по основным настройкам LoRA, которые помогут повысить точность, стабильность и качество, попутно снижая риск галлюцинаций и переобучения.

Успешное обучение - это, прежде всего, баланс. Слишком высокая скорость обучения может ускорить начальное обучение, но рискует дестабилизировать модель или привести к пропускам оптимальных решений. Слишком низкая замедлит процесс и, как ни странно, тоже помешает обучению или переобучит вашу LoRa. Оптимальный диапазон обычно лежит между 1e-4 и 5e-5.

Аналогично с эпохами: прогонять данные слишком много раз значит рисковать тем, что модель просто "зазубрит" датасет, потеряв способность к обобщению. Недобор эпох грозит недообучением, это когда модель так и не улавливает нужные паттерны.

Но вот, вы разобрались с эпохами и скоростью обучения и добрались до специфичных параметров LoRA, например - ранг. Это один из ключевых параметров, он определяет размерность "адаптеров", добавляемых к модели.

Больший ранг дает больше "места" для обучения, но требует больше памяти и времени. Следующий после ранга: lora_alpha. Это своего рода усилитель для этих адаптеров. Часто его ставят равным рангу или удваивают, чтобы усилить влияние дообученных весов.

Unsloth предлагает в своих ноутбуках отличные дефолтные параметры, основанные на большом накопленном опыте файнтюна моделей и предлагает проверенные решения для управления ресурсами и стабильностью.

Подбор гиперпараметров — это всегда итеративный процесс. Экспериментируйте, сверяйтесь с лучшими практиками, и тогда ваши дообученные модели покажут наилучшие результаты.

🔜 Читать гайд полностью


#AI #ML #LLM #Tutorial #LoRA #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI расширяет возможности ChatGPT Pro.

OpenAI запустила Search Connectors для ChatGPT Pro и Team, функцию, которая напрямую связывает облачные хранилища (Google Drive, Dropbox и OneDrive) с интерфейсом чата. Теперь пользователи могут искать, анализировать и обобщать документы, не загружая их вручную.

Лимит файлов на проект для Pro-подписчиков вырос с 20 до 40, а поддержка охватывает 12 сервисов, включая GitHub, Gmail и Outlook. Пока новинка доступна за пределами ЕС, Великобритании и Швейцарии.
Open AI в сети Х

✔️ Google открыла доступ к Imagen 4.

Imagen 4, усовершенствованные модели генерации изображений по текстовым запросам, стали доступны в двух версиях: базовая Imagen 4 (4 цента за изображение) для повседневных задач и Imagen 4 Ultra (6 центов) с повышенной детализацией и точностью исполнения инструкций. Обе модели доступны в Gemini API для платных пользователей, а также в ограниченном бесплатном тестировании через Google AI Studio.

Разработчики обещают улучшенное отображение текста на картинках и расширение тарифных планов в ближайшие недели. Все сгенерированные изображения получат скрытый цифровой водяной знак SynthID.
developers.googleblog.com

✔️ HPE и NVIDIA представили новую линейку решений для корпоративного ИИ.

HPE и NVIDIA анонсировали совместные решения для создания «фабрик искусственного интеллекта» на базе модульной инфраструктуры. В линейку вошли серверы HPE ProLiant DL380a Gen12 с GPU NVIDIA RTX PRO 6000 Blackwell, которые предлагают универсальную платформу для генеративного и промышленного ИИ.

Также был представлен HPE Private Cloud AI — готовое решение для быстрого внедрения ИИ, совместимое с фреймворком NVIDIA Enterprise AI Factory. Для финансового сектора планируется тестирование агентного ИИ с Accenture, а 26 новых партнеров расширят экосистему HPE, добавив 70 преднастроенных сценариев: от детекции мошенничества до кибербезопасности. Решения доступны для заказа, а система HPE Compute XD690 с GPU Blackwell Ultra начнет отгружаться в октябре.
blogs.nvidia.com

✔️ Google DeepMind представила AlphaGenome.

AlphaGenome — нейросеть, которая предсказывает, как мутации в ДНК влияют на регуляцию генов. Модель обрабатывает участки длиной до миллиона пар оснований, анализируя их на уровне отдельных «букв» и оценивая тысячи молекулярных свойств: активность генов, сплайсинг РНК, доступность участков ДНК.

AlphaGenome сочетает сверточные слои для поиска коротких паттернов и трансформеры для анализа длинных последовательностей. Одна из ключевых особенностей - точное моделирование сплайс-сайтов, важное для изучения редких заболеваний.

Модель превзошла аналоги в 22 из 24 тестов, предсказывая как структуру ДНК, так и эффекты вариантов. Доступ к AlphaGenome открыт через API для некоммерческих проектов.
deepmind.google

✔️ LongWriter-Zero: модель, которая пишет длинные тексты благодаря RL.

Группа исследователей из Сингапура и Китая представила LongWriter-Zero, модель, которая генерирует тексты длиной более 10 тысяч слов, обучаясь только через RL, без использования синтетических данных. Модель опирается на три специализированных «наградных» алгоритма, оценивающих структуру, качество и длину текста, а также уникальный метод «усреднения преимущества», который балансирует приоритеты между ними.

LongWriter-Zero использует «промты-размышления»: перед написанием модель планирует структуру текста, улучшая его связность. Бенчмарки показали рост эффективности с 700 до 1200 поинтов Elo. Однако у модели есть слабые места: она склонна к повторам и переиспользованию слов, которые система поощряет в процессе обучения.
Модель и датасет доступны на Hugging Face.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/26 09:22:01
Back to Top
HTML Embed Code: