NVIDIA совместно с Университетом Гонконга разработала ToolOrchestra - методику обучения дирижеров для ИИ-агентов, и выпустила на ее основе модель Orchestrator-8B.
Это модель, базирующаяся на архитектуре Qwen3 предназначена для оркестрации других моделей и инструментов. Вместо того чтобы решать задачу в одиночку, модель чередует этапы рассуждения с вызовом внешних инструментов.
В ее арсенале поисковые движки, интерпретаторы кода и другие LLM, от узкоспециализированных математических до универсальных гигантов Claude и Llama-Nemotron.
Обучение проводилось с помощью GRPO, который поощрял модель не только за точность, но и за экономическую эффективность.
В результате решение получилось в 2,5 раза быстрее и на 70% дешевле в эксплуатации, чем использование одной лишь флагманской модели для всех этапов задачи, а сама Orchestrator-8B набрала 37,1% в сложнейшем бенчмарке Humanity's Last Exam , обойдя GPT-5 (35,1%).
@ai_machinelearning_big_data
#AI #ML #LLM #Orchestrator #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤65👍34🔥11🤬2🦄2❤🔥1
Media is too big
VIEW IN TELEGRAM
В Школе анализа данных, где готовят специалистов по ИИ, началось обучение по применению ИИ в естественно-научных исследованиях. На программу подали заявки ученые из 37 регионов - больше всего запросов получили от экспертов в областях физики, медицины и химии. В итоге зачислили 50 молодых исследователей: от магистрантов до кандидатов наук из Москвы, Петербурга, Уфы, Иркутска, Владивостока и Екатеринбурга.
Участники изучают основы ИИ и сразу применяют инструменты в своих задачах. С каждой командой работает эксперт ШАДа: помогает выбрать методы и спланировать эксперимент. Если проекту нужны тяжелые вычисления, подключаются мощности Yandex Cloud.
Команда из Institute of Science Tokyo анонсировала фреймворк PianoKPM Net, способный с высокой точностью определять активность мышц рук без использования нательных датчиков. Обычно для этого требуется инвазивная и дорогая электромиография, но новая архитектура реконструирует паттерны мышечных сокращений, анализируя только видеозапись.
В основе системы - уникальный датасет, собранный на базе 12 часов игры профессиональных пианистов, где визуальные данные синхронизированы с реальными сигналами мышц. Технология превращает обычную камеру в диагностический инструмент, что важно для реабилитационной медицины, спортивной аналитики и создания продвинутых интерфейсов «человек-компьютер». Авторы планируют выложить датасет и модель в открытый доступ.
techxplore.com
Project Prometheus поглотил разработчика агентного ИИ General Agents. Сделка прошла в закрытом режиме еще летом и сопровождалась переходом команды инженеров из DeepMind и Tesla в структуру Prometheus. Цель Prometheus: создание ИИ-систем для поддержки сложных производств автомобилестроения и космической отрасли.
Главный актив General Agents - технология Ace для автономного управления интерфейсами и приложениями. Хотя изначально Ace создавался для автоматизации рутинны на ПК, в рамках Prometheus эти наработки, судя по всему, будут масштабированы для индустриальных сценариев.
wired.com
Глава направления Sora в OpenAI Билл Пиблз сообщил, что бесплатные аккаунты теперь ограничены всего 6 видеогенерациями в сутки, так как текущие графические процессоры буквально плавятся от запросов. Это ограничение не выглядит временным: компания прямо предлагает докупать генерации по мере необходимости, хотя условия для подписчиков ChatGPT Plus и Pro пока остались прежними.
Google приняла аналогичные меры, урезав бесплатный доступ к инструменту Nano Banana Pro до 2 изображений в день. Техгигант предупредил, что лимиты могут меняться динамически и без уведомлений. Кроме того, под ограничения попал и доступ бесплатных пользователей к модели Gemini 3 Pro.
theverge.com
ИИ-поисковик получил функцию "persistent memory", которая позволяет запоминать предпочтения, интересы и детали предыдущих диалогов. Теперь система автоматически создает "постоянный контекст" пользователя, а ответы становятся персонализированными и требуют меньше уточняющих запросов.
Perplexity извлекает факты из хранилища памяти и напрямую использует их при формировании ответа. Этот контекстный слой работает поверх любой выбранной модели без потери накопленных знаний о пользователе. Функция полностью управляема: сбор данных можно отключить в настройках, а в режиме инкогнито история не сохраняется.
perplexity.ai
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤58👍26🔥8😁4🦄4
✍️ ML Global Recap: итоги ключевых научных конференций года
11 декабря Яндекс проводит встречу для тех, кто следит за трендами в машинном обучении. Эксперты расскажут, что важного происходило в этом году на главных мировых конференциях и что нас ждет дальше.
Ребята знают, о чем говорят. Команда в курсе всех ключевых событий отрасли: NeurIPS, ICLR, ACL, Interspeech, CIKM и ACM RecSys – весь год по косточкам разбирали тренды и статьи с мероприятий. А на некоторых даже выступали. Например, на ACM RecSys представили устный доклад по Yambda(попасть в oral секцию на конференцию такого уровня – задача со звездочкой)
Значимые выводы с конференций и основные тенденции представят руководители ключевых команд Яндекса.
🎯 Все детали тут.
11 декабря Яндекс проводит встречу для тех, кто следит за трендами в машинном обучении. Эксперты расскажут, что важного происходило в этом году на главных мировых конференциях и что нас ждет дальше.
Ребята знают, о чем говорят. Команда в курсе всех ключевых событий отрасли: NeurIPS, ICLR, ACL, Interspeech, CIKM и ACM RecSys – весь год по косточкам разбирали тренды и статьи с мероприятий. А на некоторых даже выступали. Например, на ACM RecSys представили устный доклад по Yambda
Значимые выводы с конференций и основные тенденции представят руководители ключевых команд Яндекса.
🎯 Все детали тут.
❤16👌11🤣5👍3💋2
Ostris, разработчик популярного пакета для обучения диффузионных моделей добавил поддержку обучения для Z-Image Turbo с помощью De-Distill адаптера.
AI Toolkit — это универсальный набор инструментов для обучения диффузионных моделей на потребительском оборудовании. Он может запускаться как в GUI, так и в командной строке. Набор разработан так, чтобы быть простым в использовании, но при этом обладать всеми возможными функциями.
По первым тестам, обучение возможно на 12+ VRAM, а обучение персонажа на 17 изображениях длительностью 3000 шагов на RTX 5090 занимает примерно полтора часа.
Подробный гайд по процессу автор тулкита обещает выпустить в ближайшие дни.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤39🔥15🥰5🦄3👍2
This media is not supported in your browser
VIEW IN TELEGRAM
Выбери своего БОЙЦА:
❤️ Новый, более доступный и компактный R1
или
🔥 Мощный и уже зарекомендовавший себя на рынке G1, который остаётся флагманом линейки.
@ai_machinelearning_big_data
#ai #robots
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥132👍28❤22😨16🦄2😁1
⚡️ Как линейная регрессия помогает решать задачи в AI и аналитике
Недавно увидел крутой разбор линейной регрессии — и наконец понял, что она нужна не только тем тем, кто работает с большими данными. Метод применяется в реально жизненных кейсах. Например, с ним можно:
✔️ прогнозировать спрос и цены на продукты
✔️ измерять эффект от запуска фич
✔️ быстро собирать базовые ML-модели
Эти карточки я взял в канале «Зачем мне эта математика». Там такие темы разбирают наглядно: показывают графики, раскладывают формулы по шагам и связывают всё это с кейсами из аналитики и разработки.
А ещё там рассказывают много неожиданных фактов и каждую неделю публикуют задачи. В комментах можно обсудить вопросы и задать вопросы редакции.
Так что если хотите влюбиться в математику и понять, как устроены технологии вокруг нас — подписывайтесь и следите.
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2Vtzqxf17nH
Недавно увидел крутой разбор линейной регрессии — и наконец понял, что она нужна не только тем тем, кто работает с большими данными. Метод применяется в реально жизненных кейсах. Например, с ним можно:
✔️ прогнозировать спрос и цены на продукты
✔️ измерять эффект от запуска фич
✔️ быстро собирать базовые ML-модели
Эти карточки я взял в канале «Зачем мне эта математика». Там такие темы разбирают наглядно: показывают графики, раскладывают формулы по шагам и связывают всё это с кейсами из аналитики и разработки.
А ещё там рассказывают много неожиданных фактов и каждую неделю публикуют задачи. В комментах можно обсудить вопросы и задать вопросы редакции.
Так что если хотите влюбиться в математику и понять, как устроены технологии вокруг нас — подписывайтесь и следите.
Реклама. ООО «ФРОМ СКРЭТЧ», ИНН 9724205560, erid: 2Vtzqxf17nH
😁31❤18👍12🙈6🥰3🦄3
MedSAM-3 - исследовательский проект, который переносит возможности сегментации по текстовым запросам из общего домена в медицинский.
Несмотря на мощь оригинальной SAM 3, тесты показали ее слабую применимость к клиническим данным: базовая модель часто путает анатомические структуры и не понимает специфические термины.
MedSAM-3 решает эту проблему, позволяя врачам выделять объекты на снимках МРТ, КТ, УЗИ и гистопатологии с помощью естественного языка. Например, по запросу
«сегментируй опухоль молочной железы».В основе - дизайн SAM 3 с двойным трансформером. На обучении заморозили энкодеры изображений и текста, чтобы сохранить сильные визуальные приоритеты оригинала, а вот компоненты детектора прошли SFT на медицинских датасетах. Это позволило сохранить мощный базис оригинальной SAM 3, но добавить ей понимание медицинской специфики.
В посттрейн-тестах наилучшую производительность показала конфигурация MedSAM-3 T+I, где текстовые подсказки были объединены с ограничивающими рамками. Такой подход позволил тестовой модели обойти классический U-Net и первую версию MedSAM на бенчмарках BUSI (Dice score - 0.7772) и Kvasir-SEG.
Он использует мультимодальную LLM (в экспериментах - Gemini 3 Pro) в качестве планировщика, который анализирует запрос, выстраивает цепочку рассуждений и итеративно управляет процессом сегментации.
В эксперименте c Gemini 3 Pro, на том же тестовом наборе BUSI, метрика Dice выросла с 0.7772 до 0.8064.
⚠️ Проект пока на стадии техотчета, но разработчики обещают опубликовать код и веса модели в ближайшее время. Так что тем, кто занимается ИИ в медицине - рекомендуем следить за репозиторием на Github.
@ai_machinelearning_big_data
#AI #ML #Segmentation #MedSAM3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥53👍20❤15💋5🥰3🤔2🦄2🗿1
🚀 GELab-Zero - первый полноценный open-source стек “Model + Infra” для GUI-агентов.
Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.
Что внутри:
• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.
Производительность:
• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).
Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.
🟠 HuggingFace: https://huggingface.co/stepfun-ai/GELab-Zero-4B-preview
🟠 GitHub: https://github.com/stepfun-ai/gelab-zero
🟠 Blog: https://opengelab.github.io/index.html
@ai_machinelearning_big_data
#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Это открытая альтернатива закрытым системам уровня GUI Agent MCP: готовая модель, готовая инфраструктура и новый бенчмарк, собранный под реальные задачи.
Что внутри:
• SOTA-модель 4B - лёгкая, быстрая, запускается локально.
• One-Click инфраструктура - без ADB и сложных зависимостей.
• AndroidDaily - новый бенчмарк, основанный на рабочих пользовательских сценариях.
Производительность:
• Лучшие результаты на открытых тестах - модель обходит гораздо более крупные системы вроде GUI-Owl-32B на ScreenSpot, AndroidWorld и OSWorld.
• 73.4% точности на AndroidDaily - существенно выше, чем UI-TARS-1.5 (47%), Gemini-2.5-pro-thinking (36.6%) и GPT-4o (19.6%).
Идея простая: скачивайте, запускайте локально, ломайте, улучшайте.
Открытый стек для GUI-агентов наконец доступен.
@ai_machinelearning_big_data
#AI, #Agents, #GUIAgents, #GELabZero, #OpenSource, #MachineLearning, #DeepLearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤38👍18🔥10🥱3🦄1
