Telegram Group Search
🌟 VideoPrism: энкодер, заточенный для понимании видеоконтента.

VideoPrism - базовый визуальный энкодер от Google. Это универсальный инструмент, способный разобраться в самых разных нюансах видеоконтента: от простого распознавания объектов до генерации описаний или ответов на вопросы.

По заявлению создателей, VideoPrism демонстрирует топовые результаты на 31 из 33 общедоступных бенчмарков. В тестах на zero-shot, VideoPrism обошел аналоги в задачах классификации (Kinetics-600) и ответов на вопросы (MSRVTT-QA), даже не используя дополнительных модальностей вроде аудио.

В основе VideoPrism - ViT, но с существенными модификациями, учитывающими специфику видеоданных. В его создании инженеры Google DeepMind применили так называемый "факторизованный" подход, разделяя обработку пространственных и временных измерений и исключили слой глобального усреднения, чтобы сохранить максимум информации из каждого кадра и его временной позиции.

Секрет эффективности VideoPrism кроется в его тщательно продуманном двухэтапном методе обучения на гигантском корпусе данных в 600+ миллионов пар "видео-текст" и чуть менее миллиарда "изображение-текст" из набора данных WebLI:

На первом этапе модель осуществляет своего рода "синхронизацию" между видео- и текстовым энкодерами. Используя огромные массивы пар "видео-текст", они учатся сопоставлять визуальные данные с их семантическими описаниями посредством контрастивного обучения. Это позволяет видеоэнкодеру освоить основные визуальные концепции.

На втором этапе обучение продолжается уже исключительно на видеоданных, применяя усовершенствованную технику маскированного моделирования. Здесь часть видеороликов подвергается маскированию, а VideoPrism должен восстановливать скрытые части.

Token shuffling (предотвращает "копипасту" ошибок декодера) и global-local distillation (перенос знаний из первого этапа), помогают VideoPrism одновременно усваивать детали изображений и тонкости движений, избегая при этом "катастрофического забывания".

▶️В открытом доступе опубликованы 2 версии, Base и Large:

🟢VideoPrism-B, 114М параметров, на базе ViT-B;

🟠VideoPrism-L, 354M параметров, на базе ViT-L.


📌Лицензирование: Apache 2.0 License.


🟡Статья
🟡Набор моделей
🟡Arxiv
🟡Google Collab
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #Encoder #VideoPrism #Google #DeepMind
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🖥 Теперь официально Google выпустили Gemini CLI - AI-агента для работы в терминале

• Лёгкий и мощный инструмент для разработки в командной строке
• Работает на базе Gemini 2.5 Pro
• Код агента в открытом доступе (Apache 2.0)
• Поддержка контекста в 1 миллион токенов
• Бесплатный тариф: до 60 запросов в минуту и 1000 в день
Привязка к Google Search
• Поддержка MCP
• Интеграция с VS Code (Gemini Code Assist)

Запуск в cli: npx https://github.com/google-gemini/gemini-cli

🔜 Анонс: https://blog.google/technology/developers/introducing-gemini-cli-open-source-ai-agent/
🔜 Github: https://github.com/google-gemini/gemini-cli/

@ai_machinelearning_big_data

#AI #ML #agent #Google
Please open Telegram to view this post
VIEW IN TELEGRAM
Cloud․ru представил новые AI-инструменты

Cloud․ru сегодня зарелизили две свежие разработки:

AI-помощника для автоматизации работы пользователей в облаке — Клаудию. Помощник на основе GenAI доступен в режиме Public Preview. Клаудии можно будет передать часть DevOps-рутины, чтобы освободить время для стратегических и архитектурных задач.

Клаудия поможет пользователям управлять облачными ресурсами и инфраструктурой, самостоятельно выполняя конкретные действия. AI-помощник упростит подбор облачных сервисов под задачи пользователя, развернет виртуальные машины, поможет работать с консолью в режиме Co-pilot, а также настроить опции мониторинга и алертинга.

Основные сценарии применения AI-помощника:

- создание базовой инфраструктуры в облаке;
- подбор персонализированных рекомендаций по решениям, которые лучше всего соответствуют бизнес-задачам пользователей;
- подсказки команд для работы в серийной консоли виртуальных машин в режиме Co-pilot и другое.

Cloud․ru Evolution AI Factory. Облачная среда с готовыми AI- и ML-инструментами. С ее помощью бизнес и разработчики смогут ускорить процесс дообучения и развёртывания ML-моделей для различных задач, разрабатывать AI-агентов и запускать мультиагентные системы. Простой интерфейс позволяет реализовать идеи даже без навыков программирования, так что Cloud․ru Evolution AI Factory рассчитана не только на опытных разработчиков, но и на тех, у кого нет специальных знаний в ML.

В составе ИИ-фабрики:

- Evolution Foundation Models. Сервис с популярными AI-моделями доступными по API;
- Evolution ML Inference. Инструмент для развертывания ML-моделей: GigaChat и других open source моделей из библиотеки Hugging Face;
- Evolution Managed RAG. Готовый сервис для Retrieval Augmented Generation;
- Evolution ML Finetuning. Сервис для быстрой адаптации LLM-моделей;
- Evolution Notebooks. Среда визуализации данных и работы с кодом Jupyter Notebooks как сервисами ;
Evolution AI Agents. Визуальный редактор агентов на базе LLM.

В Cloud․ru отмечают, что платформа доступна не только опытным разработчикам, но и тем, кто не обладает специальными знаниями в области ML.
This media is not supported in your browser
VIEW IN TELEGRAM
🌟 alphaXiv —выпустили расширение для хрома

alphaXiv упрощает работу с научными статьями (arXiv, bioRxiv, PDF):

● чат с ИИ прямо в документе: выделение текста открывает диалог
● ссылки на другие статье через “@” для быстрого вызова статей
● позволяет генерировать блог одним кликом: иллюстрации к статьям, ключевые идеи, перевод
● закладки и автоматические BibTeX-цитаты для хранения и ссылок

Ранее был поставлен ИИ-агент для работы со статьями


https://chromewebstore.google.com/detail/alphaxiv-understand-resea/liihfcjialakefgidmaadhajjikbjjab

@ai_machinelearning_big_data

#ArXiv #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
🛡️ GigaConf 2025: мультиагенты в кибербезопасности

Автономные AI-системы могут стать основой будущей защиты. Об этом рассказал Сергей Лебедь, вице-президент по кибербезопасности Сбера.

По его словам, мультиагентные атакующие системы уже в ближайшем будущем смогут искать уязвимости, писать вредоносный код и запускать фишинг. Противостоять им можно только такими же автономными системами — но на стороне защиты. При минимальном участии человека они смогут быстрее и точнее реагировать на инциденты.

🧩 В модели киберзащиты четыре ключевых блока:

— поиск уязвимостей
— детектирование
— управление средствами защиты
— реагирование

Каждый работает через взаимодействие AI-агентов — от мониторинга до устранения угроз.

💬 Лебедь отметил, что мультиагенты в том числе могут закрыть кадровый дефицит — если не хватает специалистов, задачи берут на себя ИИ. А у людей остаются роли более высокого уровня: разработка подходов, прогнозирование, обучение моделей.

Среди новых профессий:
— тренер моделей
— конструктор AI-агентов
— специалист по знаниям ИИ

@ai_machinelearning_big_data

#AI #Cybersecurity #ML #MultiAgent #Sber #GigaConf2025
📌Тренируем LoRA: эффективный тюнинг LLM в гайде от Unsloth.

Добиться от LLM нужного поведения - задача нетривиальная, особенно в тонкой настройке с помощью LoRA.

LoRA позволяет адаптировать модель под конкретные задачи, не переобучая ее целиком, но результат сильно зависит от правильно подобранных гиперпараметров. Небольшой, но очень полезный гайд от Unsloth - ваш гид по основным настройкам LoRA, которые помогут повысить точность, стабильность и качество, попутно снижая риск галлюцинаций и переобучения.

Успешное обучение - это, прежде всего, баланс. Слишком высокая скорость обучения может ускорить начальное обучение, но рискует дестабилизировать модель или привести к пропускам оптимальных решений. Слишком низкая замедлит процесс и, как ни странно, тоже помешает обучению или переобучит вашу LoRa. Оптимальный диапазон обычно лежит между 1e-4 и 5e-5.

Аналогично с эпохами: прогонять данные слишком много раз значит рисковать тем, что модель просто "зазубрит" датасет, потеряв способность к обобщению. Недобор эпох грозит недообучением, это когда модель так и не улавливает нужные паттерны.

Но вот, вы разобрались с эпохами и скоростью обучения и добрались до специфичных параметров LoRA, например - ранг. Это один из ключевых параметров, он определяет размерность "адаптеров", добавляемых к модели.

Больший ранг дает больше "места" для обучения, но требует больше памяти и времени. Следующий после ранга: lora_alpha. Это своего рода усилитель для этих адаптеров. Часто его ставят равным рангу или удваивают, чтобы усилить влияние дообученных весов.

Unsloth предлагает в своих ноутбуках отличные дефолтные параметры, основанные на большом накопленном опыте файнтюна моделей и предлагает проверенные решения для управления ресурсами и стабильностью.

Подбор гиперпараметров — это всегда итеративный процесс. Экспериментируйте, сверяйтесь с лучшими практиками, и тогда ваши дообученные модели покажут наилучшие результаты.

🔜 Читать гайд полностью


#AI #ML #LLM #Tutorial #LoRA #Unsloth
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ OpenAI расширяет возможности ChatGPT Pro.

OpenAI запустила Search Connectors для ChatGPT Pro и Team, функцию, которая напрямую связывает облачные хранилища (Google Drive, Dropbox и OneDrive) с интерфейсом чата. Теперь пользователи могут искать, анализировать и обобщать документы, не загружая их вручную.

Лимит файлов на проект для Pro-подписчиков вырос с 20 до 40, а поддержка охватывает 12 сервисов, включая GitHub, Gmail и Outlook. Пока новинка доступна за пределами ЕС, Великобритании и Швейцарии.
Open AI в сети Х

✔️ Google открыла доступ к Imagen 4.

Imagen 4, усовершенствованные модели генерации изображений по текстовым запросам, стали доступны в двух версиях: базовая Imagen 4 (4 цента за изображение) для повседневных задач и Imagen 4 Ultra (6 центов) с повышенной детализацией и точностью исполнения инструкций. Обе модели доступны в Gemini API для платных пользователей, а также в ограниченном бесплатном тестировании через Google AI Studio.

Разработчики обещают улучшенное отображение текста на картинках и расширение тарифных планов в ближайшие недели. Все сгенерированные изображения получат скрытый цифровой водяной знак SynthID.
developers.googleblog.com

✔️ HPE и NVIDIA представили новую линейку решений для корпоративного ИИ.

HPE и NVIDIA анонсировали совместные решения для создания «фабрик искусственного интеллекта» на базе модульной инфраструктуры. В линейку вошли серверы HPE ProLiant DL380a Gen12 с GPU NVIDIA RTX PRO 6000 Blackwell, которые предлагают универсальную платформу для генеративного и промышленного ИИ.

Также был представлен HPE Private Cloud AI — готовое решение для быстрого внедрения ИИ, совместимое с фреймворком NVIDIA Enterprise AI Factory. Для финансового сектора планируется тестирование агентного ИИ с Accenture, а 26 новых партнеров расширят экосистему HPE, добавив 70 преднастроенных сценариев: от детекции мошенничества до кибербезопасности. Решения доступны для заказа, а система HPE Compute XD690 с GPU Blackwell Ultra начнет отгружаться в октябре.
blogs.nvidia.com

✔️ Google DeepMind представила AlphaGenome.

AlphaGenome — нейросеть, которая предсказывает, как мутации в ДНК влияют на регуляцию генов. Модель обрабатывает участки длиной до миллиона пар оснований, анализируя их на уровне отдельных «букв» и оценивая тысячи молекулярных свойств: активность генов, сплайсинг РНК, доступность участков ДНК.

AlphaGenome сочетает сверточные слои для поиска коротких паттернов и трансформеры для анализа длинных последовательностей. Одна из ключевых особенностей - точное моделирование сплайс-сайтов, важное для изучения редких заболеваний.

Модель превзошла аналоги в 22 из 24 тестов, предсказывая как структуру ДНК, так и эффекты вариантов. Доступ к AlphaGenome открыт через API для некоммерческих проектов.
deepmind.google

✔️ LongWriter-Zero: модель, которая пишет длинные тексты благодаря RL.

Группа исследователей из Сингапура и Китая представила LongWriter-Zero, модель, которая генерирует тексты длиной более 10 тысяч слов, обучаясь только через RL, без использования синтетических данных. Модель опирается на три специализированных «наградных» алгоритма, оценивающих структуру, качество и длину текста, а также уникальный метод «усреднения преимущества», который балансирует приоритеты между ними.

LongWriter-Zero использует «промты-размышления»: перед написанием модель планирует структуру текста, улучшая его связность. Бенчмарки показали рост эффективности с 700 до 1200 поинтов Elo. Однако у модели есть слабые места: она склонна к повторам и переиспользованию слов, которые система поощряет в процессе обучения.
Модель и датасет доступны на Hugging Face.
huggingface.co

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Новое исследование Anthropic: как люди используют Claude для эмоциональной поддержки, советов и общения

Ключевые выводы :
- Большинство чатов с ИИ (97%) посвящены практическим задачам — код, планирование, поиск информации.
- Всего 2,9 % диалогов классифицированы как «эмоциональные», и всего 0,5 % — как ролевые или «компаньонские» беседы.

🔜 Тематика аффективных чатов (это диалоги с ИИ, в которых ключевую роль играют эмоции и эмоциональная поддержка) невероятно разнообразна, пользователи запрашивали:
**Это исследование: типичные темы и запросы в аффективных беседах с Claude**

Запросы:
Советы по межличностным вопросам — 2,3 % всех бесед
3,8 % — улучшение устных и письменных коммуникативных навыков
• 3,5 % — преодоление сложностей в романтических отношениях
• 2,2 % — анализ психологической динамики в паре
• 1,4 % — решение задач воспитания детей
• 1,3 % — профессиональные переходы и неопределённость в карьере
• 1,0 % — несоответствие сигналов в личных отношениях

Коучинг — 1,1 % всех бесед
• 4,5 % — разработка персональных стратегий развития и роста
• 2,5 % — философские темы: смысл жизни, сознание
• 2,5 % — оптимизация поиска работы и карьерные переходы
• 1,6 % — принятие решений в условиях жизненных перемен
• 1,5 % — борьба с выгоранием и профессиональной усталостью
• 1,3 % — эмоциональные и коммуникативные трудности в отношениях

Психотерапия и консультирование — 0,3 % всех бесед
• 4,6 % — стратегии управления психическим здоровьем и благополучием
• 4,5 % — развитие профессиональных навыков для терапевтов
• 3,1 % — создание и ведение клинической документации
• 3,3 % — борьба с хроническими симптомами и тревожностью
• 2,9 % — экзистенциальный кризис и потеря смысла жизни
• 2,7 % — стресс на работе и профессиональные проблемы

Компаньонство — 0,3 % всех бесед
• 7,2 % — сложности и динамика в романтических отношениях
• 4,7 % — вопросы самоидентичности и экзистенциального смысла
• 3,2 % — формулировка поддерживающих сообщений при эмоциональном дистрессе
• 2,8 % — преодоление сильного эмоционального страдания
• 2,3 % — постоянное одиночество и трудности в налаживании связей
• 1,9 % — противостояние экзистенциальному страху и потере смысла

Большинство пользователей Клода готовы углубляться в сложные темы при условии стабильной эмпатии от ИИ.

➡️ «Отказы» (pushback) в эмоциональных чатах встречаются в менее 10 % случаев — почти всегда из соображений безопасности (диеты, самоповреждения, медицинская диагностика).

Эффект на настроение пользователя:
• При анализе первых и последних трёх сообщений аффективных диалогов отмечается явный рост положительных эмоций у пользователей.
• Пользователи завершают такие сессии с более оптимистичным настроем.

Методика исследования
- Проанализировано 4,5 млн диалогов пользователей Claude Free и Pro.
- Отобрано 131 484 «эмоциональных» диалога с помощью Clio — системы анонимного анализа от Anthropic.
- Исключены генеративные задачи (статьи, рассказы и т. п.), чтобы сфокусироваться на личном общении.

Что дальше?
- Исследователи планируют изучить долгосрочные психологические эффекты: от эмоциональной зависимости до изменения ожиданий в реальных отношениях.
- Расширить исследования на голосовые и видеоформаты.
- Выработать лучшие практики кризисной поддержки и направления к профессионалам.

➡️ Читать полностью

@ai_machinelearning_big_data


#Anthropic #claude
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 SQL знаете, BI — тоже. А что дальше?

Если хочется строить модели, тестировать гипотезы и оптимизировать процессы — вам в Data Science.

Тратить время на банальные Excel-таблицы смысла нет. На курсе «Data Scientist» от Академии Eduson вы сразу погрузитесь в машинное обучение.

🧠 За 9 месяцев обучения вы:
• В своём темпе пройдёте 240 уроков по EDA, A/B-тестам, BI, Git, Agile и feature engineering.
• Освоите Python, Pandas, NumPy, Scikit-learn, SQL, Jupyter Notebook, Matplotlib, Seaborn.
• Решите 11 реальных бизнес-кейсов из ритейла, кредитной оценки и других сфер.
• Потренируетесь в симуляторах SQL, Python, Jupyter.
• Получите удостоверение о повышении квалификации, подтверждённый «Сколково» диплом Eduson + помощь с трудоустройством.

✔️ Среди спикеров — эксперты-практики из Microsoft, «Сбера» и «Альфа-Банка». Они погрузят вас в современные требования к Data Science, включая тренды нейросетей и ChatGPT.

Личный куратор будет на связи 365 дней, а доступ ко всем материалам и их обновлениям — бессрочный.

Не бойтесь зависнуть без работы после обучения: Eduson возвращает деньги, если вы не получите оффер — это зафиксировано в договоре.

А пока в онлайн-школах несезон, пройти курс можно со скидкой 65% — оставьте заявку с промокодом DATA на сайте.

Реклама. ООО "Эдюсон". ИНН: 7729779476. Erid: 2W5zFJVzq9i
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
✔️ Microsoft и OpenAI конфликтуют из-за контроля над AGI.

Конфликт между Microsoft и OpenAI достиг критической точки: Microsoft блокирует планы OpenAI по реструктуризации перед IPO, требуя убрать спорный пункт о доступе к технологии AGI. Договор 2019 года разрешает OpenAI отключить Microsoft от своих продуктов, если AGI будет признан достигнутым. Это критерий, который Microsoft называет «маркетинговой болтовней». Вместо этого Microsoft предлагает заменить AGI на ASI (искусственный суперинтеллект), сдвинув планку в будущее.

OpenAI настаивает на сохранении контроля, опасаясь монополизации технологии. Microsoft, в свою очередь, хочет продлить права на ИИ после 2030 года и сократить свою долю в доходах OpenAI. Напряжение усилилось после провала модели Arrakis, которая должна была сэкономить деньги Microsoft, и попыток Microsoft создать ее альтернативы, Phi. Сейчас Microsoft грозит затянуть переговоры, чтобы сохранить выгоду, а OpenAI ищет поддержку у Oracle и Google.
theinformation.com

✔️ Anthropic запускает платформу для создания и запуска ИИ-приложений в Claude.

Anthropic представила новую функцию: теперь разработчики могут строить, размещать и делиться интерактивными приложениями на базе Claude, не заботясь о масштабировании или затратах. Пользователи таких приложений используют собственные подписки на API, а авторы не будут платить за это ни копейки.

Ограничения есть — пока нельзя подключать внешние API или использовать постоянное хранилище, но бета-тестирование открыто для всех тарифов.
anthropic.com

✔️ YouTube тестирует ИИ-карусель в поиске для Premium-пользователей.

Google внедряет в YouTube функцию, похожую на AI Overviews: при поисковых запросах, связанных с покупками, путешествиями или локальными событиями, пользователи увидят карусель с видео, миниатюрами и ИИ-генерируемым текстом. Пилотный проект запущен в США для случайных участников YouTube Premium, доступен до 30 июля на iOS и Android. Вверху карусели отображается крупное видео, под ним — дополнительные клипы и ответ ИИ на запрос.

Одновременно YouTube расширяет доступ к своему диалоговому ИИ-инструменту, который позволяет задавать вопросы о видео. Теперь он доступен не только Premium-подписчикам, но и некоторым обычным пользователям в США. Тестирование продолжится до конца июля, а дальнейшая судьба функций пока неизвестна.
blog.youtube

✔️ Palantir разработает ИИ-платформу для строительства ядерных реакторов.

Palantir создаст программную систему на основе ИИ для упрощения строительства атомных электростанций. Новый инструмент, "ядерная операционная система" (NOS), должен сократить сроки возведения реакторов и снизить затраты, эту потребность формирует рост спроса на стабильные источники энергии. Согласно соглашению, неназванная ядерная компания из Кентукки заплатит Palantir около $100 млн в течение пяти лет.

Инициатива поддерживается регуляторами: указы президента США призвали ускорить выдачу разрешений на новые АЭС и сократить бюрократические барьеры. Это совпадает с интересом инвесторов к ядерной энергетике как альтернативе ветру и солнцу.
reuters.com

✔️ Xiaomi представила умные очки с камерой и голосовым ассистентом.

Xiaomi анонсировала свои первые умные очки с ИИ, Xiaomi AI Glasses. Устройство получило 12-мегапиксельную камеру с электронной стабилизацией, четырехъядерный процессор Snapdragon AR1, микрофоны с костной передачей звука и фирменный голосовой ассистент Hyper Xiao Ai. В отличие от Ray-Ban, у Xiaomi нет дисплея, но есть уникальная функция: оплата через QR-коды Alipay голосом, которая появится в сентябре 2025 года по OTA-обновлению.

Аккумулятора хватает на 8,6 часов активного использования. Очки весят 40 грамм, поддерживают съемные линзы (включая электрохромные) и работают до 21 часа в режиме ожидания. Базовая версия стоит $280, а с затемненными линзами - примерно $420. Устройство, правда, оптимизировано под азиатские формы лица, это может ограничить глобальный запуск. На китайской площадке JD.com за первые часы предзаказ собрал 25 тысяч заявок.
roadtovr.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📌 Tencent выложила открытую модель — Hunyuan-A13B-Instruct на Hugging Face

💡 Особенности:
• 13 млрд параметров
• Поддержка длинного контекста — до 32,000 токенов
• Заточена на диалоги, код и reasoning
• Использует архитектуру SwiGLU, Multi-Query Attention, RoPE и другие современные оптимизации

📌 Хорошие результаты на бенчмарках:

🟠CMATH, GSM8k, MATH — >91 балла
🟠MBPP (код): 83.86 — топ-1
🟠EvalPlus (code reasoning): 78.64 — топ-2

📉 Слабые результаты на:

🟠SuperGPQA: 41.32
🟠GPQA: 49.12
🟠MultiPL-E: 69.33

Модель Hunyuan-A13B-Instruct:

🟢Конкурирует с Qwen3-A22B и DeepSeek R1 в большинстве задач

🟢Особенно сильна в reasoning, математике, кодировании и агентных задачах

🟢Слаба в General QA (GPQA, SuperGPQA)

✔️ По ряду метрик лучше моделей большего размера (Qwen2.5-72B)

Лицензия: Hunyuan Community License Agreement

🔗 Модель доступна на Hugging Face: https://huggingface.co/tencent/Hunyuan-A13B-Instruct

@ai_machinelearning_big_data

#ml #ai #Hunyuan #tencent
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/29 18:26:50
Back to Top
HTML Embed Code: