Те, кто работает с синтезом речи, знают, что авторегрессионные трансформерные модели, хоть и хороши для генерации речи из текста с нуля, но создают кучу проблем, когда нужно редактирование. Стандартные методы, в виде полной перегенерации предложения, обходятся дорого по ресурсам и часто приводят к изменению интонации или ритма.
Замена отдельного слова обычно оставляет неприятные «склейки» на границах, а перегенерация с середины фразы может испортить уже существующую часть. Все это бьет по естественности и связности звучания.
PlayAI выпустила PlayDiffusion 1.0 – диффузионную модель для редактирования речи, которая умеет изменять нужные участки аудио, сохраняя при этом общую гладкость и характеристики голоса. Причем модель пригодна как для реальной речи, так и для аудио, сгенерированного другими TTS-моделями.
В PlayDiffusion аудиопоток кодируется в дискретное пространство, превращаясь в более компактную последовательность токенов. Затем, тот сегмент, который требует модификации маскируется.
После этого задействуется сама диффузионная модель. Она, опираясь на обновленный текстовый контент, «восстанавливает» замаскированную область, убирая шум. На выходе последовательность токенов снова преобразуется в полноценный звук с помощью декодера BigVGAN.
Чтобы добиться таких результатов, PlayAI взяли за основу текстовую трансформерную архитектуру и внесли несколько ключевых модификаций:
Интересно, что если замаскировать вообще всю аудиодорожку, PlayDiffusion может работать как TTS. В отличие от авторегрессионных моделей, которые генерируют каждый токен последовательно, опираясь на предыдущие, диффузионные модели генерят все токены одновременно, а затем уточняют их за фиксированное число шагов.
Например, для генерации 20 секунд аудио кодеком на 50 Гц авторегрессионной модели потребуется 1000 шагов. PlayDiffusion же способен выдать все 1000 токенов сразу и уточнить их всего за 20 итераций – это до 50 раз эффективнее по количеству шагов генерации.
@ai_machinelearning_big_data
#AI #ML #TTS #Inpainting #PlayDiffusion #PlayAI
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨 xAI привлекает $5 млрд через выпуск облигаций + $300 млн через продажу акций при оценке в $113 млрд
Компания Илона Маска xAI проводит две крупные финансовые операции:
Выпуск долговых обязательств на $5 млрд и продажу акций на $300 млн .
Подробности:
🔹 Облигации ($5 млрд)
Выпуск организует Morgan Stanley.
Средства пойдут на общие корпоративные нужды — например, развитие технологий, инфраструктуры или покрытие издержек.
🔹 Продажа акций ($300 млн)
Это вторичная эмиссия — компания не выпускает новые акции, а позволяет сотрудникам продать свои доли инвесторам , получив ликвидность (то есть выручку за свой "старый" пакет).
🔹 Оценка компании — $113 млрд
Это почти в 3,5 раза выше внутренней стоимости X (бывшего Twitter), который был куплен за $33 млрд.
Маск делает ставку на финансовые рынки, чтобы ускорить развитие xAI — раньше, чем компания представит зрелые решения.
Такой агрессивный подход может быть рискованным, но типичен для амбициозных технологических проектов и самого Маска.
Посмотрим, сыграет ли ставка 🤑
https://www.reuters.com/business/musks-xai-seeks-113-billion-valuation-300-million-share-sale-ft-reports-2025-06-02/
@ai_machinelearning_big_data
#elonmusk #grok #xai
Компания Илона Маска xAI проводит две крупные финансовые операции:
Выпуск долговых обязательств на $5 млрд и продажу акций на $300 млн .
Подробности:
🔹 Облигации ($5 млрд)
Выпуск организует Morgan Stanley.
Средства пойдут на общие корпоративные нужды — например, развитие технологий, инфраструктуры или покрытие издержек.
🔹 Продажа акций ($300 млн)
Это вторичная эмиссия — компания не выпускает новые акции, а позволяет сотрудникам продать свои доли инвесторам , получив ликвидность (то есть выручку за свой "старый" пакет).
🔹 Оценка компании — $113 млрд
Это почти в 3,5 раза выше внутренней стоимости X (бывшего Twitter), который был куплен за $33 млрд.
Маск делает ставку на финансовые рынки, чтобы ускорить развитие xAI — раньше, чем компания представит зрелые решения.
Такой агрессивный подход может быть рискованным, но типичен для амбициозных технологических проектов и самого Маска.
Посмотрим, сыграет ли ставка 🤑
https://www.reuters.com/business/musks-xai-seeks-113-billion-valuation-300-million-share-sale-ft-reports-2025-06-02/
@ai_machinelearning_big_data
#elonmusk #grok #xai
Media is too big
VIEW IN TELEGRAM
Microsoft анонсировала Bing Video Creator, который превращает текстовые описания в короткие видео. Он основан на технологии Sora и доступен бесплатно через мобильное приложение Bing, а позже появится на десктопе и в Copilot Search. Пользователям нужно просто ввести запрос и ИИ сгенерирует 5-секундный ролик в вертикальном формате. (16:9 добавят позже).
За один запрос генерируется 3 видео, с выбором между быстрой и стандартной генерацией (первые 10 быстрых — бесплатно, далее за баллы Microsoft Rewards). Созданные видео будут храниться до 90 дней. Готовые ролики можно скачивать, делиться в соцсетях или по ссылке. Сервис стартует глобально, кроме Китая и России.
blogs.bing.com
Стартап H представил три ИИ-агента: Runner, Surfer и Tester. Runner автоматизирует задачи: написание писем, и взаимодействует с приложениями. Бета-версия доступна бесплатно, но с ограничениями. Surfer — бесплатный инструмент для автономного серфинга в интернете. Tester (бета, платный) создан для тестирования сайтов: проверяет функционал меню, языковые настройки и валюту.
Стартап основан бывшими сотрудниками Google DeepMind год назад с инвестициями в €202 млн от Bernard Arnault, Amazon и Eric Schmidt.
H Company в сети X (ex-Twitter)
MIT и Stanford создали SketchAgent, систему, которая превращает текстовые запросы в наброски, имитируя человеческий процесс рисования. Вместо обучения на базах данных, модель использует «язык рисования»: скетч разбивается на последовательность штрихов с пояснениями. Это позволяет генерировать эскизы предварительной тренировки.
Пока система не справляется с логотипами или сложными фигурами, а иногда интерпретирует планы рисования ошибочно. Ресерчеры планируют улучшить модель через синтетические данные и упростить интерфейс. В будущем инструмент может стать помощником в образовании или дизайне.
news.mit.edu
Firecrawl прислушался к просьбам сообщества, которое давно просило функцию автоматизации с поиском. Теперь вместо двух этапов (сначала поиск, затем парсинг), все делается за раз. /search позиционируется как более простой и универсальный инструмент для работы с веб-данными. Использовать его можно через API, сторонние приложения или интерактивный Playground.
Сервис предлагает гибкую настройку: можно указать язык, регион, временной диапазон или формат вывода. Интеграция уже доступна в Zapier, n8n, MCP и других платформах, а в документации описаны примеры использования.
Команда также сообщила, что альфа-версии /llmstxt и /deep-research перестанут обновляться с 30 июня 2025 года, но останутся рабочими.
firecrawl.dev
Тайваньская фабрика вот-вот начнет выпуск 2-нм чипов, установив рекордный ценник — до $30 тыс. за пластину (а улучшенные версии подорожают до $45 тыс.). Это делает технологии доступными лишь для топовых клиентов AMD, Apple и MediaTek уже вложились: процессоры A20/A20 Pro для iPhone 18, M6 для Mac, новых серверов EPYC и флагманских смартфонов Mediatek 2025 года будут на этой архитектуре.
По данным поставщиков, мощности TSMC растут. К концу года выпуск достигнет 30 тыс. пластин в месяц. Эксперты отмечают: лидерство фабрики держится не на одном оборудовании, но еще и на опыте. Накопленные знания о производственных тонкостях трудно повторить.
ctee.com.tw
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
📂 Подборка каналов по ML и Data Science
Если вы не только строите модели, но и ищете точки роста, то присмотритесь к нашей подборке. Собрали каналы мощных инженеров, которые рассказывают о технологиях, кейсах и найме.
Все авторы — практикующие специалисты, которые делятся карьерным опытом в анализе данных. Подписывайтесь на папку целиком или отдельные каналы, чтобы быть в курсе трендов рынка.
Если вы не только строите модели, но и ищете точки роста, то присмотритесь к нашей подборке. Собрали каналы мощных инженеров, которые рассказывают о технологиях, кейсах и найме.
Все авторы — практикующие специалисты, которые делятся карьерным опытом в анализе данных. Подписывайтесь на папку целиком или отдельные каналы, чтобы быть в курсе трендов рынка.
Мультимодальная модель от NVIDIA уверенно занимает первое место на OCRBench v2, показав лучшую точность парсинга документов среди всех моделей.
📄 Что это такое:
Llama Nemotron Nano VL — лёгкая vision-language модель для интеллектуальной обработки документов (IDP), которая:
• разбирает PDF
• вытаскивает таблицы
• парсит графики и диаграммы
• работает на одной GPU
– Вопрос-ответ по документам
– Извлечение таблиц
– Анализ графиков
– Понимание диаграмм и дешбордов
📊 OCRBench v2 — крупнейший двухъязычный бенчмарк для визуального анализа текста, и именно NVIDIA Nano VL показывает лучший результат.
@ai_machinelearning_big_data
#Nemotron #NVIDIA
Please open Telegram to view this post
VIEW IN TELEGRAM
MWS GPT доступна в облаке с быстрым масштабированием и on-premise.
📄 Что дает платформа:
• Доступ к единой среде для сравнивания и тестирования моделей - в арсенале больше 40 LLM, включая Open Source
• Автоматизацию различных сценариев - за это отвечает поддержка мультиагентных архитектур в low-code-конструкторе
• ИИ-анализ объемных текстов и изображений благодаря RAG и Vision в ChatUI
• Создание голосовых ассистентов, а также обучение готовых языковых моделей под конкретные задачи благодаря FineTune
Последний инструмент пока доступен ограниченному числу пользователей, но скоро откроется для всех - следите за обновлениями.
@ai_machinelearning_big_data
Please open Telegram to view this post
VIEW IN TELEGRAM
Holo1 — новое семейство open-source моделей от H Company, созданных специально для понимания и автоматизации веб-интерфейсов.
Это Action VLM-модели, которые могут "видеть" сайт, распознавать кнопки, поля, меню и действовать, как реальный пользователь.
Доступно
• Holo1-3B и Holo1-7B — последняя достигает 76.2% точности на UI-бенчмарках (лучший результат среди компактных моделей)
• WebClick — датасет из 1 639 задач, имитирующих поведение человека в интерфейсе
💸 И главное:
Автоматизация реальных веб-задач (читать, кликать, вводить) с точностью 92.2% всего за $0.13 за задачу. Раньше за такую точность приходилось переплачивать в разы.
⚙️ Surfer-H — ИИ, который сам "читаeт", "думаeт", "кликаeт" и "проверяет"
Построен на базе Holo1 и работает прямо в браузере — никаких API и костылей.
Состоит из 3 модулей:
1. Policy — планирует поведение агента
2. Localizer — находит нужные элементы на экране
3. Validator — проверяет, всё ли сделано правильно
🔗 Hugging Face
@ai_machinelearning_big_dat
#Holo #web
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ChatGPT для корпоративных пользователей теперь поддерживает интеграцию с Dropbox, Box, SharePoint, OneDrive и Google Drive, позволяя анализировать данные из корпоративных хранилищ в реальном времени.
Плюс, добавили функцию record mode - это запись встреч с автоматической генерацией заметок, таймкодами и выделением задач. Это как у Zoom и Notion, но с возможностью превращать темы обсуждений в структурированные документы в Canvas.
Для Deep Research стали доступны бета-коннекторы к HubSpot, Linear и инструментам Microsoft/Google. А еще Pro, Team и Enterprise пользователи получили доступ к MCP .
OpenAI в сети X (ex-Twitter)
Anthropic обновила подписку Claude Pro, добавив в нее несколько полезных функций для тех, кто работает с кодом. Подписчикам плана стал доступен Claude Code - инструмент для работы с небольшими проектами (до 1000 строк кода). Правда, лимиты остаются: около 10-40 запросов каждые 5 часов, а модель Opus 4 здесь не поддерживается.
Еще одна возможность - Claude-Squad. Он позволяет запускать несколько агентов одновременно. Интеграция с VS Code и Cursor уже есть, а Figma добавила официальный MCP-сервер, который активируется в настройках.
Anthropic в сети Х (ex-Twitter)
OpenAudio (создатели FishSpeech) представила TTS-модель S1, способную воссоздавать естественную речь с эмоциями и акцентами. Обученная на 2 млн часов аудио, она использует архитектуру Qwen3 с 4 млрд параметров, RLHF-оптимизацию и кодек, подобный Descript Audio Codec.
Модель поддерживает метки точного контроля: от злых интонаций до шепота или смеха. S1 работает на 12 языках, включая русский. Старшая модель (4B) доступна только как сервис по цене $0.8 за час синтеза, а S1-mini (0.5 млрд параметров) опубликована для некоммерческого использования на HuggingFace.
openaudio.com
Исследователи подозревают, что часть обучающих данных модели DeepSeek R1-0528 могла быть взята из инференса Google Gemini. Независимые эксперты заметили сходство в выборе слов и логике работы. Модель «думает» так же, как Gemini.
Ранее DeepSeek уже обвиняли в копировании данных OpenAI. Их предыдущая версия, V3, иногда выдавала себя за ChatGPT. Microsoft и OpenAI тогда заявили, что через API-аккаунты компании якобы утекали данные.
В ответ на утечки усилили защиту: Google и Anthropic теперь скрывают процесс размышлений своих моделей, чтобы затруднить копирование.
techcrunch.com
MIT через стартап Themis AI решила ключевую проблему современных ИИ-систем: их неспособность честно признать, когда они не уверены в ответе. Платформа Capsa модифицирует любую ML-модель, выявляя ненадежные выводы. Она анализирует паттерны обработки данных, сигнализирующие о неоднозначности, неполноте информации или скрытых смещениях.
Capsa может показать, основан ли прогноз на реальных данных или это чистая спекуляция модели. Так же она помогает большим языковым моделям "самоотчитываться" о своей уверенности в каждом ответе, отсеивая "галлюцинации".
Технология уже тестируется в телекоме, нефтегазе и фарме.
news.mit.edu
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Это реклама открытой технологической конференции от Сбера GigaConf 2025.
На ней технари рассказывают сложные вещи о прикладном применение генеративного искусственного интеллекта.
Контент конференции будет сложно понять простому обывателю, а разработчиков и членов инженерных команд мы приглашаем пройти регистрацию на сайте.
GigaConf 2025 // Москва, 25 июня
https://gigaconf.ru/
На ней технари рассказывают сложные вещи о прикладном применение генеративного искусственного интеллекта.
Контент конференции будет сложно понять простому обывателю, а разработчиков и членов инженерных команд мы приглашаем пройти регистрацию на сайте.
GigaConf 2025 // Москва, 25 июня
https://gigaconf.ru/
Новая стабильная версия Cursor, и в ней появилось много обновлений, которые делают работу с кодом удобнее.
Вот что стоит отметить:
🐞 Bugbot
Автоматически проверяет Pull Request'ы на баги и предлагает исправления.
Можно внести правку прямо в редакторе — в один клик.
🧠 Memory (beta)
Cursor теперь запоминает контекст проекта, что помогает при командной работе и упрощает навигацию по коду.
⚙️ One-Click MCP Setup
Настройка подключения к Model Context Protocol — теперь через одну кнопку, без ручной конфигурации.
• Возможность редактировать несколько мест в коде одновременно
• Поддержка таблиц, Markdown и диаграмм Mermaid в чате
• Обновлённые настройки и админ-панель
• Фоновая работа агентов — можно интегрировать их со Slack и Jupyter Notebooks
Cursor постепенно становится более удобной средой для совместной работы с ИИ-помощником.
https://www.cursor.com/changelog
@ai_machinelearning_big_data
#CursorAI #AIcoding #DevTools #Jupyter #CodeAssistant
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Reddit подаёт в суд на Anthropic за незаконное использование данных
Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.
Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"
📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”
😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?
Судебная битва за контент только начинается.
https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd
@ai_machinelearning_big_data
#reddit #Anthropic #ai #claude
Reddit обвиняет Anthropic в массовом парсинге сайта и коммерческом использовании данных.
Согласно иску:
🔹 Anthropic парсили Reddit более 100 000 раз, несмотря на заверения, об остановке сбора данных
🔹 Anthropic использовали пользовательский контент в коммерческих целях без лицензии
🔹 Reddit утверждает: это прямое нарушение соглашения и "поведение не в духе компании, называющей себя белым рыцарем AI-индустрии"
📣 Цитата из иска:
> “Reddit — одно из последних по-настоящему человеческих мест в интернете. И то, как поступает Anthropic, недопустимо.”
😬 На фоне миллиардных сделок с Google и OpenAI, это может стать прецедентом: что такое "честное использование" данных для ИИ?
Судебная битва за контент только начинается.
https://www.wsj.com/tech/ai/reddit-lawsuit-anthropic-ai-3b9624dd
@ai_machinelearning_big_data
#reddit #Anthropic #ai #claude
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡 Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡 GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡 Modelscope: https://modelscope.cn/organization/qwen
@ai_machinelearning_big_data
#qwen
✨ Главное:
✅ Модели на 0.6B, 4B и 8B параметров
✅ Поддержка 119 языков
✅ Sota на MMTEB, MTEB и MTEB-Code
✅ Открытый код на Hugging Face, GitHub и ModelScope
✅ Доступ через API на Alibaba Cloud
🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.
@ai_machinelearning_big_data
#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM