Telegram Group Search
🚀 AGI уже в 2025?

Сэм Альтман (OpenAI) и Илон Маск (xAI) — дали самые смелые прогнозы в индустрии.

Оба уверенно заявляют: AGI появится до конца 2025 года.

🧠 Альтман: "Теперь мы уверены, что знаем, как построить AGI"
This media is not supported in your browser
VIEW IN TELEGRAM
🧠 Видение идеального ИИ от Сэма Альтмана (OpenAI):

> "Крошечная модель с сверхчеловеческим мышлением, контекстом на 1 триллион токенов и доступом ко всем возможным инструментам."

Звучит как научная фантастика? Возможно.
Но это именно то, к чему стремится OpenAI.

🤔 Интересно — не об этом ли «крошечном сверхразумном» ИИ пойдёт речь в загадочном устройстве от OpenAI, над которым команда работает последние месяцы?

📱 Миниатюрная железка, подключённая к облаку, которая не просто отвечает, а понимает, планирует и действует.
А сегодня o3-pro уже начинает появляться у некоторых пользователей.

Похоже, запуск пошёл — держитесь крепче.
Сегодня тот самый день.

@machinelearning_interview - мл карьера
Forwarded from Machinelearning
⚡️Релиз Qwen3-Embedding и Qwen3-Reranker

Главное:
Модели на 0.6B, 4B и 8B параметров
Поддержка 119 языков
Sota на MMTEB, MTEB и MTEB-Code
Открытый код на Hugging Face, GitHub и ModelScope
Доступ через API на Alibaba Cloud

🔍 Применение:
Поиск документов, RAG, классификация, поиск кода и др.

🟡 Qwen3-Embedding: https://huggingface.co/collections/Qwen/qwen3-embedding-6841b2055b99c44d9a4c371f
🟡Qwen3-Reranker: https://huggingface.co/collections/Qwen/qwen3-reranker-6841b22d0192d7ade9cdefea
🟡GitHub: https://github.com/QwenLM/Qwen3-Embedding
🟡Modelscope: https://modelscope.cn/organization/qwen

@ai_machinelearning_big_data

#qwen
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
🌟 Google опенсорснул стек Deep Search.

Google выложил в открытый доступ на Github фуллстек-проект, который превращает пользовательские запросы в глубокие исследования с помощью Gemini. Его главная задача - находить информацию в интернете, анализировать ее и выдавать ответы с ссылками на источники, используя комбинацию React-интерфейса и бэкенда на базе LangGraph.

Проект включает в себя все необходимое: и фронтенд, и бэкенд.

🟢Фронтенд на React и он про взаимодействие с пользователем (принимает запросы и отображает результаты.)

🟢Бэкенд, на LangGraph, управляет «мозгом» системы: здесь работает агент, который генерирует поисковые запросы, анализирует результаты и решает, нужно ли уточнять данные.

Внутри бэкенда есть модуль, который отвечает за запуск цикла: сначала Gemini создает начальные запросы, затем система ищет информацию через API Google Search, оценивает, хватает ли данных, и при необходимости повторяет процесс.

Важная часть пайплайна — рефлексия. После каждого поиска агент проверяет, закрыты ли все «пробелы» в знаниях. Если информации недостаточно, он генерирует новые вопросы и повторяет цикл, пока не соберёт достаточно данных для ответа.

Проект адаптирован к продакшену, в нем используются Redis (для стриминга результатов в реальном времени) и PostgreSQL (для хранения истории диалогов и управления задачами). Это позволяет системе не терять прогресс даже при перезагрузках.

⚠️ Для практического использования потребуются API-ключи к Google Gemini и LangSmith.


📌Лицензирование: Apache 2.0 License.


🖥 GitHub


@ai_machinelearning_big_data

#AI #ML #DeepSearch #Google #Gemini #LangGraph
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🚀 Теперь можно запускать модели Hugging Face прямо в Google Colab — бесплатно!

Больше не нужно настраивать окружение вручную. Просто заходишь на страницу модели — и нажимаешь "Open in Colab". Всё готово для запуска за секунды.

Отлично подходит для:
- Быстрого теста модели
- Прототипирования и экспериментов
- Обучения и демонстраций


💡 Бонус для разработчиков:

Добавь файл notebook.ipynb в свой репозиторий модели — и Hugging Face автоматически подхватит его.
Пользователи смогут запускать твой пример сразу, без копирования кода!

🔥 Работает с Google Colab — бесплатно, быстро, удобно.

#HuggingFace #Colab #ML #AI #OpenSource #DeepLearning

✔️ Подробнее

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
🧠 ShapeLLM-Omni — первая LLM, которая понимает форму, текст и 3D

ShapeLLM-Omni — это мультимодальная модель от JAMESYJL, способная обрабатывать не только текст и изображения, но и 3D-объекты, точки, сетки, CAD, и даже тактильные карты. Она объединяет визуальное, пространственное и языковое представление.

🚀 Что умеет:

🔤 Понимает текстовые запросы
📦 Анализирует 3D-модели, включая point clouds и mesh
Поддерживает тактильные данные (touch maps)
🧰 Универсальный encoder для всех типов данных
🤖 Основана на сильной Vision+LLM архитектуре
🧩 Поддерживает задачи: классификация, QA, описание 3D-сцен

🧪 Пример использования:
Модель может ответить на вопрос:
"Какой это инструмент?" — анализируя 3D-модель объекта.

📦 Форматы входа:
• Point cloud
• Mesh (.obj)
• Voxel
• Text prompt
• Touch (tactile image)

🔬 Для чего подходит:

• Робототехника
• AR/VR
• 3D-дизайн и CAD
• Мультимодальные агенты
• Образование и техподдержка по 3D-объектам

🔗 GitHub: github.com/JAMESYJL/ShapeLLM-Omni

💡 ShapeLLM-Omni — это новый шаг к универсальным LLM, которые понимают форму, а не только текст и пиксели.

@machinelearning_interview
🧠 Одна из лучших вещей, которую можно прочитать, чтобы понять PPO (Proximal Policy Optimization)

Как правильно реализовать PPO? 37 деталей, которые почти никто не указывает

Полезное чтиво Исследователи из ICLR собрали 37 практических нюансов, без которых реализация Proximal Policy Optimization (PPO) часто оказывается нестабильной или неэффективной.

🔧 В статье разобраны:
• 13 базовых деталей — без них PPO просто не будет работать стабильно
• 9 дополнительных при работе с изображениями (например, Atari)
• 9 нюансов для задач с непрерывным действием (робототехника и физика)
• 6 универсальных оптимизаций, улучшающих сходимость и результат

💡 Примеры включают:
– обработку rewards перед обучением
– правильное использование GAE
– нормализацию входных данных
– трюки с масштабированием advantages
– обработку градиентов и dropout

📌 Почему это важно:
Эти детали влияют на производительность и стабильность PPO, но почти всегда остаются "между строк" в статьях и туториалах. Без них модель может "учиться", но не достигать ожидаемых результатов.

🔗 Оригинальный разбор + код: https://iclr-blog-track.github.io/2022/03/25/ppo-implementation-details/

#ReinforcementLearning #PPO #RL #DeepLearning #ICLR
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Please open Telegram to view this post
VIEW IN TELEGRAM
Совсем скоро откроется подача документов на магистерские программы — приглашаем на презентацию магистратуры по ИИ от МТС и ФКН ВШЭ!

Самое важное:
- 30 оплачиваемых мест от МТС;
- Занятия ведут преподаватели ВШЭ и действующие эксперты-практики из МТС и MTS AI, а для проектов можно использовать виртуальную инфраструктуру компании;
- В канале абитуриентов делимся новостями и помогаем с подготовкой к поступлению.

Презентация пройдет 19 июня в 18:00:

- Расскажем о программе и познакомим с преподавателями;
- Разберем, как устроен конкурс портфолио и как подготовиться к вступительным;
- Ответим на все вопросы.

А еще, если вы любите участвовать в соревнованиях на Kaggle — расскажем как получить бонус на этапе собеседования

Подробнее о программе и регистрация на встречу на сайте. Ждем каждого!
🚀 Ultimate Development Partner for Claude: Gemini MCP Server

🌟 Что это?
Это сервер Model Context Protocol (MCP), который соединяет Claude с Google Gemini 2.5 Pro, предоставляя:
1M токенов контекста — анализ целых репозиториев, сотен файлов.
Глубокую экспертизу — проверка кода, архитектуры, поиск багов.
Динамическую коллаборацию — Gemini запрашивает у Claude доп. контекст.

💡 Зачем это разработчикам?
Claude умён, но иногда нужен «старший разработчик» для:

Валидации идей (chat) → Второе мнение по архитектуре, технологиям.

Ревью кода (codereview) → Поиск уязвимостей, оптимизация.

Предкоммитной проверки (precommit) → Поиск edge-кейсов, соответствие ТЗ.

Сложного дебага (debug) → Анализ логов, root cause.

Глубокого анализа (analyze) → Исследование больших проектов

🚀 Преимущества
Обход лимитов MCP — автоматическая обработка больших промптов как файлов.
Умная работа с файлами — фильтрация, управление токенами.
Интеграция с Docker — 5 минут на запуск.

🔗 Репозиторий: github.com/BeehiveInnovations/gemini-mcp-server
🎙️ TensorFlowTTS — открытая библиотека для синтеза речи на TensorFlow 2, объединяющая современные архитектуры вроде Tacotron-2, FastSpeech2 и MelGAN. Проект позволяет не только экспериментировать с нейросетевым синтезом, но и развернуть готовое решение на мобильных устройствах благодаря поддержке TFLite.

Проект имеет унифицированный интерфейсе для разных моделей, что упрощает сравнение и комбинирование архитектур. Библиотека уже поддерживает несколько языков (английский, китайский, корейский, французский, немецкий) и предлагает инструменты для адаптации под новые языки.

🤖 GitHub

@machinelearning_interview
📚 9 AI-гайдов от OpenAI, Google и Anthropic

🚀 Всё — про агентов, промпты, бизнес и реальные use-case’ы. Сохрани себе!

1. AI в бизнесе (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/ai-in-the-enterprise.pdf

2. Практика: как строить агентов (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/a-practical-guide-to-building-agents.pdf

3. Prompting 101 (Google)
📄 https://services.google.com/fh/files/misc/gemini-for-google-workspace-prompting-guide-101.pdf

4. Как масштабировать AI use-case’ы (OpenAI)
📄 https://cdn.openai.com/business-guides-and-resources/identifying-and-scaling-ai-use-cases.pdf

5. Building Effective Agents (Anthropic)
🔗 https://www.anthropic.com/engineering/building-effective-agents

6. Prompt Engineering (Anthropic)
🔗 https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview

7. Agents Companion (whitepaper)
📄 https://kaggle.com/whitepaper-agent-companion

8. 601 AI Use Cases (Google)
📄 https://cloud.google.com/transform/101-real-world-generative-ai-use-cases-from-industry-leaders

9. Prompt Engineering от Google
📄 https://kaggle.com/whitepaper-prompt-engineering

Лучшие практики от лидеров индустрии.
🤖 Почему модели лучше отвечают на вопросы по тексту, чем по изображениям — и как это исправить?

Vision-Language модели (VLMs) сильно хуже справляются с вопросами про картинки (*«Сколько книг на изображении?»*), чем с теми же вопросами по тексту (*«Сколько книг в описании?»*). И нашли способ улучшить результат на +4.6%, закрыв треть разрыва между модальностями! Вот что они сделали 👇

🔬 Они разделили вход на три части:
Данные (изображение или текст),
Вопрос (*how many…*),
Ответ (предсказание последнего слова).

🧠 Что нашли:

1️⃣ Мозги у модели разные для текста и картинок — цепочки внимания и нейроны почти не совпадают (всего ~18%). Особенно в частях, где обрабатываются данные и вопрос.

2️⃣ Часть, отвечающая за генерацию ответа, похожа — можно даже подменить её между модальностями, и модель почти не теряет в точности.

3️⃣ Часть, которая "смотрит" на данные — строго модальная. Визуальный поток информации идёт по другому пути, и замена разрушает результат.

4️⃣ Проблема в том, что изображение “становится понятным” слишком поздно. В поздних слоях визуальные данные уже похожи на текстовые — но модель не успевает этим воспользоваться.

💡 Решение: "перемотать" визуальные данные из поздних слоёв обратно в ранние (back-patching) — это помогает модели раньше "понять" картинку.

📈 Результат: +4.6% точности при ответах на вопросы по изображению — и треть разрыва с текстом закрыта!

🧩 Вывод: архитектура не виновата. Просто визуальные данные нужно правильно "подать" — и VLM начинает думать почти как человек.

🔜 Читать статью полностью

@machinelearning_interview
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Media is too big
VIEW IN TELEGRAM
✔️ В Пекине запустят первый в мире 4S-центр для роботов с воплощенным ИИ.

По аналогии с автосалонами, робототехнический 4S будет предлагать полный цикл: продажи (Sales), сервис (Service), запчасти (Spare parts) и консультации/анализ (Surveys). Планируется зона с демонстрацией роботов в реалистичных сценариях – можно будет всё пощупать руками и увидеть их возможности в деле. Плюс создадут быструю сеть поставки комплектующих по стране и соберут профильную команду для сборки, ремонта и обслуживания машин.

Первыми партнерами станут несколько лидеров сферы: UBTECH и Galaxea. Откроется центр в августе на базе промпарка в районе Ичжуан на юге столицы.
english.news.cn

✔️ Браузер Dia выходит в бета-версию.

The Browser Company открыл доступ к бета-версии браузера Dia (по инвайтам). Dia позиционируется как решение, где ИИ глубоко интегрирован в самую суть взаимодействия, он встроен прямо в рабочий процесс пользователя, избавляя от необходимости постоянно ходить на сайты ChatGPT или Claude.

Dia построен на Chromium, так что интерфейс многим знаком. Главная фича — умная адресная строка: она работает и как поиск, и как чат-бот с ИИ. Помощник умеет искать в сети, суммировать загруженные файлы, автоматически переключаться между режимами. Можно даже спросить его о содержимом всех открытых вкладок или попросить составить черновик на их основе.

Настройки производятся через диалог с ботом: можно задать тон, стиль письма, параметры для кода. Опция History (по желанию) позволяет браузеру использовать недельную историю просмотров как контекст для ответов. А функция Skills помогает создавать мини-скрипты — ярлыки для сложных настроек или действий.
techcrunch.com

✔️ Mistral запускает вычислительную альтернативу облачным гигантам.

Mistral AI анонсировала Mistral Compute - инфраструктурную платформу для разработки и запуска ИИ. Это полноценный приватный стек: от GPU и систем оркестрации до API и сервисов. На выбор любой формат, от bare-metal до полностью управляемой PaaS.

Mistral Compute нацелен дать государствам, компаниям и научным центрам, ищущих альтернативу решениям из США или Китая, возможность самим строить ИИ-среду под свои нужды и полностью ею владеть.

Платформа использует новейшие архитектуры NVIDIA, с доступом к десяткам тысяч GPU. Она создана командой с огромным опытом в HPC и обучении топовых ИИ-моделей. Ключевые акценты: устойчивость и суверенитет данных, инфраструктура соответствует строгим европейским нормам и работает на декарбонизированной энергии.
mistral.ai

✔️ ByteDance анонсировала text-to-video модель Seedance 1.0.

Seedance 1.0 - новая генеративная модель для создания видео, которая, по утверждениям ByteDance, превосходит конкурентов в точности выполнения запросов, качестве движений и резкости изображения. В тестах на Artificial Analysis она лидирует в задачах text-to-video и image-to-video, обходя Google Veo 3, Kuaishou Kling 2.0 и OpenAI Sora. Модель справляется с длинными сценами, сохраняя стабильность персонажей и переходов между ракурсами, но пока не поддерживает добавление звука.

Seedance 1.0 генерирует 5-секундный Full HD-ролик за 41 секунду — это быстрее аналогов, хотя новый Google Veo 3 Fast может нивелировать это преимущество. Инструмент планируют внедрить в платформы Doubao и Jimeng. Целевая аудитория — от профессиональных видеомейкеров до обычных пользователей.
seed.bytedance.com

✔️ Midjourney открыла публичное тестирование своей видеомодели.

Midjourney объявила о начале открытого тестирования модели генерации видео по текстовым запросам. Задача тестирования собрать обратную связь для улучшения алгоритма.

Создатели пригласили сообщество принять участие в онлайн-рейтинге сгенерированных роликов, присоединиться можно по ссылке. Пока некоторые образцы выглядят достойно и сохраняют фирменный стиль Midjourney, но в целом результаты пока нестабильны.

Компания подчеркивает: это не финальная версия модели, а лишь первый шаг. Дополнительные сессии тестирования уже запланированы, но дату релиза и цену пока не раскрывают.
midjourney.com

@ai_machinelearning_big_data

#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/06/13 10:06:05
Back to Top
HTML Embed Code: