Подарок своИИми руками
На эти выходных, мои друзья хостили у себя ужин на День Благодарения. И я решил не приходить с пустыми руками, а сделать небольшой подарок - игру.
С помощью Claude создал категории слов (еда, достопримечательности, известные люди, изобретения) и в каждой категории сгенерировал 20 слов.
Для каждого слова, попросил Claude сгенерировать промпт для генератора картинок, и с помощью Recraft сделал картинки в одном стиле.
Собрал картинки и слова в бесплатном редакторе Photopea, распечатал и порезал на аккуратные карточки.
На все вместе (от идеи до готовых карточек) ушло часа полтора.
Как играть?
Ведущий прикладывает карточку себе ко лбу, а все остальные ему объясняют что у него на лбу написано.
На эти выходных, мои друзья хостили у себя ужин на День Благодарения. И я решил не приходить с пустыми руками, а сделать небольшой подарок - игру.
С помощью Claude создал категории слов (еда, достопримечательности, известные люди, изобретения) и в каждой категории сгенерировал 20 слов.
Для каждого слова, попросил Claude сгенерировать промпт для генератора картинок, и с помощью Recraft сделал картинки в одном стиле.
Собрал картинки и слова в бесплатном редакторе Photopea, распечатал и порезал на аккуратные карточки.
На все вместе (от идеи до готовых карточек) ушло часа полтора.
Как играть?
Ведущий прикладывает карточку себе ко лбу, а все остальные ему объясняют что у него на лбу написано.
Zero to Hero гайд по llama.cpp 🦙
Хотите запустить и работать с LLM локально?
SteelPh0enix написал подробное руководство, которое проведет вас через все, что вам нужно знать о llama.cpp, от базовой настройки до более продвинутой оптимизации.
Основные моменты:
→ Полный процесс настройки: статья содержит подробные инструкции для начинающих по созданию и настройке llama.cpp как в Windows, так и в Linux
→ Управление моделями: узнайте, как загружать модели из Hugging Face, преобразовывать их и оптимизировать с помощью квантования
→ Оптимизация производительности: узнайте, как выполнить настройку для максимальной эффективности, включая ускорение GPU, управление памятью и расширенные параметры конфигурации
→ Техническое глубокое погружение: узнайте, как LLM работают на практике, включая токенизацию, методы выборки и контроль температуры
→ Практические инструменты: изучение полезных инструментов, таких как llama-bench для тестирования производительности и llama-cli для прямого взаимодействия с моделями
🧭 Гайд
Хотите запустить и работать с LLM локально?
SteelPh0enix написал подробное руководство, которое проведет вас через все, что вам нужно знать о llama.cpp, от базовой настройки до более продвинутой оптимизации.
Основные моменты:
→ Полный процесс настройки: статья содержит подробные инструкции для начинающих по созданию и настройке llama.cpp как в Windows, так и в Linux
→ Управление моделями: узнайте, как загружать модели из Hugging Face, преобразовывать их и оптимизировать с помощью квантования
→ Оптимизация производительности: узнайте, как выполнить настройку для максимальной эффективности, включая ускорение GPU, управление памятью и расширенные параметры конфигурации
→ Техническое глубокое погружение: узнайте, как LLM работают на практике, включая токенизацию, методы выборки и контроль температуры
→ Практические инструменты: изучение полезных инструментов, таких как llama-bench для тестирования производительности и llama-cli для прямого взаимодействия с моделями
🧭 Гайд
Когда прошлое переопределяет будущее: о людских усилиях, каналах и предсказании наводнений
В декабре хочется теплых объятий и немного чуда. Эта история о том, как простые действия объединяют людей и воплощаются в большие технологические решения.
Недавнее разрушительное наводнение в Испании и повсеместно инициируемая помощь пострадавшим заставили меня задуматься о силе человеческой солидарности. Особенно меня поразил рассказ моего старшего коллеги. В детстве он по традиции отправлял рождественские письма и открытки родственникам: бабушка и дедушка шли с ним на почту и покупали именно те марки, выручка от которых шла на строительство канала, запланированного после сильнейшего наводнения 1957 года. Он хорошо запомнил слова "это наш маленький вклад в будущее". Как мы узнали в 2024 году, спустя >60 лет тот канал спас от катастрофы 1,5 миллиона человек, живущих в Валенсии. К сожалению, не спас весь регион, и понадобятся новые планы и сохранные меры. Сегодня мы можем продолжить это дело, в т.ч. используя машинное обучение для предсказания наводнений и минимизации их трагических последствий. И это острый вопрос не только для Европы.
Если вас тоже трогают инициативы, объединяющие прошлое и будущее, обратите внимание на соревнование “Inundata: Mapping Floods in South Africa” на Zindi, спонсируемое Google Deepmind. Участникам предлагается разработать модели для предсказания наводнений в городских районах Южной Африки.
Что важно знать про задачу
Данные: Датасет включает данные о случившихся с 1981 по 2023 наводнениях в Южной Африке агрегированные с данными об осадках из CHIRPS в радиусе 5 км от точки наводнения.
Цель: Классифицировать районы на основе их уязвимости к наводнениям и создать эффективную предсказательную модель с точностью до дней.
Вызовы:
Многомерные временные данные, включающие климатические и ландшафтные факторы.
Несбалансированный датасет - наводнения все же редкие события.
Призовой фонд:
1 место 5 000 USD
2 место 3 000 USD
3 место 2 000 USD
Дедлайн: 16 февраля 2025
Как и канал в Валенсии, современные технологии — это результат коллективных усилий. Соревнование на Zindi — это возможность не только полирнуть свои навыки, но и сделать доброе дело. Ваши идеи и модели могут стать частью решения для разработки превентивных мер, оптимизации городского планирования и управлением рисками.
Подробности: Zindi Competition
В декабре хочется теплых объятий и немного чуда. Эта история о том, как простые действия объединяют людей и воплощаются в большие технологические решения.
Недавнее разрушительное наводнение в Испании и повсеместно инициируемая помощь пострадавшим заставили меня задуматься о силе человеческой солидарности. Особенно меня поразил рассказ моего старшего коллеги. В детстве он по традиции отправлял рождественские письма и открытки родственникам: бабушка и дедушка шли с ним на почту и покупали именно те марки, выручка от которых шла на строительство канала, запланированного после сильнейшего наводнения 1957 года. Он хорошо запомнил слова "это наш маленький вклад в будущее". Как мы узнали в 2024 году, спустя >60 лет тот канал спас от катастрофы 1,5 миллиона человек, живущих в Валенсии. К сожалению, не спас весь регион, и понадобятся новые планы и сохранные меры. Сегодня мы можем продолжить это дело, в т.ч. используя машинное обучение для предсказания наводнений и минимизации их трагических последствий. И это острый вопрос не только для Европы.
Если вас тоже трогают инициативы, объединяющие прошлое и будущее, обратите внимание на соревнование “Inundata: Mapping Floods in South Africa” на Zindi, спонсируемое Google Deepmind. Участникам предлагается разработать модели для предсказания наводнений в городских районах Южной Африки.
Что важно знать про задачу
Данные: Датасет включает данные о случившихся с 1981 по 2023 наводнениях в Южной Африке агрегированные с данными об осадках из CHIRPS в радиусе 5 км от точки наводнения.
Цель: Классифицировать районы на основе их уязвимости к наводнениям и создать эффективную предсказательную модель с точностью до дней.
Вызовы:
Многомерные временные данные, включающие климатические и ландшафтные факторы.
Несбалансированный датасет - наводнения все же редкие события.
Призовой фонд:
1 место 5 000 USD
2 место 3 000 USD
3 место 2 000 USD
Дедлайн: 16 февраля 2025
Как и канал в Валенсии, современные технологии — это результат коллективных усилий. Соревнование на Zindi — это возможность не только полирнуть свои навыки, но и сделать доброе дело. Ваши идеи и модели могут стать частью решения для разработки превентивных мер, оптимизации городского планирования и управлением рисками.
Подробности: Zindi Competition
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo от Тencent
Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!
13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.
HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.
Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.
👨💻 Project page
🤗 Huggingface
💻 Git
📜 Paper
🎮 Demo
Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!
13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.
HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.
Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.
💻 Git
📜 Paper
🎮 Demo
Please open Telegram to view this post
VIEW IN TELEGRAM
🌪️ GenCast: Тихая AI Революция в Прогнозировании Погоды продолжается!
Команда Google DeepMind представила GenCast - новейшую AI-модель, которая предсказывает погоду с невероятной точностью на 15 дней вперед! 🎯
🤔 Почему это важно:
- Изменение климата делает погоду все более непредсказуемой
- Точные прогнозы спасают жизни и имущество людей
- Помогает планировать использование возобновляемой энергии
🔬 Что умеет GenCast:
- Создает 50+ возможных сценариев развития погоды и собирает их в вероятностный прогноз
- Работает с разрешением 0.25° по всей планете
- Превосходит лучшие существующие системы прогнозирования в 97.2% случаев!
⚡️ Впечатляющая скорость:
- Всего 8 минут на создание 15-дневного прогноза на одном Google Cloud TPU v5. Традиционным системам требуются часы работы на суперкомпьютерах!
🌪️ Особенно хорош в предсказании экстремальных погодных явлений:
- Тайфуны и ураганы
- Экстремальная жара и холод
- Сильные ветра
🎁 Открытый доступ:
Google DeepMind выпускает код модели и веса в открытый доступ, чтобы помочь развитию метеорологического сообщества.
🔮 Что дальше:
Скоро прогнозы GenCast появятся в Google Search и Maps, помогая предсказывать осадки, пожары, наводнения и экстремальную жару.
Это еще один шаг к более безопасному будущему, где мы сможем лучше подготовиться к капризам погоды! 🌍
📄 Статья в Nature
📰 Блог-пост
💻 Код
💿 Веса
Команда Google DeepMind представила GenCast - новейшую AI-модель, которая предсказывает погоду с невероятной точностью на 15 дней вперед! 🎯
🤔 Почему это важно:
- Изменение климата делает погоду все более непредсказуемой
- Точные прогнозы спасают жизни и имущество людей
- Помогает планировать использование возобновляемой энергии
🔬 Что умеет GenCast:
- Создает 50+ возможных сценариев развития погоды и собирает их в вероятностный прогноз
- Работает с разрешением 0.25° по всей планете
- Превосходит лучшие существующие системы прогнозирования в 97.2% случаев!
⚡️ Впечатляющая скорость:
- Всего 8 минут на создание 15-дневного прогноза на одном Google Cloud TPU v5. Традиционным системам требуются часы работы на суперкомпьютерах!
🌪️ Особенно хорош в предсказании экстремальных погодных явлений:
- Тайфуны и ураганы
- Экстремальная жара и холод
- Сильные ветра
🎁 Открытый доступ:
Google DeepMind выпускает код модели и веса в открытый доступ, чтобы помочь развитию метеорологического сообщества.
🔮 Что дальше:
Скоро прогнозы GenCast появятся в Google Search и Maps, помогая предсказывать осадки, пожары, наводнения и экстремальную жару.
Это еще один шаг к более безопасному будущему, где мы сможем лучше подготовиться к капризам погоды! 🌍
📄 Статья в Nature
📰 Блог-пост
💻 Код
💿 Веса
AI для Всех
🌪️ GenCast: Тихая AI Революция в Прогнозировании Погоды продолжается! Команда Google DeepMind представила GenCast - новейшую AI-модель, которая предсказывает погоду с невероятной точностью на 15 дней вперед! 🎯 🤔 Почему это важно: - Изменение климата делает…
В продолжение нашего разговора о GenCast, давайте погрузимся в технические детали работы этой нейросети.
В сердце GenCast лежит сочетание двух подходов машинного обучения: диффузионных моделей и графовых трансформеров. В GenCast процесс предсказания погоды устроен как диффузия из шума -> через серию из 20 итераций очистки -> к реалистичному прогнозу погоды.
Архитектура GenCast построена из трех ключевых компонентов, каждый из которых решает специфическую задачу в процессе прогнозирования.
- Энкодер преобразует стандартную географическую сетку в икосаэдрическую структуру - специальный формат данных, оптимизированный для последующей обработки GenCast.
- Процессор, используя графовые трансформеры, анализирует взаимосвязи между погодными паттернами в глобальном масштабе.
- Декодер завершает процесс, конвертируя обработанные данные обратно в стандартный метеорологический формат.
Процесс обучения GenCast реализован в два этапа, что позволяет достичь оптимального баланса между скоростью и точностью. Первый этап включает 2 миллиона итераций на данных низкого разрешения (1°), где система осваивает базовые погодные паттерны. Второй этап добавляет 64,000 итераций на высоком разрешении (0.25°), что позволяет системе достичь необходимой точности прогнозирования.
Технически GenCast работает с комплексным набором переменных: 6 приземных (включая температуру и давление) и 6 атмосферных на 13 уровнях давления. Это позволяет системе создавать детальную трехмерную модель атмосферных процессов.
Важное преимущество GenCast - способность генерировать множество вероятных сценариев развития погоды, что особенно важно для прогнозирования экстремальных явлений.
В сердце GenCast лежит сочетание двух подходов машинного обучения: диффузионных моделей и графовых трансформеров. В GenCast процесс предсказания погоды устроен как диффузия из шума -> через серию из 20 итераций очистки -> к реалистичному прогнозу погоды.
Архитектура GenCast построена из трех ключевых компонентов, каждый из которых решает специфическую задачу в процессе прогнозирования.
- Энкодер преобразует стандартную географическую сетку в икосаэдрическую структуру - специальный формат данных, оптимизированный для последующей обработки GenCast.
- Процессор, используя графовые трансформеры, анализирует взаимосвязи между погодными паттернами в глобальном масштабе.
- Декодер завершает процесс, конвертируя обработанные данные обратно в стандартный метеорологический формат.
Процесс обучения GenCast реализован в два этапа, что позволяет достичь оптимального баланса между скоростью и точностью. Первый этап включает 2 миллиона итераций на данных низкого разрешения (1°), где система осваивает базовые погодные паттерны. Второй этап добавляет 64,000 итераций на высоком разрешении (0.25°), что позволяет системе достичь необходимой точности прогнозирования.
Технически GenCast работает с комплексным набором переменных: 6 приземных (включая температуру и давление) и 6 атмосферных на 13 уровнях давления. Это позволяет системе создавать детальную трехмерную модель атмосферных процессов.
Важное преимущество GenCast - способность генерировать множество вероятных сценариев развития погоды, что особенно важно для прогнозирования экстремальных явлений.
Y Combinator: почему вертикальные AI-агенты могут быть в 10 раз больше, чем SaaS
🌟 Рынок:
Искусственный интеллект (ИИ) меняет правила игры, как SaaS в 2000-х, но масштаб может быть еще больше. Каждый успешный SaaS-стартап может иметь аналог в виде вертикального AI-агента, который заменяет программное обеспечение и сотрудников.
🤖 Преимущества вертикального ИИ над SaaS:
- Экономия на ПО и затратах на персонал.
- Компании становятся более эффективными, требуя меньше людей.
- Технологии стремительно улучшаются каждые 3 месяца, и AI-агенты начинают заменять целые команды.
🚀 Как выйти на рынок:
- Продавать решения нужно не тем, кто потеряет работу из-за ИИ, а топ-менеджерам, заинтересованным в автоматизации.
- Сфокусируйтесь на скучной и повторяющейся административной работе — там скрыты миллиардные возможности.
📈 Истории успеха:
- MTic: Автоматизация тестирования QA.
- Cap.AI: Чатботы для разработчиков, уменьшившие потребность в крупных командах.
- Salient: Голосовые AI-решения для банков.
🔮 Будущее:
AI-инструменты помогут управлять крупными организациями и останутся специализированными, как SaaS.
🎞 Видео
🌟 Рынок:
Искусственный интеллект (ИИ) меняет правила игры, как SaaS в 2000-х, но масштаб может быть еще больше. Каждый успешный SaaS-стартап может иметь аналог в виде вертикального AI-агента, который заменяет программное обеспечение и сотрудников.
🤖 Преимущества вертикального ИИ над SaaS:
- Экономия на ПО и затратах на персонал.
- Компании становятся более эффективными, требуя меньше людей.
- Технологии стремительно улучшаются каждые 3 месяца, и AI-агенты начинают заменять целые команды.
🚀 Как выйти на рынок:
- Продавать решения нужно не тем, кто потеряет работу из-за ИИ, а топ-менеджерам, заинтересованным в автоматизации.
- Сфокусируйтесь на скучной и повторяющейся административной работе — там скрыты миллиардные возможности.
📈 Истории успеха:
- MTic: Автоматизация тестирования QA.
- Cap.AI: Чатботы для разработчиков, уменьшившие потребность в крупных командах.
- Salient: Голосовые AI-решения для банков.
🔮 Будущее:
AI-инструменты помогут управлять крупными организациями и останутся специализированными, как SaaS.
🎞 Видео
🧠 Test-Time Training
Исследователи из MIT представили инновационный метод Test-Time Training (TTT), который позволяет AI-моделям адаптироваться к конкретным задачам прямо во время работы! 🎯
🤔 Почему это важно:
- AI становится более гибким и точным
- Модель учится на лету, адаптируясь под каждую задачу
- Значительно повышает точность без увеличения размера модели
🔬 Что умеет TTT:
- Создает уникальный LoRA-адаптер для каждой задачи
- Улучшает точность до 6 раз по сравнению с обычными подходами (например few-shot learning)
- Достигает 53% точности на сложном бенчмарке ARC
- В комбинации с другими методами достигает уровня среднего человека (61.9%)!
⚡️ Основные преимущества:
- Не требует доступа к тестовым ответам
- Работает с существующими языковыми моделями
- Эффективно использует память благодаря LoRA
🎓 Как это работает:
- Создает временный адаптер для каждой задачи
- Обучается на примерах внутри задачи
- Использует умное голосование для выбора лучшего ответа
- После решения адаптер удаляется
🔮 Что дальше:
Метод открывает новые горизонты для AI-систем, способных адаптироваться к специфическим задачам в реальном времени. Это важный шаг к более гибкому и точному искусственному интеллекту! 🌍
📄 Статья
Исследователи из MIT представили инновационный метод Test-Time Training (TTT), который позволяет AI-моделям адаптироваться к конкретным задачам прямо во время работы! 🎯
🤔 Почему это важно:
- AI становится более гибким и точным
- Модель учится на лету, адаптируясь под каждую задачу
- Значительно повышает точность без увеличения размера модели
🔬 Что умеет TTT:
- Создает уникальный LoRA-адаптер для каждой задачи
- Улучшает точность до 6 раз по сравнению с обычными подходами (например few-shot learning)
- Достигает 53% точности на сложном бенчмарке ARC
- В комбинации с другими методами достигает уровня среднего человека (61.9%)!
⚡️ Основные преимущества:
- Не требует доступа к тестовым ответам
- Работает с существующими языковыми моделями
- Эффективно использует память благодаря LoRA
🎓 Как это работает:
- Создает временный адаптер для каждой задачи
- Обучается на примерах внутри задачи
- Использует умное голосование для выбора лучшего ответа
- После решения адаптер удаляется
🔮 Что дальше:
Метод открывает новые горизонты для AI-систем, способных адаптироваться к специфическим задачам в реальном времени. Это важный шаг к более гибкому и точному искусственному интеллекту! 🌍
📄 Статья
AI для Всех
🧠 Test-Time Training Исследователи из MIT представили инновационный метод Test-Time Training (TTT), который позволяет AI-моделям адаптироваться к конкретным задачам прямо во время работы! 🎯 🤔 Почему это важно: - AI становится более гибким и точным - Модель…
В продолжение разговора о Test-Time Training (TTT), давайте разберем технические детали этого подхода.
🔍 Архитектура TTT состоит из трех ключевых компонентов:
1. Генерация данных для обучения:
- Создает "leave-one-out" задачи из тренировочных примеров
- Применяет набор обратимых трансформаций (поворот, отражение, транспонирование)
- Формирует расширенный набор данных для каждой конкретной задачи
2. Процесс адаптации:
- Использует LoRA-адаптеры для эффективного файнтюнинга
- Rank = 128 обеспечивает баланс между гибкостью и эффективностью
- Применяется к query, value проекциям в self-attention, MLP и выходным слоям
- Обучение происходит за 2 эпохи с batch size = 2
3. Система голосования:
- Генерирует множество предсказаний через различные трансформации
- Использует двухуровневое голосование:
* Сначала внутри каждой трансформации
* Затем между лучшими кандидатами от разных трансформаций
📊 Процесс обучения реализован в два этапа:
1. Предварительный файнтюнинг базовой модели:
- Обучение на синтетических данных ARC
- Использование существующих генераторов задач
- Применение геометрических трансформаций для аугментации
2. Test-Time адаптация:
- Создание уникальной LoRA для каждой задачи
- Оптимизация на примерах конкретной задачи
- Использование AdamW оптимизатора с learning rate 5e-5
🔬 Технические результаты:
- На модели 8B параметров достигает 53% точности
- Улучшает базовую точность в 6 раз для 1B модели
- В ансамбле с program synthesis достигает 61.9%
⚙️ Ключевые технические особенности:
- Не требует доступа к тестовым ответам
- Временные адаптеры удаляются после использования
- Эффективное использование памяти благодаря LoRA
- Работает с существующими языковыми моделями
🤓 Интересные технические находки:
- Иерархическое голосование работает лучше плоского
- Геометрические трансформации критически важны для успеха
- LoRA per task эффективнее общего адаптера
- QLoRA показывает сравнимые результаты при меньшем потреблении памяти
Этот подход открывает новые возможности для адаптивного AI, способного настраиваться на конкретные задачи в реальном времени, сохраняя при этом вычислительную эффективность.
🔍 Архитектура TTT состоит из трех ключевых компонентов:
1. Генерация данных для обучения:
- Создает "leave-one-out" задачи из тренировочных примеров
- Применяет набор обратимых трансформаций (поворот, отражение, транспонирование)
- Формирует расширенный набор данных для каждой конкретной задачи
2. Процесс адаптации:
- Использует LoRA-адаптеры для эффективного файнтюнинга
- Rank = 128 обеспечивает баланс между гибкостью и эффективностью
- Применяется к query, value проекциям в self-attention, MLP и выходным слоям
- Обучение происходит за 2 эпохи с batch size = 2
3. Система голосования:
- Генерирует множество предсказаний через различные трансформации
- Использует двухуровневое голосование:
* Сначала внутри каждой трансформации
* Затем между лучшими кандидатами от разных трансформаций
📊 Процесс обучения реализован в два этапа:
1. Предварительный файнтюнинг базовой модели:
- Обучение на синтетических данных ARC
- Использование существующих генераторов задач
- Применение геометрических трансформаций для аугментации
2. Test-Time адаптация:
- Создание уникальной LoRA для каждой задачи
- Оптимизация на примерах конкретной задачи
- Использование AdamW оптимизатора с learning rate 5e-5
🔬 Технические результаты:
- На модели 8B параметров достигает 53% точности
- Улучшает базовую точность в 6 раз для 1B модели
- В ансамбле с program synthesis достигает 61.9%
⚙️ Ключевые технические особенности:
- Не требует доступа к тестовым ответам
- Временные адаптеры удаляются после использования
- Эффективное использование памяти благодаря LoRA
- Работает с существующими языковыми моделями
🤓 Интересные технические находки:
- Иерархическое голосование работает лучше плоского
- Геометрические трансформации критически важны для успеха
- LoRA per task эффективнее общего адаптера
- QLoRA показывает сравнимые результаты при меньшем потреблении памяти
Этот подход открывает новые возможности для адаптивного AI, способного настраиваться на конкретные задачи в реальном времени, сохраняя при этом вычислительную эффективность.
🎮 Gemini Научили Играть в Настольные Игры!
Новое исследование от DeepMind показывает, как языковые модели могут освоить сложные настольные игры, используя методы планирования, похожие на человеческие! 🧠
🎯 Главное открытие:
Исследователи разработали два подхода к планированию ходов:
- Внешний поиск: модель запускает симуляции Monte Carlo
- Внутренний поиск: модель создает дерево возможных вариантов "в уме"
🏆 Впечатляющие результаты:
- Достигнут уровень гроссмейстера в шахматах
- При этом ИИ анализирует примерно столько же ходов, сколько человек-гроссмейстер!
- Успешно играет в другие игры: шахматы Фишера, "Четыре в ряд" и Hex
🔍 Особенности подхода:
- Минимум "галлюцинаций" - модель точно понимает правила
- Предварительное обучение на специальных данных
- Точное понимание корректных ходов и прогнозирование позиций
🌟 Почему это важно:
- ИИ учится мыслить более "по-человечески"
- Методы применимы не только к играм
- Открывает путь к более эффективному обучению языковых моделей
🔮 Перспективы:
Разработанные методы можно применять для улучшения языковых моделей в более широком спектре задач, где требуется планирование и рассуждение.
📄 Блог-пост
♟️ Поиграть в шахматы
Новое исследование от DeepMind показывает, как языковые модели могут освоить сложные настольные игры, используя методы планирования, похожие на человеческие! 🧠
🎯 Главное открытие:
Исследователи разработали два подхода к планированию ходов:
- Внешний поиск: модель запускает симуляции Monte Carlo
- Внутренний поиск: модель создает дерево возможных вариантов "в уме"
🏆 Впечатляющие результаты:
- Достигнут уровень гроссмейстера в шахматах
- При этом ИИ анализирует примерно столько же ходов, сколько человек-гроссмейстер!
- Успешно играет в другие игры: шахматы Фишера, "Четыре в ряд" и Hex
🔍 Особенности подхода:
- Минимум "галлюцинаций" - модель точно понимает правила
- Предварительное обучение на специальных данных
- Точное понимание корректных ходов и прогнозирование позиций
🌟 Почему это важно:
- ИИ учится мыслить более "по-человечески"
- Методы применимы не только к играм
- Открывает путь к более эффективному обучению языковых моделей
🔮 Перспективы:
Разработанные методы можно применять для улучшения языковых моделей в более широком спектре задач, где требуется планирование и рассуждение.
📄 Блог-пост
♟️ Поиграть в шахматы
AI для Всех
🎮 Gemini Научили Играть в Настольные Игры! Новое исследование от DeepMind показывает, как языковые модели могут освоить сложные настольные игры, используя методы планирования, похожие на человеческие! 🧠 🎯 Главное открытие: Исследователи разработали два подхода…
В продолжение нашего разговора о языковых моделях для игр, давайте рассмотрим что именно было сделано.
Фундаментом системы является MAV (Multi-Action-Value) специализированная языковая модель, обученная на десятилетиях игровых данных. MAV может одновременно выполнять несколько важных функций:
- отслеживать состояние игры
- оценивать позиции и
- генерировать возможные ходы.
При этом модель демонстрирует крайне низкий уровень галлюцинаций - практически 100% точность в определении корректных ходов и предсказании следующих позиций.
На базе этой модели были реализованы два подхода к планированию:
1. Внешний поиск (external search) использует MAV для управления Monte Carlo Tree Search (MCTS) без обращения к внешним игровым движкам. Модель направляет процесс построения дерева поиска и оценки позиций, опираясь на свои внутренние знания об игре. При использовании всего 100-1000 симуляций (у традиционных движков десятки тысяч) система достигает уровня гроссмейстера.
2. Внутренний поиск (internal search) позволяет модели генерировать и анализировать дерево вариантов прямо в контексте запроса. MAV напрямую строит линеаризованное дерево возможных продолжений и выбирает оптимальный ход. Чем больше токенов выделяется на поиск, тем сильнее играет система.
Результаты впечатляют: система превосходит современные движки в 97.2% тестовых позиций. Особенно важно, что эти подходы не ограничены шахматами - те же принципы можно применять для улучшения рассуждений языковых моделей в других областях, где требуется анализ вариантов и планирование.
Это исследование открывает новую главу в применении языковых моделей, демонстрируя, как объединение современных методов машинного обучения с классическими алгоритмами поиска может привести к качественному скачку в решении сложных задач планирования и рассуждения.
Статья
Фундаментом системы является MAV (Multi-Action-Value) специализированная языковая модель, обученная на десятилетиях игровых данных. MAV может одновременно выполнять несколько важных функций:
- отслеживать состояние игры
- оценивать позиции и
- генерировать возможные ходы.
При этом модель демонстрирует крайне низкий уровень галлюцинаций - практически 100% точность в определении корректных ходов и предсказании следующих позиций.
На базе этой модели были реализованы два подхода к планированию:
1. Внешний поиск (external search) использует MAV для управления Monte Carlo Tree Search (MCTS) без обращения к внешним игровым движкам. Модель направляет процесс построения дерева поиска и оценки позиций, опираясь на свои внутренние знания об игре. При использовании всего 100-1000 симуляций (у традиционных движков десятки тысяч) система достигает уровня гроссмейстера.
2. Внутренний поиск (internal search) позволяет модели генерировать и анализировать дерево вариантов прямо в контексте запроса. MAV напрямую строит линеаризованное дерево возможных продолжений и выбирает оптимальный ход. Чем больше токенов выделяется на поиск, тем сильнее играет система.
Результаты впечатляют: система превосходит современные движки в 97.2% тестовых позиций. Особенно важно, что эти подходы не ограничены шахматами - те же принципы можно применять для улучшения рассуждений языковых моделей в других областях, где требуется анализ вариантов и планирование.
Это исследование открывает новую главу в применении языковых моделей, демонстрируя, как объединение современных методов машинного обучения с классическими алгоритмами поиска может привести к качественному скачку в решении сложных задач планирования и рассуждения.
Статья
AMA: Ask me anything
Давно мы не беседовали! Я Артемий - автор и создатель этого канала. В следующие 24 часа готов отвечать на вопросы.
Пишите в комменты к этому посту🥦
Давно мы не беседовали! Я Артемий - автор и создатель этого канала. В следующие 24 часа готов отвечать на вопросы.
Пишите в комменты к этому посту
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Открыт набор задач для Международной олимпиады школьников по искусственному интеллекту (IOAI 2025)!
Если вы:
- Работаете в сфере ML/AI
- Имеете интересные идеи для олимпиадных задач
- Хотите внести вклад в развитие будущих AI-исследователей
То у вас есть уникальная возможность стать частью этого масштабного образовательного проекта!
🎯 Авторы лучших задач получат приглашение посетить олимпиаду в Китае летом 2025 года.
⏰ Дедлайн подачи задач: 31 января 2025 года
Ваши задачи помогут вдохновить и подготовить новое поколение AI-исследователей. Это шанс войти в историю развития AI-образования!
Подробная информация и помощь по всем вопросам доступны по ссылке. Присоединяйтесь! 🚀
Если вы:
- Работаете в сфере ML/AI
- Имеете интересные идеи для олимпиадных задач
- Хотите внести вклад в развитие будущих AI-исследователей
То у вас есть уникальная возможность стать частью этого масштабного образовательного проекта!
🎯 Авторы лучших задач получат приглашение посетить олимпиаду в Китае летом 2025 года.
⏰ Дедлайн подачи задач: 31 января 2025 года
Ваши задачи помогут вдохновить и подготовить новое поколение AI-исследователей. Это шанс войти в историю развития AI-образования!
Подробная информация и помощь по всем вопросам доступны по ссылке. Присоединяйтесь! 🚀
International Olympiad in Artificial Intelligence
Call for tasks - International Olympiad in Artificial Intelligence
Call for tasks Contribute to IOAI 2025! The IOAI International Scientific Committee (ISC) invites AI researchers worldwide to contribute to the design of competition tasks for IOAI 2025. The competition consists of three stages: At-Home Round: Students work…
AI для Всех
*singing* On the first day of Christmas, Sama gave to me: O1 pro and 200 bucks for ChatGPT Source
🎵 On the third day of Christmas, Sam Altman gave to me:
Generations with Sora,
O(1) fine-tuning,
And two hundred bucks for ChatGPT! 🎶
Generations with Sora,
O(1) fine-tuning,
And two hundred bucks for ChatGPT! 🎶
AI для Всех
🎵 On the third day of Christmas, Sam Altman gave to me: Generations with Sora, O(1) fine-tuning, And two hundred bucks for ChatGPT! 🎶
Сделал свое первое видео с Sora
Генерация 2х вариаций 5 секундного ролика заняла 4 минуты (полагаю что из-за очереди, но в явном видео это нигде не указано).
Мой запрос (я просил Сэма Алтмана поющего рождественские хоралы) был отредактирован в соответствии с политикой контента OpenAI.
Ролики прикладываю в комментарии.
Очевидно что это сора это навык, и еще более очевидно, что за следующий месяц мы насмотримся абсолютно безумных, невероятных и крайне неожиданных результатов.
Генерация 2х вариаций 5 секундного ролика заняла 4 минуты (полагаю что из-за очереди, но в явном видео это нигде не указано).
Мой запрос (я просил Сэма Алтмана поющего рождественские хоралы) был отредактирован в соответствии с политикой контента OpenAI.
Ролики прикладываю в комментарии.
Очевидно что это сора это навык, и еще более очевидно, что за следующий месяц мы насмотримся абсолютно безумных, невероятных и крайне неожиданных результатов.
AI для Всех
Сделал свое первое видео с Sora Генерация 2х вариаций 5 секундного ролика заняла 4 минуты (полагаю что из-за очереди, но в явном видео это нигде не указано). Мой запрос (я просил Сэма Алтмана поющего рождественские хоралы) был отредактирован в соответствии…
Количество видео регулируется некими кредитами, которые видимо будут обнуляться каждый месяц.
2 вариации 5s 420p - 50 кредитов
Кстати, работает все это через Stripe =)
2 вариации 5s 420p - 50 кредитов
Кстати, работает все это через Stripe =)
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем, на секундочку, вернемся к настоящим видосам.
Оптимус вышел на прогулку рядом с офисом Tesla в Пало Альто.
Оптимус вышел на прогулку рядом с офисом Tesla в Пало Альто.
Deep Research
Google выкатил интересное обновление Gemini, про которое напишу вообще все, а я же хочу сосредоточиться на том, что теперь ассистент умеет сам проводить исследования в интернете.
Выглядит это так:
Вы просите его разобраться в какой-то теме, например "как сейчас развивается рынок беспилотных автомобилей". Gemini составляет план поиска, показывает его вам на проверку, а потом начинает самостоятельно искать информацию в сети.
Он не просто собирает первые попавшиеся ссылки, а действует как настоящий исследователь - находит что-то интересное, копает глубже на основе найденного, проверяет разные источники. В итоге выдает структурированный отчет со всеми ссылками, который можно сразу выгрузить в Google Docs.
Представьте: вместо того чтобы часами сидеть с десятком открытых вкладок, делая пометки и пытаясь не утонуть в информации, вы получаете готовый обзор за несколько минут. При этом можете его обсудить с ассистентом и попросить что-то уточнить или переделать.
Пока Deep Research (так называется эта функция) доступен только в платной версии Gemini Advanced и работает на десктопе. В мобильное приложение обещают добавить в начале 2025 года.
А еще Google выпустил экспериментальную версию новой модели - Gemini 2.0 Flash. Она работает быстрее и умнее, но пока находится в режиме тестирования. Попробовать можно уже сейчас - просто выберите ее в выпадающем меню моделей.
И вот, мы стали еще на шажок ближе к тому моменту, когда ИИ-ассистенты действительно начнут освобождать нас от рутинной работы, а не просто отвечать на вопросы 😊
Блог-пост
Google выкатил интересное обновление Gemini, про которое напишу вообще все, а я же хочу сосредоточиться на том, что теперь ассистент умеет сам проводить исследования в интернете.
Выглядит это так:
Вы просите его разобраться в какой-то теме, например "как сейчас развивается рынок беспилотных автомобилей". Gemini составляет план поиска, показывает его вам на проверку, а потом начинает самостоятельно искать информацию в сети.
Он не просто собирает первые попавшиеся ссылки, а действует как настоящий исследователь - находит что-то интересное, копает глубже на основе найденного, проверяет разные источники. В итоге выдает структурированный отчет со всеми ссылками, который можно сразу выгрузить в Google Docs.
Представьте: вместо того чтобы часами сидеть с десятком открытых вкладок, делая пометки и пытаясь не утонуть в информации, вы получаете готовый обзор за несколько минут. При этом можете его обсудить с ассистентом и попросить что-то уточнить или переделать.
Пока Deep Research (так называется эта функция) доступен только в платной версии Gemini Advanced и работает на десктопе. В мобильное приложение обещают добавить в начале 2025 года.
А еще Google выпустил экспериментальную версию новой модели - Gemini 2.0 Flash. Она работает быстрее и умнее, но пока находится в режиме тестирования. Попробовать можно уже сейчас - просто выберите ее в выпадающем меню моделей.
И вот, мы стали еще на шажок ближе к тому моменту, когда ИИ-ассистенты действительно начнут освобождать нас от рутинной работы, а не просто отвечать на вопросы 😊
Блог-пост