Telegram Group Search
Подарок своИИми руками

На эти выходных, мои друзья хостили у себя ужин на День Благодарения. И я решил не приходить с пустыми руками, а сделать небольшой подарок - игру.

С помощью Claude создал категории слов (еда, достопримечательности, известные люди, изобретения) и в каждой категории сгенерировал 20 слов.

Для каждого слова, попросил Claude сгенерировать промпт для генератора картинок, и с помощью Recraft сделал картинки в одном стиле.

Собрал картинки и слова в бесплатном редакторе Photopea, распечатал и порезал на аккуратные карточки.

На все вместе (от идеи до готовых карточек) ушло часа полтора.

Как играть?

Ведущий прикладывает карточку себе ко лбу, а все остальные ему объясняют что у него на лбу написано.
Zero to Hero гайд по llama.cpp 🦙


Хотите запустить и работать с LLM локально?

SteelPh0enix написал подробное руководство, которое проведет вас через все, что вам нужно знать о llama.cpp, от базовой настройки до более продвинутой оптимизации.

Основные моменты:

→ Полный процесс настройки: статья содержит подробные инструкции для начинающих по созданию и настройке llama.cpp как в Windows, так и в Linux

→ Управление моделями: узнайте, как загружать модели из Hugging Face, преобразовывать их и оптимизировать с помощью квантования

→ Оптимизация производительности: узнайте, как выполнить настройку для максимальной эффективности, включая ускорение GPU, управление памятью и расширенные параметры конфигурации

→ Техническое глубокое погружение: узнайте, как LLM работают на практике, включая токенизацию, методы выборки и контроль температуры

→ Практические инструменты: изучение полезных инструментов, таких как llama-bench для тестирования производительности и llama-cli для прямого взаимодействия с моделями

🧭 Гайд
Когда прошлое переопределяет будущее: о людских усилиях, каналах и предсказании наводнений

В декабре хочется теплых объятий и немного чуда. Эта история о том, как простые действия объединяют людей и воплощаются в большие технологические решения.

Недавнее разрушительное наводнение в Испании и повсеместно инициируемая помощь пострадавшим заставили меня задуматься о силе человеческой солидарности. Особенно меня поразил рассказ моего старшего коллеги. В детстве он по традиции отправлял рождественские письма и открытки родственникам: бабушка и дедушка шли с ним на почту и покупали именно те марки, выручка от которых шла на строительство канала, запланированного после сильнейшего наводнения 1957 года. Он хорошо запомнил слова "это наш маленький вклад в будущее". Как мы узнали в 2024 году, спустя >60 лет тот канал спас от катастрофы 1,5 миллиона человек, живущих в Валенсии. К сожалению, не спас весь регион, и понадобятся новые планы и сохранные меры. Сегодня мы можем продолжить это дело, в т.ч. используя машинное обучение для предсказания наводнений и минимизации их трагических последствий. И это острый вопрос не только для Европы.

Если вас тоже трогают инициативы, объединяющие прошлое и будущее, обратите внимание на соревнование “Inundata: Mapping Floods in South Africa” на Zindi, спонсируемое Google Deepmind. Участникам предлагается разработать модели для предсказания наводнений в городских районах Южной Африки.

Что важно знать про задачу
Данные: Датасет включает данные о случившихся с 1981 по 2023 наводнениях в Южной Африке агрегированные с данными об осадках из CHIRPS в радиусе 5 км от точки наводнения.

Цель: Классифицировать районы на основе их уязвимости к наводнениям и создать эффективную предсказательную модель с точностью до дней.

Вызовы:
Многомерные временные данные, включающие климатические и ландшафтные факторы.
Несбалансированный датасет - наводнения все же редкие события.

Призовой фонд:
1 место 5 000 USD
2 место 3 000 USD
3 место 2 000 USD

Дедлайн: 16 февраля 2025

Как и канал в Валенсии, современные технологии — это результат коллективных усилий. Соревнование на Zindi — это возможность не только полирнуть свои навыки, но и сделать доброе дело. Ваши идеи и модели могут стать частью решения для разработки превентивных мер, оптимизации городского планирования и управлением рисками.

Подробности: Zindi Competition
This media is not supported in your browser
VIEW IN TELEGRAM
HunyuanVideo от Тencent

Тencent выпустила HunyuanVideo, крупнейшую модель генерации видео с открытым исходным кодом!

13B модель имеет унифицированную архитектуру для создания как изображений, так и видео.

HunyuanVideo объединяет многомодальную большую языковую модель (MLLM) в качестве текстового кодировщика, улучшая текст-видео алайнмент и способности рассуждения. Она также использует 3D VAE для эффективного сжатия видеоданных, что позволяет генерировать высококачественное видео с исходным разрешением.

Согласно результатам профессиональной оценки, Hunyuan Video превосходит предыдущие передовые модели, включая Runway Gen-3, Luma 1.6 и 3 самые эффективные китайские модели видеогенерации.

👨‍💻 Project page

🤗 Huggingface

💻 Git

📜 Paper

🎮 Demo
Please open Telegram to view this post
VIEW IN TELEGRAM
🌪️ GenCast: Тихая AI Революция в Прогнозировании Погоды продолжается!

Команда Google DeepMind представила GenCast - новейшую AI-модель, которая предсказывает погоду с невероятной точностью на 15 дней вперед! 🎯

🤔 Почему это важно:

- Изменение климата делает погоду все более непредсказуемой
- Точные прогнозы спасают жизни и имущество людей
- Помогает планировать использование возобновляемой энергии

🔬 Что умеет GenCast:

- Создает 50+ возможных сценариев развития погоды и собирает их в вероятностный прогноз
- Работает с разрешением 0.25° по всей планете
- Превосходит лучшие существующие системы прогнозирования в 97.2% случаев!

⚡️ Впечатляющая скорость:

- Всего 8 минут на создание 15-дневного прогноза на одном Google Cloud TPU v5. Традиционным системам требуются часы работы на суперкомпьютерах!

🌪️ Особенно хорош в предсказании экстремальных погодных явлений:

- Тайфуны и ураганы
- Экстремальная жара и холод
- Сильные ветра

🎁 Открытый доступ:
Google DeepMind выпускает код модели и веса в открытый доступ, чтобы помочь развитию метеорологического сообщества.

🔮 Что дальше:
Скоро прогнозы GenCast появятся в Google Search и Maps, помогая предсказывать осадки, пожары, наводнения и экстремальную жару.
Это еще один шаг к более безопасному будущему, где мы сможем лучше подготовиться к капризам погоды! 🌍

📄 Статья в Nature
📰 Блог-пост
💻 Код
💿 Веса
AI для Всех
🌪️ GenCast: Тихая AI Революция в Прогнозировании Погоды продолжается! Команда Google DeepMind представила GenCast - новейшую AI-модель, которая предсказывает погоду с невероятной точностью на 15 дней вперед! 🎯 🤔 Почему это важно: - Изменение климата делает…
В продолжение нашего разговора о GenCast, давайте погрузимся в технические детали работы этой нейросети.

В сердце GenCast лежит сочетание двух подходов машинного обучения: диффузионных моделей и графовых трансформеров. В GenCast процесс предсказания погоды устроен как диффузия из шума -> через серию из 20 итераций очистки -> к реалистичному прогнозу погоды.

Архитектура GenCast построена из трех ключевых компонентов, каждый из которых решает специфическую задачу в процессе прогнозирования.

- Энкодер преобразует стандартную географическую сетку в икосаэдрическую структуру - специальный формат данных, оптимизированный для последующей обработки GenCast.

- Процессор, используя графовые трансформеры, анализирует взаимосвязи между погодными паттернами в глобальном масштабе.

- Декодер завершает процесс, конвертируя обработанные данные обратно в стандартный метеорологический формат.

Процесс обучения GenCast реализован в два этапа, что позволяет достичь оптимального баланса между скоростью и точностью. Первый этап включает 2 миллиона итераций на данных низкого разрешения (1°), где система осваивает базовые погодные паттерны. Второй этап добавляет 64,000 итераций на высоком разрешении (0.25°), что позволяет системе достичь необходимой точности прогнозирования.

Технически GenCast работает с комплексным набором переменных: 6 приземных (включая температуру и давление) и 6 атмосферных на 13 уровнях давления. Это позволяет системе создавать детальную трехмерную модель атмосферных процессов.

Важное преимущество GenCast - способность генерировать множество вероятных сценариев развития погоды, что особенно важно для прогнозирования экстремальных явлений.
Y Combinator: почему вертикальные AI-агенты могут быть в 10 раз больше, чем SaaS

🌟 Рынок:

Искусственный интеллект (ИИ) меняет правила игры, как SaaS в 2000-х, но масштаб может быть еще больше. Каждый успешный SaaS-стартап может иметь аналог в виде вертикального AI-агента, который заменяет программное обеспечение и сотрудников.

🤖 Преимущества вертикального ИИ над SaaS:

- Экономия на ПО и затратах на персонал.
- Компании становятся более эффективными, требуя меньше людей.
- Технологии стремительно улучшаются каждые 3 месяца, и AI-агенты начинают заменять целые команды.

🚀 Как выйти на рынок:

- Продавать решения нужно не тем, кто потеряет работу из-за ИИ, а топ-менеджерам, заинтересованным в автоматизации.
- Сфокусируйтесь на скучной и повторяющейся административной работе — там скрыты миллиардные возможности.

📈 Истории успеха:

- MTic: Автоматизация тестирования QA.
- Cap.AI: Чатботы для разработчиков, уменьшившие потребность в крупных командах.
- Salient: Голосовые AI-решения для банков.

🔮 Будущее:

AI-инструменты помогут управлять крупными организациями и останутся специализированными, как SaaS.

🎞 Видео
*singing*
On the first day of Christmas, Sama gave to me:

O1 pro and 200 bucks for ChatGPT

Source
🧠 Test-Time Training

Исследователи из MIT представили инновационный метод Test-Time Training (TTT), который позволяет AI-моделям адаптироваться к конкретным задачам прямо во время работы! 🎯

🤔 Почему это важно:

- AI становится более гибким и точным
- Модель учится на лету, адаптируясь под каждую задачу
- Значительно повышает точность без увеличения размера модели

🔬 Что умеет TTT:

- Создает уникальный LoRA-адаптер для каждой задачи
- Улучшает точность до 6 раз по сравнению с обычными подходами (например few-shot learning)
- Достигает 53% точности на сложном бенчмарке ARC
- В комбинации с другими методами достигает уровня среднего человека (61.9%)!

⚡️ Основные преимущества:

- Не требует доступа к тестовым ответам
- Работает с существующими языковыми моделями
- Эффективно использует память благодаря LoRA

🎓 Как это работает:

- Создает временный адаптер для каждой задачи
- Обучается на примерах внутри задачи
- Использует умное голосование для выбора лучшего ответа
- После решения адаптер удаляется

🔮 Что дальше:
Метод открывает новые горизонты для AI-систем, способных адаптироваться к специфическим задачам в реальном времени. Это важный шаг к более гибкому и точному искусственному интеллекту! 🌍

📄 Статья
AI для Всех
🧠 Test-Time Training Исследователи из MIT представили инновационный метод Test-Time Training (TTT), который позволяет AI-моделям адаптироваться к конкретным задачам прямо во время работы! 🎯 🤔 Почему это важно: - AI становится более гибким и точным - Модель…
В продолжение разговора о Test-Time Training (TTT), давайте разберем технические детали этого подхода.

🔍 Архитектура TTT состоит из трех ключевых компонентов:

1. Генерация данных для обучения:
- Создает "leave-one-out" задачи из тренировочных примеров
- Применяет набор обратимых трансформаций (поворот, отражение, транспонирование)
- Формирует расширенный набор данных для каждой конкретной задачи

2. Процесс адаптации:
- Использует LoRA-адаптеры для эффективного файнтюнинга
- Rank = 128 обеспечивает баланс между гибкостью и эффективностью
- Применяется к query, value проекциям в self-attention, MLP и выходным слоям
- Обучение происходит за 2 эпохи с batch size = 2

3. Система голосования:
- Генерирует множество предсказаний через различные трансформации
- Использует двухуровневое голосование:
* Сначала внутри каждой трансформации
* Затем между лучшими кандидатами от разных трансформаций

📊 Процесс обучения реализован в два этапа:

1. Предварительный файнтюнинг базовой модели:
- Обучение на синтетических данных ARC
- Использование существующих генераторов задач
- Применение геометрических трансформаций для аугментации

2. Test-Time адаптация:
- Создание уникальной LoRA для каждой задачи
- Оптимизация на примерах конкретной задачи
- Использование AdamW оптимизатора с learning rate 5e-5

🔬 Технические результаты:

- На модели 8B параметров достигает 53% точности
- Улучшает базовую точность в 6 раз для 1B модели
- В ансамбле с program synthesis достигает 61.9%

⚙️ Ключевые технические особенности:
- Не требует доступа к тестовым ответам
- Временные адаптеры удаляются после использования
- Эффективное использование памяти благодаря LoRA
- Работает с существующими языковыми моделями

🤓 Интересные технические находки:
- Иерархическое голосование работает лучше плоского
- Геометрические трансформации критически важны для успеха
- LoRA per task эффективнее общего адаптера
- QLoRA показывает сравнимые результаты при меньшем потреблении памяти

Этот подход открывает новые возможности для адаптивного AI, способного настраиваться на конкретные задачи в реальном времени, сохраняя при этом вычислительную эффективность.
🎮 Gemini Научили Играть в Настольные Игры!

Новое исследование от DeepMind показывает, как языковые модели могут освоить сложные настольные игры, используя методы планирования, похожие на человеческие! 🧠

🎯 Главное открытие:
Исследователи разработали два подхода к планированию ходов:
- Внешний поиск: модель запускает симуляции Monte Carlo
- Внутренний поиск: модель создает дерево возможных вариантов "в уме"

🏆 Впечатляющие результаты:
- Достигнут уровень гроссмейстера в шахматах
- При этом ИИ анализирует примерно столько же ходов, сколько человек-гроссмейстер!
- Успешно играет в другие игры: шахматы Фишера, "Четыре в ряд" и Hex

🔍 Особенности подхода:
- Минимум "галлюцинаций" - модель точно понимает правила
- Предварительное обучение на специальных данных
- Точное понимание корректных ходов и прогнозирование позиций

🌟 Почему это важно:
- ИИ учится мыслить более "по-человечески"
- Методы применимы не только к играм
- Открывает путь к более эффективному обучению языковых моделей

🔮 Перспективы:
Разработанные методы можно применять для улучшения языковых моделей в более широком спектре задач, где требуется планирование и рассуждение.

📄 Блог-пост
♟️ Поиграть в шахматы
AI для Всех
🎮 Gemini Научили Играть в Настольные Игры! Новое исследование от DeepMind показывает, как языковые модели могут освоить сложные настольные игры, используя методы планирования, похожие на человеческие! 🧠 🎯 Главное открытие: Исследователи разработали два подхода…
В продолжение нашего разговора о языковых моделях для игр, давайте рассмотрим что именно было сделано.

Фундаментом системы является MAV (Multi-Action-Value) специализированная языковая модель, обученная на десятилетиях игровых данных. MAV может одновременно выполнять несколько важных функций:
- отслеживать состояние игры
- оценивать позиции и
- генерировать возможные ходы.

При этом модель демонстрирует крайне низкий уровень галлюцинаций - практически 100% точность в определении корректных ходов и предсказании следующих позиций.

На базе этой модели были реализованы два подхода к планированию:

1. Внешний поиск (external search) использует MAV для управления Monte Carlo Tree Search (MCTS) без обращения к внешним игровым движкам. Модель направляет процесс построения дерева поиска и оценки позиций, опираясь на свои внутренние знания об игре. При использовании всего 100-1000 симуляций (у традиционных движков десятки тысяч) система достигает уровня гроссмейстера.

2. Внутренний поиск (internal search) позволяет модели генерировать и анализировать дерево вариантов прямо в контексте запроса. MAV напрямую строит линеаризованное дерево возможных продолжений и выбирает оптимальный ход. Чем больше токенов выделяется на поиск, тем сильнее играет система.

Результаты впечатляют: система превосходит современные движки в 97.2% тестовых позиций. Особенно важно, что эти подходы не ограничены шахматами - те же принципы можно применять для улучшения рассуждений языковых моделей в других областях, где требуется анализ вариантов и планирование.

Это исследование открывает новую главу в применении языковых моделей, демонстрируя, как объединение современных методов машинного обучения с классическими алгоритмами поиска может привести к качественному скачку в решении сложных задач планирования и рассуждения.​​​​​​​​​​​​​​​​

Статья
AMA: Ask me anything

Давно мы не беседовали! Я Артемий - автор и создатель этого канала. В следующие 24 часа готов отвечать на вопросы.

Пишите в комменты к этому посту 🥦
Please open Telegram to view this post
VIEW IN TELEGRAM
🌟 Открыт набор задач для Международной олимпиады школьников по искусственному интеллекту (IOAI 2025)!

Если вы:
- Работаете в сфере ML/AI
- Имеете интересные идеи для олимпиадных задач
- Хотите внести вклад в развитие будущих AI-исследователей

То у вас есть уникальная возможность стать частью этого масштабного образовательного проекта!

🎯 Авторы лучших задач получат приглашение посетить олимпиаду в Китае летом 2025 года.

Дедлайн подачи задач: 31 января 2025 года

Ваши задачи помогут вдохновить и подготовить новое поколение AI-исследователей. Это шанс войти в историю развития AI-образования!

Подробная информация и помощь по всем вопросам доступны по ссылке. Присоединяйтесь! 🚀
AI для Всех
*singing* On the first day of Christmas, Sama gave to me: O1 pro and 200 bucks for ChatGPT Source
🎵 On the third day of Christmas, Sam Altman gave to me:
Generations with Sora,
O(1) fine-tuning,
And two hundred bucks for ChatGPT! 🎶
AI для Всех
🎵 On the third day of Christmas, Sam Altman gave to me: Generations with Sora, O(1) fine-tuning, And two hundred bucks for ChatGPT! 🎶
Сделал свое первое видео с Sora

Генерация 2х вариаций 5 секундного ролика заняла 4 минуты (полагаю что из-за очереди, но в явном видео это нигде не указано).

Мой запрос (я просил Сэма Алтмана поющего рождественские хоралы) был отредактирован в соответствии с политикой контента OpenAI.

Ролики прикладываю в комментарии.

Очевидно что это сора это навык, и еще более очевидно, что за следующий месяц мы насмотримся абсолютно безумных, невероятных и крайне неожиданных результатов.
This media is not supported in your browser
VIEW IN TELEGRAM
Тем временем, на секундочку, вернемся к настоящим видосам.

Оптимус вышел на прогулку рядом с офисом Tesla в Пало Альто.
Deep Research

Google выкатил интересное обновление Gemini, про которое напишу вообще все, а я же хочу сосредоточиться на том, что теперь ассистент умеет сам проводить исследования в интернете.

Выглядит это так:

Вы просите его разобраться в какой-то теме, например "как сейчас развивается рынок беспилотных автомобилей". Gemini составляет план поиска, показывает его вам на проверку, а потом начинает самостоятельно искать информацию в сети.

Он не просто собирает первые попавшиеся ссылки, а действует как настоящий исследователь - находит что-то интересное, копает глубже на основе найденного, проверяет разные источники. В итоге выдает структурированный отчет со всеми ссылками, который можно сразу выгрузить в Google Docs.

Представьте: вместо того чтобы часами сидеть с десятком открытых вкладок, делая пометки и пытаясь не утонуть в информации, вы получаете готовый обзор за несколько минут. При этом можете его обсудить с ассистентом и попросить что-то уточнить или переделать.

Пока Deep Research (так называется эта функция) доступен только в платной версии Gemini Advanced и работает на десктопе. В мобильное приложение обещают добавить в начале 2025 года.

А еще Google выпустил экспериментальную версию новой модели - Gemini 2.0 Flash. Она работает быстрее и умнее, но пока находится в режиме тестирования. Попробовать можно уже сейчас - просто выберите ее в выпадающем меню моделей.

И вот, мы стали еще на шажок ближе к тому моменту, когда ИИ-ассистенты действительно начнут освобождать нас от рутинной работы, а не просто отвечать на вопросы 😊

Блог-пост
Зацените номера!

BETA AI

Вот это я понимаю человек живет 🤖

📍 Oyster Point, South San Francisco
2025/06/15 14:18:08
Back to Top
HTML Embed Code: