Неделю искал баг
Работаю над нейросетью, которая сможет генерировать анимации в реальном времени в игровом движке в разных стилях.
Обучаю, запускаю, вижу jitter — дрожание в суставах. Персонаж в общих чертах выполняет анимацию, но все суставы дрожат, root дергается, выглядит сомнительно.
Под капотом диффузия, которая генерирует движения из шума. Сначала уповал на нее, перечитал статьи вдоль и поперек, от руки сделал все выкладки, написал тесты, вроде все работает.
Далее крутил loss, прикрутил jerk — 3-ю производную по времени. Улучшений нет.
Зашел с другой стороны, накинул аугментаций в DataLoader со сглаживанием траектории root и вращений. Оверфитил на одном сэмпле, учил на датасетах разных размеров, ничего не помогает.
В конечном счете решил, что да и хуй с ним, потом вернусь к проблеме. Экспортнул в ONNX, прогоняю тестовый инференс, работает идеально, никакого jitter.
Угадайте в чем была ошибка…
Работаю над нейросетью, которая сможет генерировать анимации в реальном времени в игровом движке в разных стилях.
Обучаю, запускаю, вижу jitter — дрожание в суставах. Персонаж в общих чертах выполняет анимацию, но все суставы дрожат, root дергается, выглядит сомнительно.
Под капотом диффузия, которая генерирует движения из шума. Сначала уповал на нее, перечитал статьи вдоль и поперек, от руки сделал все выкладки, написал тесты, вроде все работает.
Далее крутил loss, прикрутил jerk — 3-ю производную по времени. Улучшений нет.
Зашел с другой стороны, накинул аугментаций в DataLoader со сглаживанием траектории root и вращений. Оверфитил на одном сэмпле, учил на датасетах разных размеров, ничего не помогает.
В конечном счете решил, что да и хуй с ним, потом вернусь к проблеме. Экспортнул в ONNX, прогоняю тестовый инференс, работает идеально, никакого jitter.
Угадайте в чем была ошибка…
Про Cursor и Vibe Coding
Сейчас среди разработчиков царят те же настроения, что два года назад охватили художников после выхода Stable Diffusion.
Есть два лагеря: одни отрицают и плюются, другие активно используют AI. Я определённо во втором лагере и в восторге от прогресса, но без нюансов не обошлось.
Cursor — это форк VSCode, где разработчики основательно поработали над качеством автодополнения (tab) и встроили чат, который отлично работает с кодом. К слову, это самый быстрорастущий стартап в истории — что-то около $200M ARR всего за год-два.
Наибольший буст я ощущаю там, где у меня меньше экспертизы — в задачах, связанных с фронтендом. За последний месяц сделал нативное macOS-приложение на Swift, несколько веб-сервисов для личных нужд, закрыл пару фронтенд-фичей на работе. Без Cursor даже не стал бы за это браться. Часто использую чат в формате vibe coding — прошу продумать архитектуру, предложить тесты, только потом перехожу к коду. Активно юзаю git, не стесняюсь дропать итерации, на которые потратил до 10 минут и начинать заново.
Когда же работаю над ML-задачами, особенно при воспроизведении статей, чаще пишу маленькие куски в Jupyter вообще без автокомплита (может и зря, судя по прошлому посту). Смотрю глазами на промежуточные тензоры, подключаю визуализации — и только потом переношу в основной репозиторий. Тем не менее, Cursor ускоряет работу и здесь — Tab-комплит работает куда лучше GitHub Copilot, особенно в связке с mypy. Но по продуктивности всё равно не дотягивает до вайб-говнокодинга фронта.
В целом, производительность выросла на порядок. Могу пилить полноценные прототипы сервисов в соло — раньше для этого требовалась команда из 2-3 человек. Освободилось больше времени на математику и литкод, что в перспективе бустит карьеру.
В краткосрочной перспективе — сплошные плюсы. В долгосрочной — возможно, придётся больше работать ртом 😏
Сейчас среди разработчиков царят те же настроения, что два года назад охватили художников после выхода Stable Diffusion.
Есть два лагеря: одни отрицают и плюются, другие активно используют AI. Я определённо во втором лагере и в восторге от прогресса, но без нюансов не обошлось.
Cursor — это форк VSCode, где разработчики основательно поработали над качеством автодополнения (tab) и встроили чат, который отлично работает с кодом. К слову, это самый быстрорастущий стартап в истории — что-то около $200M ARR всего за год-два.
Наибольший буст я ощущаю там, где у меня меньше экспертизы — в задачах, связанных с фронтендом. За последний месяц сделал нативное macOS-приложение на Swift, несколько веб-сервисов для личных нужд, закрыл пару фронтенд-фичей на работе. Без Cursor даже не стал бы за это браться. Часто использую чат в формате vibe coding — прошу продумать архитектуру, предложить тесты, только потом перехожу к коду. Активно юзаю git, не стесняюсь дропать итерации, на которые потратил до 10 минут и начинать заново.
Когда же работаю над ML-задачами, особенно при воспроизведении статей, чаще пишу маленькие куски в Jupyter вообще без автокомплита (может и зря, судя по прошлому посту). Смотрю глазами на промежуточные тензоры, подключаю визуализации — и только потом переношу в основной репозиторий. Тем не менее, Cursor ускоряет работу и здесь — Tab-комплит работает куда лучше GitHub Copilot, особенно в связке с mypy. Но по продуктивности всё равно не дотягивает до вайб-говнокодинга фронта.
В целом, производительность выросла на порядок. Могу пилить полноценные прототипы сервисов в соло — раньше для этого требовалась команда из 2-3 человек. Освободилось больше времени на математику и литкод, что в перспективе бустит карьеру.
В краткосрочной перспективе — сплошные плюсы. В долгосрочной — возможно, придётся больше работать ртом 😏
Квантовый компьютер
В последнее время всё чаще слышу про квантовые компьютеры. Microsoft активно продвигают идею топологического кубита. Дженсен (CEO Nvidia) организовал двухчасовую панель на GTC, целиком посвящённую квантовым вычислениям.
Дополнительная мотивация:
- где-то когда-то слышал, что квантовые компьютеры могут быстрее минимизировать функции — а значит, ускорять обучение нейросетей;
- вроде при достаточно большом числе кубитов можно быстро раскладывать большие числа на простые множители, ломать классическую криптографию, подписывать транзакции — наводить суету и балдеть.
На фоне всего этого хайпа появилось желание хотя бы немного разобраться в теме.
А сегодня 3Blue1Brown как будто под заказ выпустил видео, где на примере алгоритма Грувера объясняет базовую идею квантовых вычислений. Мне так зашло, что даже решил поделиться своими заметками.
В последнее время всё чаще слышу про квантовые компьютеры. Microsoft активно продвигают идею топологического кубита. Дженсен (CEO Nvidia) организовал двухчасовую панель на GTC, целиком посвящённую квантовым вычислениям.
Дополнительная мотивация:
- где-то когда-то слышал, что квантовые компьютеры могут быстрее минимизировать функции — а значит, ускорять обучение нейросетей;
- вроде при достаточно большом числе кубитов можно быстро раскладывать большие числа на простые множители, ломать классическую криптографию, подписывать транзакции — наводить суету и балдеть.
На фоне всего этого хайпа появилось желание хотя бы немного разобраться в теме.
А сегодня 3Blue1Brown как будто под заказ выпустил видео, где на примере алгоритма Грувера объясняет базовую идею квантовых вычислений. Мне так зашло, что даже решил поделиться своими заметками.
YouTube
But what is quantum computing? (Grover's Algorithm)
Qubits, state vectors, and Grover's algorithm for search.
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.
The subtitles on this video were done…
Instead of sponsored ad reads, these lessons are funded directly by viewers: https://3b1b.co/support
An equally valuable form of support is to share the videos.
The subtitles on this video were done…
Text-To-Speech
Работаю над проектом, где надо было сравнить различные модели и сервисы для генерации речи по тексту. Интересным открытием стала open source нейросеть Kokoro. В ней всего 82М параметров, при этом она входит в топ-10 TTS Arena и выдает солидное качество.
На выходных расчехлил cursor и под пивас накидал библиотеку, чтобы можно было через единый интерфейс тестировать разных провайдеров. Выложил в открытый доступ, может кому-нибудь пригодится.
Проще всего попробовать в Colab.
Код: https://github.com/arch1baald/utts
Работаю над проектом, где надо было сравнить различные модели и сервисы для генерации речи по тексту. Интересным открытием стала open source нейросеть Kokoro. В ней всего 82М параметров, при этом она входит в топ-10 TTS Arena и выдает солидное качество.
На выходных расчехлил cursor и под пивас накидал библиотеку, чтобы можно было через единый интерфейс тестировать разных провайдеров. Выложил в открытый доступ, может кому-нибудь пригодится.
Проще всего попробовать в Colab.
Код: https://github.com/arch1baald/utts
pip install utts
Посмотрел на днях подкаст с CEO Cursor. Он рассказывал, что изначально компания делала продукт для mechanical engineering. Затем они пивотнулись в инструмент для кодинга, вдохновившись GitHub Copilot. Причём сначала пытались писать свою IDE с нуля, и только после второго пивота решили сделать форк VSCode.
Ответ на вопрос о конкурентных преимуществах не особо впечатлил: ставка на кастомные модели, команду и то, что они смогут деливерить быстрее и лучше всех.
Пару дней назад OpenAI купили Windsurf за $3B. Google и Meta явно делают подобные инструменты внутри. Интересно, останется ли Cursor в нашей жизни через 2–3 года — или канет в небытие.
https://youtu.be/En5cSXgGvZM?si=a5n8VGplxH5RtXbm
Ответ на вопрос о конкурентных преимуществах не особо впечатлил: ставка на кастомные модели, команду и то, что они смогут деливерить быстрее и лучше всех.
Пару дней назад OpenAI купили Windsurf за $3B. Google и Meta явно делают подобные инструменты внутри. Интересно, останется ли Cursor в нашей жизни через 2–3 года — или канет в небытие.
https://youtu.be/En5cSXgGvZM?si=a5n8VGplxH5RtXbm
В Штатах у всех есть личные сайты.
В рунете разработчики пишут статьи на Хабр и приземляют трафик в свои телеграм-каналы. Дальше телега начинает расти за счёт репостов, а с какого-то момента можно уже запускать коллаборации.
В США я пока не до конца разобрался, но складывается ощущение, что там разработчики публикуют статьи на своих персональных блогах, кидают ссылки на Hacker News и Reddit, а потом приземляют трафик в email-рассылки, Twitter и LinkedIn.
Короче, я решил тоже завести сайт. А чтобы было совсем трушно — писать его самостоятельно. На заре карьеры опытные линуксоиды говорили мне: «Хочешь распечатать документ — напиши драйвер для принтера». Теперь вспоминаю эту фразу каждый раз, когда оказывается, что мне нужно реализовать базовую фичу: превью картинок, воспроизведение медиа в статье, поддержку формул, которые в условном Notion доступны из коробки.
Иногда закрадывается мысль, что вместо создания контента, я имитирую бурную деятельность, зато с полным контролем над кодом!
В рунете разработчики пишут статьи на Хабр и приземляют трафик в свои телеграм-каналы. Дальше телега начинает расти за счёт репостов, а с какого-то момента можно уже запускать коллаборации.
В США я пока не до конца разобрался, но складывается ощущение, что там разработчики публикуют статьи на своих персональных блогах, кидают ссылки на Hacker News и Reddit, а потом приземляют трафик в email-рассылки, Twitter и LinkedIn.
Короче, я решил тоже завести сайт. А чтобы было совсем трушно — писать его самостоятельно. На заре карьеры опытные линуксоиды говорили мне: «Хочешь распечатать документ — напиши драйвер для принтера». Теперь вспоминаю эту фразу каждый раз, когда оказывается, что мне нужно реализовать базовую фичу: превью картинок, воспроизведение медиа в статье, поддержку формул, которые в условном Notion доступны из коробки.
Иногда закрадывается мысль, что вместо создания контента, я имитирую бурную деятельность, зато с полным контролем над кодом!
Forwarded from GPT/ChatGPT/AI Central Александра Горного
OpenAI купила компанию Джони Айва за $6.5 миллиардов
Сэм Альтман и ключевой дизайнер Apple Джони Айв представили компанию io, приобретенную OpenAI.
Io создает новые устройства для взаимодействия с искусственным интеллектом. Первый продукт может быть представлен публике в 2026 году.
https://www.wsj.com/tech/ai/former-apple-design-guru-jony-ive-to-take-expansive-role-at-openai-5787f7da
Сэм Альтман и ключевой дизайнер Apple Джони Айв представили компанию io, приобретенную OpenAI.
Io создает новые устройства для взаимодействия с искусственным интеллектом. Первый продукт может быть представлен публике в 2026 году.
https://www.wsj.com/tech/ai/former-apple-design-guru-jony-ive-to-take-expansive-role-at-openai-5787f7da
Купил себе новую игрушку — очки Meta & Ray Ban. Теперь могу фотографировать глазами. Из интересного, они выводят звук куда-то над ухом и это неплохо работает. Внутри есть Meta AI, пытаюсь попросить его позвонить ChatGPT, но пока не выходит. Приходится тыкать руками.
Я и сам своего рода ученый.
Наш доклад одобрили на SIGGRAPH 2025. Будем рассказывать про диффузионную модель для анимирования персонажей, которая может работать в реальном времени в игровом движке.
Хотя я и написал всю ML-часть, в Ванкувер не поеду — сказывается увлекательная иммиграционная политика США, от которой у меня уже седые волосы лезут.
Основной вклад скорее инженерный, а не научный, поэтому пока не знаю, будем ли пытаться высосать из пальца пэйпер или ограничимся слайдами.
Наш доклад одобрили на SIGGRAPH 2025. Будем рассказывать про диффузионную модель для анимирования персонажей, которая может работать в реальном времени в игровом движке.
Хотя я и написал всю ML-часть, в Ванкувер не поеду — сказывается увлекательная иммиграционная политика США, от которой у меня уже седые волосы лезут.
Основной вклад скорее инженерный, а не научный, поэтому пока не знаю, будем ли пытаться высосать из пальца пэйпер или ограничимся слайдами.
Forwarded from НЕ МОРГЕНШТЕРН
Please open Telegram to view this post
VIEW IN TELEGRAM