Telegram Group Search
Переехал в Лос-Анджелес

Неделю назад приехал с семьей в ЛА. Наконец-то тепло, заебал холод. Шел к этому много лет — держите кулстори.

В октябре 2018 года мы с женой переехали из Москвы в Вильнюс, Литва, вместе с компанией GOSU Data Lab (gosu .ai), где я работал ML Engineer’ом. Тогда это было очень хорошим вариантом, потому что за час можно долететь до Шереметьево с одной стороны и за 30 евро — до Парижа с другой.

Я всегда воспринимал Вильнюс как перевалочный пункт и не планировал там долго оставаться. Но в начале 2020 года (полтора года после переезда) случился Covid-19. Локдауны, летать по Европе стало сложно, сидим дома, рубимся в Counter-Strike. Дошли до того, что я иду к 10 lvl Faceit, а жена бегала с двумя калашами — там и до глобала недалеко.

Слово за слово, х*ем по столу, мы заделали дочку. Она родилась в октябре 2021 года. К тому моменту компанию GOSU купил Сбер за много миллионов долларов и затеял SberGames. Я обзавелся статусом директора по AI, команда выросла до 20+ человек, на подходе виднелись ChatGPT и Stable Diffusion. Жизнь била ключом: сняли красивую квартиру с двориком, где в любую свободную минуту я загорал с пивасиком.

В феврале 2022 случилась так называемая СВО, на что я сказал: «Всем спасибо, до свидания». Это был трудный момент, так как я решил обнулить карьеру и начать работать на английском языке. Вернулся к работе руками, снова устроился Data Scientist / ML Engineer’ом.

В мае 2022 года решил попробовать переехать в Штаты и подписал договор с юристами. Год торговал лицом: делал стартап, ходил по конференциям, писал статьи, сидел в жюри, наводил суету. Летом 2023 стало понятно, что на стартап у меня недостаточно ресурсов, а вот на О-1 визу накопилось достаточно доказательств.

В июле 2023 сел готовиться к собеседованиям и через 40 дней вышел на работу в американскую компанию — повезло. Обычно на этот процесс стоит закладывать 3-6 месяцев при наличии хорошего бэкграунда. К ноябрю был готов мой О-1 кейс, в январе его одобрило USCIS, а в феврале я пошел в посольство в Литве и получил админпроверку, которая длится по сей день, уже более полугода.

К счастью, до подачи на О-1 я оформил туристическую визу на несколько лет на всю семью. В течение 2023–2024 годов каждые 3 месяца я ездил в США на онсайты по работе: 24 часа летишь в экономе с пересадками, работаешь 4 дня нон-стоп, в конце — 24 часа летишь обратно. Было тяжело, но я летал один, поэтому каждый раз воспринимал это как приключение.

Летом 2024 начал обновлять ВНЖ в Литве. Мне и дочке дали за пару недель. Жене в середине октября пришло письмо, что она на доп. проверке — за 2 недели до дня рождения и за 3 до окончания ее ВНЖ. А поскольку Литва больше не дает визу ожидания, нам нужно было выезжать из страны. Жизнь в очередной раз подталкивала, и мы решили двинуть в Штаты. Раздали почти все вещи, взяли 3 чемодана и полетели.

Приехали по туристической визе, подготовили тонну документов, купили билет из США в Мексику, чтобы нас не заподозрили, что планируем остаться, и нас пустили через границу. Живем в Лос-Анджелесе в доме у CEO стартапа, где я работаю — повезло? За первую неделю открыли счет в банке, купили машину и сняли квартиру в Ирвайне с бассейном.

На следующей неделе будем переезжать, а через месяц подаваться на смену статуса с туристического на О-1. Надеюсь, мы успеем легализоваться до того, как Трамп начнет вставлять палки в колеса, или закончатся деньги.

Такая вот кулстори. В процессе было непросто, приходилось много работать. Сейчас опять, видимо, придется много работать. Зато солнышко и миллиардные оценки стартапов. Есть шанс, что дальше будет лучше)
Снял квартиру

Теперь у меня дома Калифорнийский вайб. Тут в моде Radical Simplicity. Я начал понимать откуда ноги растут
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
Hunyuan Video - новый опенсорс 13B видео генератор от Tencent

Качество офигенное, даже для 13B модели, хоть и генерировать может максимум пять секунд. Но, самое главное - доступны веса.

Генерится 129 кадров, что как раз чуть больше 5 сек в 24 fps.

По архитектуре: используют Temporal VAE с 16 каналами и 4x даунсеплингом по времени, то есть это 32 latent frame'а. То есть автоэнкодер не самый навороченный – в других моделях и видео и 128 каналов и более агрессивный даунсемплинг по времени.

Сама модель очень похожа на Flux, где сначала идут two-stream блоки как в SD3, где картиночные и текстовые токены обрабатываются параллельно, а затем идёт серия обычных DiT блоков.

В качестве текстового энкодера используют Clip и Multimodal LLM (llava-llama-3-8b) вместо традиционного T5. Говорят, что с MLLM у них достигается боле качественный prompt alignment.

Чтобы запустить модель нужно минимум 45 гигабайт видеопамяти для 544x960 видео и 60 гигов для 720p. Умельцы явно подкрутят и оптимизируют модельку, так что запуск на консьюмерских видюхах на низком разрешении не исключён.

Статья занятная, стоит прочитать в деталях.

Я пока сам их моделью ничего не генерил, но предполагаю, что одно видео будет генерится минут 10.

Демка (нужен китайский номер)
Веса
Пейпер

@ai_newz
Google DeepMind показал модель Genie 2 для генерации трехмерных миров на основе текста

Пользователь может описать в тестовом промпте желаемый мир, задать визуальный стиль, и Genie 2 сгенерирует его на лету.

В отличие от многих аналогов, нейросеть Google DeepMind запоминает элементы окружения, которые не находятся в поле зрения пользователя. Благодаря этому, если отвернуться от объекта, а потом снова на него посмотреть, он будет выглядеть примерно также.

Также в DeepMind показали, как сгенерированные миры исследует автономный AI-агент SIMA. Разработчики считают, что такие нейросети как Genie 2 помогут безопасно обучать агентов и готовить их к действиям в реальном мире.

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model/
Forwarded from эйай ньюз
Genie 2 – A large-scale foundation world model

Google DeepMind хвастаются своим игровым AI-движком на базе диффузионного генератора видео. Сейчас это модно назвать World Model, но давайте без булшита, друзья.

Imagen 3 (txt2img от GDM) генерирует картинку – типа начальное состояние игры. Затем, в привычной нам для img2video манере, картинку оживляют, превращая ее в игру, где дополнительным инпутом идет нажатие клавишь.

Пока что игра живёт лишь 60 секунд максимум (в среднем 10–20), но миры все крайне разнообразные и в абсолютно разных условиях. Я имею в виду вид от третьего лица, первого лица, сверху — и даже гонки можно сделать (и на лошади тоже), и просто бродилки, конечно же. Управление по классике: WASD (QE), пробел и мышь.

Также работает и взаимодействие с объектами, например, можно лопать шары, взрывать бочки и открывать двери на E. Там даже NPC-персонажей можно найти, если задать нужный входной "скрин".

Архитектура
Каких-то технических деталей по Genie 2 особо нет — Google на такие вещи довольно скупы. Из моего представления - там тупо latent diffusion image2video модель, где каждый следующих кадр постепенно генерируется, исходя из контекста, состоящего из существующих кадров и нажатий на клавиатуру/мышку.

Черипики с сайта сасные в плане diversity, но не ахти по качеству картинки. Возможно, через год-два каждый сможет сгенерировать себе мир по душе, так же как сейчас генерируют музыку в Suno.

Очевидно, до статуса играбельно ещё далеко. И я тут даже молчу о скорости генерации (об этом не пишут, но, думаю, там не совсем риалтайм). Несмотря на то, что у авторов были горы TPU для обучения и тысячи часов записанного геймплея, качество видео пока хуже PlayStation 1, картинка размытая, и нет четкости в деталях. Ну, и мир сильно плывет после 10–20 секунд. Есть куда улучшать.

Скоро в эту нишу могут вкатиться другие серьёзные игроки (ждём ответку от Маска). Вот тогда и посмотрим.

Блогпост

@ai_newz
Pydantic выкатил AI Agents Framework для валидации ответов LLM в проде

https://ai.pydantic.dev/
Forwarded from эйай ньюз
This media is not supported in your browser
VIEW IN TELEGRAM
OpenAI официально показали Sora!

Доступно будет всем подписчикам ChatGPT - и Plus и Pro. Дают кредитов на до 50 генераций в месяц Plus подписчикам и до 500 быстрых генераций Pro подписчикам. Pro подписчики с более 500 генераций попадают в "медленную очередь".

Длина видео всё таки от 5 до 20 секунд (для Plus максимум 5), а разрешение от 480p до 1080p (Plus подписчики ограничены 720p). На более длинные видео и видео разрешения уходит больше кредитов. К видео можно применять стили и создавать свои.

Показали Storyboard - продвинутый инструмент позволяющий режиссировать видео. К примеру можно попросить Sora сгенерить видео человека, который на пятой секунде видео машет рукой.

Ещё есть куча продвинутых инструментов - можно догенеривать до видео как начало так и концовку, смешивать несколько видео вместе разными способами и много чего ещё.

Модерация сейчас чрезмерно строгая, но OpenAI обещают постепенно снимать ограничения.

sora.com

@ai_newz
Накупил PEPE, пока рынок кровоточит. Ладошки потеют так жоска, что решил с вами поделиться. Есть в чате любители зеленого лягушонка?)
2025/02/15 18:25:02
Back to Top
HTML Embed Code: