Telegram Group Search
Для вас это просто гифки из телеграма, а для гемини - целый мир, полный удивительных историй.

де #генерации
Forwarded from Denis Sexy IT 🤖
Там Black Forest Labs выкатили апдейт на сайт – добавили пресеты для Kontext Pro модели (это которая делает фотошоп текстом)

Из всех пресетов мне больше всего понравился этот – заливаете фото и он генерирует новые ракурсы:
https://playground.bfl.ai/kontext/move-camera

Качество сильно зависит от качества исходной картинки, ну и поскольку это GenAI, галлюцинации тоже в комплекте
Новый Grok 4 heavy (версия за 300 долларов в месяц) не хочет униматься и продолжает считать себя Гитлером. Это без пользовательских системных промптов и самое начало диалога.

Пишут, что это работает только в новой версии грока heavy. Интересно, как быстро пофиксят и будут ли вообще фиксить.
This media is not supported in your browser
VIEW IN TELEGRAM
Он выбрал быть свободным
Forwarded from AI для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
🤫 Полностью сгенерированная Операционная Система

Как нейронная сеть учится притворяться Ubuntu и почему это заставляет по-новому взглянуть на то, что мы видим на экране

Когда вы двигаете курсор, открываете папку или набираете команду в терминале, кажется, что «компьютер действительно что-то делает». Но если посмотреть на компьютер с точки зрения стороннего наблюдателя не знакомого с внутренними процессами, всё сводится к тому, что несколько миллионов прямоугольников-пикселей перекрашиваются в другие цвета — кадр за кадром.

Команда из Университета Ватерлоо и NRC Canada пошла ва-банк и решила: раз «всё равно нужно показывать пиксели», значит саму операционку можно целиком сгенерировать. Они собрали NeuralOS — модель, которая получает поток событий «мышь-клавиатура» и каждый раз галлюцинирует следующую картинку экрана. Никакого кода файлового менеджера, никакого Firefox внутри контейнера — только рекуррентная нейросеть, следящая за состоянием, и диффузионный «художник», дорисовывающий кадр.

За кулисами всё выглядит так.
• Сначала автоэнкодер ужимает скриншот Ubuntu XFCE до латентного «мини-скрина» 64 × 48 × 16.
• Два LSTM-слоя держат в памяти, что открыто и куда смотрит курсор, причём позиция курсора кодируется мягкой двухмерной «гауссианой», чтобы не промахнуться ни на пиксель.
• Дальше UNet-диффузор берёт эту «память» и возвращает на экран новый кадр — уже в цвете, уже со всеми иконками и тенью под окном.

Обучали чудовище на 120 000 случайных сессий и 2000 «разумных» сессий, которые имитировал агент Claude 3.5. И да, чтобы мышка летала естественно, авторы заставляли алгоритм чертить кривые Безье, а не случайную пилу.

Результат удивительно живой: курсор «промахивается» в среднем меньше чем на два пикселя, переходы в меню угадываются в трети случаев, а запустить демонстрацию можно в браузере — правда, пока со скоростью 1,8 FPS на H100. Сценарий «напечатать длинную команду в терминал» NeuralOS ещё путает, зато окно «Домашняя папка» появляется с такой же задержкой, как на настоящем неторопливом ноуте.

Почему это важно нам, разработчикам?
1. Зеркало интерфейсов. Мы привыкли отделять «код» от «UI», но NeuralOS показывает, что граница иллюзорна: если модель умеет правильно красить пиксели, пользователь поверит во всё, что угодно.
2. Нейронные симуляторы вместо моков. Представьте тестовую среду, где ваш автотест «щёлкает мышкой», а за кадром нет Selenium-драйвера, вместо нее диффузионная модель, обученная на реальных сессиях. Сетевая нестабильность, лаги, случайные клики — всё появится естественно.
3. Карьерный бонус. Рекуррентная память + диффузия — не самая очевидная пара. Разобравшись, как они дружат, вы прокачаете насмотренность в архитектурах за пределами классических LLM.

У NeuralOS, конечно, много «но»: низкое разрешение, чудовищные вычислительные затраты, отсутствие сетевых стэков, да и зачем такой Франкенштейн в проде — неясно. Но сама идея, что поток пикселей можно «выдумывать на лету» звучит очень интересно. Сегодня — игрушка для исследователей, но кто его знает что будет завтра?

💬 Как вам перспектива «генеративного десктопа»? Готовы доверить AI рисовать каждую кнопку, которую нажимаете, или цените стабильность классических окон? Поделитесь мыслями в комментариях и заодно киньте ссылку друзьям-разработчикам — пусть спор разгорится жарче!

Статья
Please open Telegram to view this post
VIEW IN TELEGRAM
Иногда, чтобы принять решение мне не хватает не мотивации, а структуры.

Ты вроде хочешь сменить сферу, но не уверен. Кажется, что выгорел, но не факт. Начинаешь размышлять и тонешь в собственных мыслях, как в файле с 800 вкладками без названий.

Я решил зайти в GigaChat, и не просто спросить «что мне делать», а включить Deep Research
Это отдельный режим, где модель копает глубже: вместо быстрых ответов она помогает разобрать ситуацию, увидеть, как всё связано и предложить другой угол взгляда, более объективный.

Сформулировал запрос как проблему:

«ИИ как зеркало целей: чего ты на самом деле хочешь. Хочу понять, почему я застрял в неопределённости. Какие факторы на это влияют? Как можно подойти к анализу этой ситуации, как к исследованию?»

В ответ не вдохновляющие цитаты и не список шагов. А структурное исследование:
1. внутренние и внешние источники мотивационного конфликта
2. когнитивные искажения в принятии решений
3. постановка целей
4. плюс ссылки на исследования и классификации, которые можно потом гуглить самому.

Без сюсюканья. Без воды. Как будто ты дал своему мозгу внешнюю поддержку на 120 IQ выше, чтобы вынести с поля боя хотя бы один ясный тезис.

И да когда мозг в каше, это иногда эффективнее чем дневник, собеседник или список плюсов и минусов.

Deep Research — это не про ответы. Это про рамки мышления, которые ты временно потерял, а модель может тебе вернуть.
2025/07/14 14:33:32
Back to Top
HTML Embed Code: