Android XR - новая ОС гугла для AR/VR девайсов
Скейлится она должна на всё: от девайсов попроще, до полноценных конкурентов Apple VIsion Pro. Киллер фичей ОС должна стать возможность взаимодействовать с видео-режимом Gemini прямо с очков, так нейронка всегда сможет видеть то же что видит пользователь.
Первым девайсом на Android XR будет Project Moohan от Samsung, который запустится уже в следующем году. Девайс без стыда копирует Vision Pro - схожий дизайн, внешняя батарея, хайенд фичи вроде отслеживания глаз и MicroOLED дисплеев. Производители поменьше, вроде Sony и Lynx, тоже готовят свои устройства.
Превью SDK уже доступно - хоть большинство приложений для Android будут работать без изменений, в систему докинули ряд новых API для создания приложений для хедсетов. В основе их лежит OpenXR, хотя поверх него докинули несколько проприетарных расширений. Новую ОС уже поддерживает Unity, от Epic с их Unreal пока ничего не слышно.
Непонятно хватит ли тут гугла надолго - 10 лет назад они пару лет пытались заниматься VR, но идею быстро забросили. А ещё ведь было фиаско с Google Glass. То же самое можно сказать и про Samsung - пару устройств они выпустили, но долгосрочного интереса не проявляли - последний шлем от Samsung вышел в 2018.
С фичами Project Moohan, цена явно будет выше $1500, даже если они будут продавать их по себестоимости. С такими ценами речи о многомилионных продажах, которые нужны чтобы отбить стоимость разработки, идти не может, так что придётся работать себе в убыток. Сколько времени, как Google, так и производители девайсов, готовы их терпеть - вопрос.
@ai_newz
Скейлится она должна на всё: от девайсов попроще, до полноценных конкурентов Apple VIsion Pro. Киллер фичей ОС должна стать возможность взаимодействовать с видео-режимом Gemini прямо с очков, так нейронка всегда сможет видеть то же что видит пользователь.
Первым девайсом на Android XR будет Project Moohan от Samsung, который запустится уже в следующем году. Девайс без стыда копирует Vision Pro - схожий дизайн, внешняя батарея, хайенд фичи вроде отслеживания глаз и MicroOLED дисплеев. Производители поменьше, вроде Sony и Lynx, тоже готовят свои устройства.
Превью SDK уже доступно - хоть большинство приложений для Android будут работать без изменений, в систему докинули ряд новых API для создания приложений для хедсетов. В основе их лежит OpenXR, хотя поверх него докинули несколько проприетарных расширений. Новую ОС уже поддерживает Unity, от Epic с их Unreal пока ничего не слышно.
Непонятно хватит ли тут гугла надолго - 10 лет назад они пару лет пытались заниматься VR, но идею быстро забросили. А ещё ведь было фиаско с Google Glass. То же самое можно сказать и про Samsung - пару устройств они выпустили, но долгосрочного интереса не проявляли - последний шлем от Samsung вышел в 2018.
С фичами Project Moohan, цена явно будет выше $1500, даже если они будут продавать их по себестоимости. С такими ценами речи о многомилионных продажах, которые нужны чтобы отбить стоимость разработки, идти не может, так что придётся работать себе в убыток. Сколько времени, как Google, так и производители девайсов, готовы их терпеть - вопрос.
@ai_newz
Лучшая фича Claude теперь будет в ChatGPT!
В ChatGPT наконец-то добавляют проекты - способ организовывать чаты с общим контекстом. В проект можно добавить, например, рабочую документацию и кастомные инструкции для группы чатов. Это фича которой мне больше всего не хватало в ChatGPT, наконец-то её релизнули!
Ещё дали апдейт по статусу релизов - Sora и Advanced Video Mode теперь доступны всем подписчикам на Plus и Pro планах за пределамы европы, а санта-режим просто доступен всем подписчикам.
@ai_newz
В ChatGPT наконец-то добавляют проекты - способ организовывать чаты с общим контекстом. В проект можно добавить, например, рабочую документацию и кастомные инструкции для группы чатов. Это фича которой мне больше всего не хватало в ChatGPT, наконец-то её релизнули!
Ещё дали апдейт по статусу релизов - Sora и Advanced Video Mode теперь доступны всем подписчикам на Plus и Pro планах за пределамы европы, а санта-режим просто доступен всем подписчикам.
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Pika 2.0 — мечта всех рекламщиков
Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.
Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.
- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.
Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит🤭
Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.
Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.
pika.art
@ai_newz
Pika продолжают исследовать возможности для контроля видео и на этот раз представили Scene Ingredients.
Фича позволяет создавать видео с реальными людьми (0:37) и объектами, а затем поместить их всех в какое-то место действия. По сути, это IP-Adapter на стероидах для видео. Конечно, тут ничего на лету не обучается, просто на вход сетки подаются дополнительные эмбеддинги референсных объектов. Но это может не очень стабильно работать.
- Подписка за $35 даёт кредитов на 40 видео в месяц (это очень мало).
- За $95 можно получить уже 120 видео.
Видео с Ingredients используют в два раза больше кредитов. Так что подписки даже за 95 баксов на нормальный видос не хватит
Большой упор сделали на рекламщиков. А-ля: загрузи фотку модели и фотку какой-то вещицы — и вот держи, пожалуйста, модный промо-видосик! Но не совсем понятно, насколько это на самом будет хорошо работать и слушаться промпта.
Kling вот недавно тоже сделали шаг в этом направлении, неожиданно релизнув один из лучших virtual try-on'ов. И даже с ним одежда получается не всегда 1 в 1. Чего тогда ожидать от IP-адаптера для видео? Хотя черипики в видосе выше, конечно, прикольные. Слишком уж дорого тратить драгоценные генерации видео без полноценной подложки из 100% рабочей картинки.
pika.art
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейродайджест за неделю (#48)
Новогодние подарки продолжают сыпаться, приобретая лавинный характер...
LLM
- DeepSeek 2.5 — хороший буст в качестве + завезли поиск, который ощущается лучше, чем у OpenAI.
- Canvas (2?) — тулзу внутри ChatGPT знатно прокачали и добавили несколько очень нужных Quality of Life улучшений.
- T-Lite и T-Pro в опенсорсе — отличные результаты! Хитрый финт с файнтюном и дополнительным предобучением дает свои плоды. По бенчмаркам модель занимает топ-1 на русском языке.
- Streaming API — Gemini теперь в реальном времени понимает одновременно и аудио, и видео: как с камеры, так и со стрима экрана.
- Advanced Voice Mode + Video — OpenAI сразу же отвечают, хотя функционал немного ограничен. Но зато модель умнее, чем Gemini Flash, которая используется в Streaming API.
- ChatGPT Projects — наконец-то файлы и чаты можно разложить по папкам и навести порядок во всем этом хаосе.
Генеративные модели
- Aurora — авторегрессионная txt2img модель от xAI. У команды свой уникальный путь со своими плюсами и минусами.
- Pika 2.0 — завезли IP-Adapter для видео. Работает хорошо, но пока не хватает «короля» над картинкой.
Sora
- Утечка SORA — незадолго до релиза произошел слив, прогрев? Еще появилась первая страничка SORA, а затем уже релиз.
- SORA в общем доступе! — теперь все пользователи могут генерировать свои 10-секундные видосики. Революции не случилось, так как за год многие конкуренты уже догнали OpenAI.
- Обзор на SORA от Marques Brownlee — крупнейший техноблогер ютуба выложил обзор на SORA за пару часов до официального анонса и релиза OpenAI.
- Тесты SORA — смотрим на ваши тесты в комментариях.
Прочее
- Месть или победа любой ценой? — история о том, как обиженный саботёр получил Best Paper Award.
- XLand-MiniGrid — среда для тренировки агентов на GPU. Аналог закрытого XLand от Google.
Техника
- Android XR — новая ОС Google для AR/VR-девайсов. Google готовят базу для всех умных очков.
Читать дайджест #47
#дайджест
@ai_newz
Новогодние подарки продолжают сыпаться, приобретая лавинный характер...
LLM
- DeepSeek 2.5 — хороший буст в качестве + завезли поиск, который ощущается лучше, чем у OpenAI.
- Canvas (2?) — тулзу внутри ChatGPT знатно прокачали и добавили несколько очень нужных Quality of Life улучшений.
- T-Lite и T-Pro в опенсорсе — отличные результаты! Хитрый финт с файнтюном и дополнительным предобучением дает свои плоды. По бенчмаркам модель занимает топ-1 на русском языке.
- Streaming API — Gemini теперь в реальном времени понимает одновременно и аудио, и видео: как с камеры, так и со стрима экрана.
- Advanced Voice Mode + Video — OpenAI сразу же отвечают, хотя функционал немного ограничен. Но зато модель умнее, чем Gemini Flash, которая используется в Streaming API.
- ChatGPT Projects — наконец-то файлы и чаты можно разложить по папкам и навести порядок во всем этом хаосе.
Генеративные модели
- Aurora — авторегрессионная txt2img модель от xAI. У команды свой уникальный путь со своими плюсами и минусами.
- Pika 2.0 — завезли IP-Adapter для видео. Работает хорошо, но пока не хватает «короля» над картинкой.
Sora
- Утечка SORA — незадолго до релиза произошел слив, прогрев? Еще появилась первая страничка SORA, а затем уже релиз.
- SORA в общем доступе! — теперь все пользователи могут генерировать свои 10-секундные видосики. Революции не случилось, так как за год многие конкуренты уже догнали OpenAI.
- Обзор на SORA от Marques Brownlee — крупнейший техноблогер ютуба выложил обзор на SORA за пару часов до официального анонса и релиза OpenAI.
- Тесты SORA — смотрим на ваши тесты в комментариях.
Прочее
- Месть или победа любой ценой? — история о том, как обиженный саботёр получил Best Paper Award.
- XLand-MiniGrid — среда для тренировки агентов на GPU. Аналог закрытого XLand от Google.
Техника
- Android XR — новая ОС Google для AR/VR-девайсов. Google готовят базу для всех умных очков.
Читать дайджест #47
#дайджест
@ai_newz
После релиза подписки от OpenAI за $200 баксов, сразу нашлись желающие сделать подписку за $500. Столько берут за Devin - ИИ агента, который должен быть "ещё одним джуном в команде, на которого можно скидывать мелкие задачи". Взаимодействие идёт прямо через Slack или Github, причём за одну подписку доступ даётся сразу всей тиме.
За эти $500, в месяц дают 250 ACU - в лучшем случае это чуть больше 60 часов работы агента. Съесть их можно довольно быстро - Devin может делать несколько задач одновременно, а на отдельную задачу может спокойно уйти 3-5 часов (без гарантии успеха). После того как кредиты закончились, их, разумеется, можно докупать.
Отзывы пользователей так себе - хоть какие-то простые задачи он может делать, но кроме того что на задачи уходит куча времени, у него есть ещё и привычка застревать на середине. Есть и юзеры у которых за $500 Devin смог сделать лишь два изменения в документации.
За неполную неделю после релиза, Devin попал и в небольшой скандал с кибербезопасностью - прямо на стриме популярнейшего стримера Primagen, в Devin нашли неприятную уязвимость. При использовании одной из фич, в ссылке, которую видно в адресной строке браузере, был ключ, позволяющий получить доступ ко всему к чему имеет доступ Devin. То есть, кто угодно кому вы демонстрируете экран мог случайно получить доступ к куче приватной инфы. Вроде мелочь, но сама манера такого обращения с секретами настораживает. Интересно, виноват ли в ошибке сам Devin, или накосячил кто-то из кожаных мешков.
С такими результатами, вопрос, выйдет ли у Cognition, авторов Devin, оправдать свою оценку в два лярда пока у них не закончатся деньги. А ведь конкуренты не спят - Cursor недавно выпустили своего агента - он, конечно, попроще, но и стоит $20 в месяц, плюс это IDE, в которой с AI проще работать совместно. Google на днях тоже запустил превью кодинг агента Jules, основанного на Gemini 2.0. В недрах других бигтех компаний работы тоже явно ведутся.
Несмотря на огромный прогресс в LLM и агентах за последние пару лет, AI всё ещё не может полностью заменить программиста, даже джуна.
@ai_newz
За эти $500, в месяц дают 250 ACU - в лучшем случае это чуть больше 60 часов работы агента. Съесть их можно довольно быстро - Devin может делать несколько задач одновременно, а на отдельную задачу может спокойно уйти 3-5 часов (без гарантии успеха). После того как кредиты закончились, их, разумеется, можно докупать.
Отзывы пользователей так себе - хоть какие-то простые задачи он может делать, но кроме того что на задачи уходит куча времени, у него есть ещё и привычка застревать на середине. Есть и юзеры у которых за $500 Devin смог сделать лишь два изменения в документации.
За неполную неделю после релиза, Devin попал и в небольшой скандал с кибербезопасностью - прямо на стриме популярнейшего стримера Primagen, в Devin нашли неприятную уязвимость. При использовании одной из фич, в ссылке, которую видно в адресной строке браузере, был ключ, позволяющий получить доступ ко всему к чему имеет доступ Devin. То есть, кто угодно кому вы демонстрируете экран мог случайно получить доступ к куче приватной инфы. Вроде мелочь, но сама манера такого обращения с секретами настораживает. Интересно, виноват ли в ошибке сам Devin, или накосячил кто-то из кожаных мешков.
С такими результатами, вопрос, выйдет ли у Cognition, авторов Devin, оправдать свою оценку в два лярда пока у них не закончатся деньги. А ведь конкуренты не спят - Cursor недавно выпустили своего агента - он, конечно, попроще, но и стоит $20 в месяц, плюс это IDE, в которой с AI проще работать совместно. Google на днях тоже запустил превью кодинг агента Jules, основанного на Gemini 2.0. В недрах других бигтех компаний работы тоже явно ведутся.
Несмотря на огромный прогресс в LLM и агентах за последние пару лет, AI всё ещё не может полностью заменить программиста, даже джуна.
@ai_newz
В ChatGPT улучшили поиск
Парад трансляций продолжается, 8 позади, 4 осталось.
🔎 Теперь поиск доступен бесплатным пользователям
🔎 В Advanced Voice Mode теперь есть поиск
🔎 Качество поиска в целом апгрейднули
Стоит ли дальше писать про такие минорные апдейты, или только про что-то важное?
@ai_newz
Парад трансляций продолжается, 8 позади, 4 осталось.
🔎 Теперь поиск доступен бесплатным пользователям
🔎 В Advanced Voice Mode теперь есть поиск
🔎 Качество поиска в целом апгрейднули
Стоит ли дальше писать про такие минорные апдейты, или только про что-то важное?
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Veo 2 — новая SOTA видео-генерация?!
Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.
Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.
Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.
Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.
@ai_newz
Google стратегически дождались релиза Sora от OpenAI, чтобы сразу представить свою ответку. По их внутренним тестам, Veo 2 заметно опережает конкурентов. Правда, я бы не стал слепо доверять их тестам, согласно которым клинг чуть ли не лучше MovieGen и Sora.
Однако, черрипики на сайте выглядят впечатляюще. Как минимум, фламинго не путает передние и задние ноги и Veo 2 почти безошибочно справился с фигуристкой. Но с более динамичными сценами пока есть трудности, о чём сами признаются в DeepMind — см. пример со скейтбордистом.
Технических деталей немного, кроме того, что модель на релизе выдаёт разрешение 720p с возможностью дойти до 4К! Длина видео — 8 секунд, золотая середина между 5-ю и 10-ю секундами, где уже чаще возникают артефакты. Картинки на вход, вроде бы, пока не принимает.
Есть даже регистрация в вейтлист, правда чтобы туда добавили просят заполнить небольшую анкету, да и сколько ждать — неизвестно. Надеюсь, гугл не будет опять годами держать модель за семью печатями.
@ai_newz
Сбер выпустил в опенсорс три модели для русского языка
Они все довольно небольшие и для их запуска не нужен сервер за сотни тысяч долларов, да и по качеству там всё в порядке.
GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.
GigaEmbeddings - 2.5B Dense модель для эмбеддингов, которая бьёт даже 7B модели по качеству.
GigaAMv2 - модель для распознавания речи, заточенная под русский, на бенчах лучше последних версий Whisper. Это важно, потому что в последних версиях, Whisper всё больше и больше тюнят чисто под английский, обделяя другие языки вниманием, хорошо иметь альтернативу.
Большой плюс этих моделей - они натренированы изначально под русский, а не тюны моделей с других языков. Из-за этого срываться на английский и китайский они не будут, чем часто грешат другие модели, особенно квантизированные.
@ai_newz
Они все довольно небольшие и для их запуска не нужен сервер за сотни тысяч долларов, да и по качеству там всё в порядке.
GigaChat Lite - MoE модель, с 3 миллиардами активных параметров. Она бьёт по качеству на русском все модели в 8B сегменте, но немного отстаёт от 8b на англоязычных бенчах. Длиной контекста тоже не обделили - модель поддерживает до 131 тысячи токенов контекста. Это, кстати, первый опенсорс MoE для русского языка на моей памяти, причём это не что-то супер простое, типа Mixtral - там используется fine-grained MoE, вроде того что в DeepSeek V2.
GigaEmbeddings - 2.5B Dense модель для эмбеддингов, которая бьёт даже 7B модели по качеству.
GigaAMv2 - модель для распознавания речи, заточенная под русский, на бенчах лучше последних версий Whisper. Это важно, потому что в последних версиях, Whisper всё больше и больше тюнят чисто под английский, обделяя другие языки вниманием, хорошо иметь альтернативу.
Большой плюс этих моделей - они натренированы изначально под русский, а не тюны моделей с других языков. Из-за этого срываться на английский и китайский они не будут, чем часто грешат другие модели, особенно квантизированные.
@ai_newz
9 стрим OpenAI - апдейты API
⭐️ Запустили полноценное API для o1: добавили structured outputs, картинки на вход, вызов функций и developer messages (дополнительный промпт по силе между системным и юзер промптом). Ко всему этому o1 можно теперь указать насколько сильно модель должна думать над проблемой, что крайней полезно. Ещё хвастаются что полноценная o1 использует на 60% меньше токенов чем o1-preview. Ждём файнтюнов o1 и o1-pro в API.
⏳Цену риалтайм API дропнули на 60% для обычной GPT-4o, но теперь риалтайм режим будет и у 4o-mini! Ещё в realtime режим API добавили поддержку WebRTC, должно улучшить стабильность и качество связи, плюс интегрировать будет куда проще.
🪛 Добавили preference finetuning в API для GPT-4o, 4o-mini обещают скоро.
@ai_newz
⭐️ Запустили полноценное API для o1: добавили structured outputs, картинки на вход, вызов функций и developer messages (дополнительный промпт по силе между системным и юзер промптом). Ко всему этому o1 можно теперь указать насколько сильно модель должна думать над проблемой, что крайней полезно. Ещё хвастаются что полноценная o1 использует на 60% меньше токенов чем o1-preview. Ждём файнтюнов o1 и o1-pro в API.
⏳Цену риалтайм API дропнули на 60% для обычной GPT-4o, но теперь риалтайм режим будет и у 4o-mini! Ещё в realtime режим API добавили поддержку WebRTC, должно улучшить стабильность и качество связи, плюс интегрировать будет куда проще.
🪛 Добавили preference finetuning в API для GPT-4o, 4o-mini обещают скоро.
@ai_newz