Forwarded from Denis Sexy IT 🤖
Мнение по Operator от ChatGPT на основе дня использования:
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза
- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли
- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать
- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным
- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно
- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚
- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент
Пока что мне нравится, соберу потом сценарии использования от сообщества
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза
- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли
- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать
- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным
- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно
- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚
- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент
Пока что мне нравится, соберу потом сценарии использования от сообщества
GitHub
scratch/system_prompts/operator_system_prompt-2025-01-23.txt at 80847e027aaff42071eaff0502324736d7db4f47 · wunderwuzzi23/scratch
Repo with random useful scripts, utilities, prompts and stuff - wunderwuzzi23/scratch
Я же говорил, что анонс Трампа разгонит AI индустрию в целом. Вслед за Stargate Марк флексит тем, какой большой датацентр размером с Манхэттен строит Мета.
Это будет датацентр мощностью 2GW+. В 2025 онлайн уже будет ~1GW* мощности и более 1.3 миллиона GPU! Только в 25 году в этот проект будет проинвестировано $60-65 млрд, а также Марк будет значительно наращивать AI команду внутри Мета - а это значит еще больше конкуренции за таланты!
* 1GW - это мощность, выдаваемая средненькой атомной электростанцией, например Беларуская АЭС производит 1.2 GW.
@ai_newz
Это будет датацентр мощностью 2GW+. В 2025 онлайн уже будет ~1GW* мощности и более 1.3 миллиона GPU! Только в 25 году в этот проект будет проинвестировано $60-65 млрд, а также Марк будет значительно наращивать AI команду внутри Мета - а это значит еще больше конкуренции за таланты!
* 1GW - это мощность, выдаваемая средненькой атомной электростанцией, например Беларуская АЭС производит 1.2 GW.
@ai_newz
Теперь поиск можно юзать вместе с R1
Работает и на сайте и в приложениях (да, у них теперь есть приложения на Android и iOS). DeepSeek, как всегда, просто релизят фичи, без анонса.
Надеюсь OpenAI почувствуют давление и добавят и это и интерпретатор кода в o1, а DeepSeek, в свою очередь, ответит, ведь конкуренция - это хорошо. Релиз R1 уже побудил их анонсировать бесплатный доступ к o3-mini.
chat.deepseek.com
@ai_newz
Работает и на сайте и в приложениях (да, у них теперь есть приложения на Android и iOS). DeepSeek, как всегда, просто релизят фичи, без анонса.
Надеюсь OpenAI почувствуют давление и добавят и это и интерпретатор кода в o1, а DeepSeek, в свою очередь, ответит, ведь конкуренция - это хорошо. Релиз R1 уже побудил их анонсировать бесплатный доступ к o3-mini.
chat.deepseek.com
@ai_newz
Нейродайджест за неделю (#53)
DeepSeek R1
Китайцы выложили в общий доступ свою reasoning-модель, на уровне o1 от OpenAI!
- Веса — для запуска потребуется 8xH200, для тех кто не может себе позволить есть дешевые API и бесплатный чат.
- Бенчи — R1 особенно хороша в коде и математике.
- Дистилляты — их есть целый спектр и даже 1.5B моделька по бенчам обходит 4o в узких задачах.
- Генерируем видосы в стиле 3Blue1Brown — Manim позволяет создавать самые разнообразные визуализации и презентации (не только математические) с помощью кода, и с этим R1 справляется на ура.
- Поиск с R1 — у DeepSeek и так был один из лучших AI-поисковиков, у тут с reasoning он стал ещё лучше.
LLM другое
- Gemini Flash Thinking — очередная "малявка" от Google, хороша, но где флагманы Google?
- Последний экзамен человечества — что будет, если всем миром собрать пул из 6000 самых сложных задач? LLM решат меньше 10% из них.
- Operator — агент, который может брать под контроль браузер от OpenAI. Уже доступен за $200.
Инфраструктура для LLM
- Stargate — $500B потекут рекой прямо в залив AI с лёгкой руки Трампа. Ни о каких регуляциях для больших разработчиков и уж тем более калифорнийском проекте запретов речи уже не идёт.
- 2GW датацентр от Meta — Марк анонсировал огромный датацентр размером с Манхэттен.
Прочее
- Kling Elements — мои тесты для видеогенерации с заданными объектам: костыль есть костыль.
Читать дайджест #52
#дайджест
@ai_newz
DeepSeek R1
Китайцы выложили в общий доступ свою reasoning-модель, на уровне o1 от OpenAI!
- Веса — для запуска потребуется 8xH200, для тех кто не может себе позволить есть дешевые API и бесплатный чат.
- Бенчи — R1 особенно хороша в коде и математике.
- Дистилляты — их есть целый спектр и даже 1.5B моделька по бенчам обходит 4o в узких задачах.
- Генерируем видосы в стиле 3Blue1Brown — Manim позволяет создавать самые разнообразные визуализации и презентации (не только математические) с помощью кода, и с этим R1 справляется на ура.
- Поиск с R1 — у DeepSeek и так был один из лучших AI-поисковиков, у тут с reasoning он стал ещё лучше.
LLM другое
- Gemini Flash Thinking — очередная "малявка" от Google, хороша, но где флагманы Google?
- Последний экзамен человечества — что будет, если всем миром собрать пул из 6000 самых сложных задач? LLM решат меньше 10% из них.
- Operator — агент, который может брать под контроль браузер от OpenAI. Уже доступен за $200.
Инфраструктура для LLM
- Stargate — $500B потекут рекой прямо в залив AI с лёгкой руки Трампа. Ни о каких регуляциях для больших разработчиков и уж тем более калифорнийском проекте запретов речи уже не идёт.
- 2GW датацентр от Meta — Марк анонсировал огромный датацентр размером с Манхэттен.
Прочее
- Kling Elements — мои тесты для видеогенерации с заданными объектам: костыль есть костыль.
Читать дайджест #52
#дайджест
@ai_newz
Perplexity добавили Reasoning в Pro Search
Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.
R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.
Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.
perplexity.ai
@ai_newz
Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.
R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.
Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.
perplexity.ai
@ai_newz
Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen
У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё
➖ Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).
➖ Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.
➖ Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.
Веса Qwen-2.5-VL
Веса Qwen-2.5-1M
chat.qwenlm.ai
@ai_newz
У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё
➖ Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).
➖ Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.
➖ Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.
Веса Qwen-2.5-VL
Веса Qwen-2.5-1M
chat.qwenlm.ai
@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Хайп по DeepSeek дошёл до Трампа
Мнение сводится к: "если китайцы могут тренировать модели эффективнее, то и наши лучшие в мире учёные смогут".
На удивление взвешенная и адекватная оценка, без копиума которого так много нынче в твиттере.
@ai_newz
Мнение сводится к: "если китайцы могут тренировать модели эффективнее, то и наши лучшие в мире учёные смогут".
На удивление взвешенная и адекватная оценка, без копиума которого так много нынче в твиттере.
@ai_newz
Qwen-2.5-Max - китайцам тоже сложно конкурировать с DeepSeek
На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner.
Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех, что уже стали стандартом.
Основное достоинство модели при такой цене - то, что её главный конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.
Ко всему прочему это закрытая модель, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.
chat.qwenlm.ai
Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше
@ai_newz
На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner.
Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех, что уже стали стандартом.
Основное достоинство модели при такой цене - то, что её главный конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.
Ко всему прочему это закрытая модель, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.
chat.qwenlm.ai
Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше
@ai_newz
Опенсорс Suno🤡 🤡 🤡
Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.
К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.
Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)
Модели на HF
Project page
GitHub
@ai_newz
Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.
К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.
Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)
Модели на HF
Project page
GitHub
@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Фотоотчет с тусовки "эйай ньюз" на Бали
Выкладываю запоздалые фоточки с оффлайн встречи 3 Января, которую мы провели на Бали. Неожиданно много людей собралось. На пике было около 40 человек, только посмотрите на толпу на коллективном фото!
Как всегда было очень круто - интересные люди (не обошлось и без присущих Бали приколов), классное пространство (отдельное спасибо Ash Nuanu), и глубокие разговоры про AI! Кстати, это был первый раз, когда подготовка к ивенту была настолько серьезной, что у нас было даже целых два микрофона, чтобы все могли хорошо слышать дискуссию и задавать вопросы.
Я в очередной раз приятно удивлен концентрацией умных, приятных и талантливых людей в нашем комьюнити!
---
Как вы уже могли заметить, я очень люблю организовывать такие тусы. Поэтому, пользуясь случаем, хочу анонсировать, что я буду на Кипре, в Лимассоле на этих выходных и хочу там тоже организовать сходку! Ориентировочно в Вск вечером 2.02.2025. За подробностями присоединяйтесь к Кипрскому чату, если вы на Кипре. Буду рас вас всех увидеть!
@ai_newz
Выкладываю запоздалые фоточки с оффлайн встречи 3 Января, которую мы провели на Бали. Неожиданно много людей собралось. На пике было около 40 человек, только посмотрите на толпу на коллективном фото!
Как всегда было очень круто - интересные люди (не обошлось и без присущих Бали приколов), классное пространство (отдельное спасибо Ash Nuanu), и глубокие разговоры про AI! Кстати, это был первый раз, когда подготовка к ивенту была настолько серьезной, что у нас было даже целых два микрофона, чтобы все могли хорошо слышать дискуссию и задавать вопросы.
Я в очередной раз приятно удивлен концентрацией умных, приятных и талантливых людей в нашем комьюнити!
---
Как вы уже могли заметить, я очень люблю организовывать такие тусы. Поэтому, пользуясь случаем, хочу анонсировать, что я буду на Кипре, в Лимассоле на этих выходных и хочу там тоже организовать сходку! Ориентировочно в Вск вечером 2.02.2025. За подробностями присоединяйтесь к Кипрскому чату, если вы на Кипре. Буду рас вас всех увидеть!
@ai_newz
Mistral Small 3
О, вот и новая моделька от Mistral, от который уже несколько месяцев не было опенсорс релизов. 24B, по бенчам сравнивают с Llama 3.3 и Qwen 2.5 32B.
Модель должна влезть в 3090/4090/5090, ждём reasoner тюнов. Хорошая новость - лицензия Apache, так что с моделью можно делать вообще что угодно.
magnet:?xt=urn:btih:11f2d1ca613ccf5a5c60104db9f3babdfa2e6003&dn=Mistral-Small-3-Instruct&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=http%3A%2F%http://2Fopen.tracker.cl%3A1337%2Fannounce
Блогпост
@ai_newz
О, вот и новая моделька от Mistral, от который уже несколько месяцев не было опенсорс релизов. 24B, по бенчам сравнивают с Llama 3.3 и Qwen 2.5 32B.
Модель должна влезть в 3090/4090/5090, ждём reasoner тюнов. Хорошая новость - лицензия Apache, так что с моделью можно делать вообще что угодно.
magnet:?xt=urn:btih:11f2d1ca613ccf5a5c60104db9f3babdfa2e6003&dn=Mistral-Small-3-Instruct&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=http%3A%2F%http://2Fopen.tracker.cl%3A1337%2Fannounce
Блогпост
@ai_newz
эйай ньюз
Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню. С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята. Что за статья пока точно…
В суматохе работы cовсем забыл поделиться хорошими новостями! Нашу статейку приняли на ICLR – spotlight! Ну, и кстати, я впервые сабмитил что-то на ICLR, до этого были либо конференции по зрению либо NeurIPS.
Это моя первая статья непосредственно по LLM, мы там представляем новый метод по значительному ускорению инференса 405-миллиардной модели.
В ближайшие дни будет на архиве, тогда и напишу про нее подробнее.
#резерч
@ai_newz
Это моя первая статья непосредственно по LLM, мы там представляем новый метод по значительному ускорению инференса 405-миллиардной модели.
В ближайшие дни будет на архиве, тогда и напишу про нее подробнее.
#резерч
@ai_newz