Telegram Group Search
Forwarded from Denis Sexy IT 🤖
Мнение по Operator от ChatGPT на основе дня использования:
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза

- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли

- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать

- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным

- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно

- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚

- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент

Пока что мне нравится, соберу потом сценарии использования от сообщества
Я же говорил, что анонс Трампа разгонит AI индустрию в целом. Вслед за Stargate Марк флексит тем, какой большой датацентр размером с Манхэттен строит Мета.

Это будет датацентр мощностью 2GW+. В 2025 онлайн уже будет ~1GW* мощности и более 1.3 миллиона GPU! Только в 25 году в этот проект будет проинвестировано $60-65 млрд, а также Марк будет значительно наращивать AI команду внутри Мета - а это значит еще больше конкуренции за таланты!

* 1GW - это мощность, выдаваемая средненькой атомной электростанцией, например Беларуская АЭС производит 1.2 GW.

@ai_newz
Теперь поиск можно юзать вместе с R1

Работает и на сайте и в приложениях (да, у них теперь есть приложения на Android и iOS). DeepSeek, как всегда, просто релизят фичи, без анонса.

Надеюсь OpenAI почувствуют давление и добавят и это и интерпретатор кода в o1, а DeepSeek, в свою очередь, ответит, ведь конкуренция - это хорошо. Релиз R1 уже побудил их анонсировать бесплатный доступ к o3-mini.

chat.deepseek.com

@ai_newz
Нейродайджест за неделю (#53)

DeepSeek R1
Китайцы выложили в общий доступ свою reasoning-модель, на уровне o1 от OpenAI!
- Веса — для запуска потребуется 8xH200, для тех кто не может себе позволить есть дешевые API и бесплатный чат.
- Бенчи — R1 особенно хороша в коде и математике.
- Дистилляты — их есть целый спектр и даже 1.5B моделька по бенчам обходит 4o в узких задачах.
- Генерируем видосы в стиле 3Blue1Brown — Manim позволяет создавать самые разнообразные визуализации и презентации (не только математические) с помощью кода, и с этим R1 справляется на ура.
- Поиск с R1 — у DeepSeek и так был один из лучших AI-поисковиков, у тут с reasoning он стал ещё лучше.

LLM другое

- Gemini Flash Thinking — очередная "малявка" от Google, хороша, но где флагманы Google?
- Последний экзамен человечества — что будет, если всем миром собрать пул из 6000 самых сложных задач? LLM решат меньше 10% из них.
- Operator — агент, который может брать под контроль браузер от OpenAI. Уже доступен за $200.

Инфраструктура для LLM
- Stargate — $500B потекут рекой прямо в залив AI с лёгкой руки Трампа. Ни о каких регуляциях для больших разработчиков и уж тем более калифорнийском проекте запретов речи уже не идёт.
- 2GW датацентр от Meta — Марк анонсировал огромный датацентр размером с Манхэттен.

Прочее

- Kling Elements — мои тесты для видеогенерации с заданными объектам: костыль есть костыль.

Читать дайджест #52

#дайджест
@ai_newz
Топ апстора в США прямо сейчас

UPD: от такого наплыва юзеров дипсик прилёг
UPD2: частично поднялся
UPD3: ограничили регистрацию новых пользователей

@ai_newz
Perplexity добавили Reasoning в Pro Search

Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.

R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.

Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.

perplexity.ai

@ai_newz
Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen

У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё

Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).

Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.

Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.

Веса Qwen-2.5-VL
Веса Qwen-2.5-1M

chat.qwenlm.ai

@ai_newz
This media is not supported in your browser
VIEW IN TELEGRAM
Хайп по DeepSeek дошёл до Трампа

Мнение сводится к: "если китайцы могут тренировать модели эффективнее, то и наши лучшие в мире учёные смогут".

На удивление взвешенная и адекватная оценка, без копиума которого так много нынче в твиттере.

@ai_newz
Qwen-2.5-Max - китайцам тоже сложно конкурировать с DeepSeek

На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner.

Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех, что уже стали стандартом.

Основное достоинство модели при такой цене - то, что её главный конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.

Ко всему прочему это закрытая модель, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.

chat.qwenlm.ai

Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше

@ai_newz
Опенсорс Suno🤡🤡🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM
Фотоотчет с тусовки "эйай ньюз" на Бали

Выкладываю запоздалые фоточки с оффлайн встречи 3 Января, которую мы провели на Бали. Неожиданно много людей собралось. На пике было около 40 человек, только посмотрите на толпу на коллективном фото!

Как всегда было очень круто - интересные люди (не обошлось и без присущих Бали приколов), классное пространство (отдельное спасибо Ash Nuanu), и глубокие разговоры про AI! Кстати, это был первый раз, когда подготовка к ивенту была настолько серьезной, что у нас было даже целых два микрофона, чтобы все могли хорошо слышать дискуссию и задавать вопросы.

Я в очередной раз приятно удивлен концентрацией умных, приятных и талантливых людей в нашем комьюнити!

---

Как вы уже могли заметить, я очень люблю организовывать такие тусы. Поэтому, пользуясь случаем, хочу анонсировать, что я буду на Кипре, в Лимассоле на этих выходных и хочу там тоже организовать сходку! Ориентировочно в Вск вечером 2.02.2025. За подробностями присоединяйтесь к Кипрскому чату, если вы на Кипре. Буду рас вас всех увидеть!

@ai_newz
Mistral Small 3

О, вот и новая моделька от Mistral, от который уже несколько месяцев не было опенсорс релизов. 24B, по бенчам сравнивают с Llama 3.3 и Qwen 2.5 32B.

Модель должна влезть в 3090/4090/5090, ждём reasoner тюнов. Хорошая новость - лицензия Apache, так что с моделью можно делать вообще что угодно.

magnet:?xt=urn:btih:11f2d1ca613ccf5a5c60104db9f3babdfa2e6003&dn=Mistral-Small-3-Instruct&tr=udp%3A%2F%http://2Ftracker.opentrackr.org%3A1337%2Fannounce&tr=http%3A%2F%http://2Fopen.tracker.cl%3A1337%2Fannounce

Блогпост

@ai_newz
эйай ньюз
Пришли ревью с ICLR. Мы получили отличные рецензии! Но как всегда есть тот самый Reviewer #2, который порет какую-то фигню. С поддержкой остальных ревьюеров, думаю, мы легко сможем опровергнуть R2, и, надеюсь, статья будет принята. Что за статья пока точно…
В суматохе работы cовсем забыл поделиться хорошими новостями! Нашу статейку приняли на ICLR – spotlight! Ну, и кстати, я впервые сабмитил что-то на ICLR, до этого были либо конференции по зрению либо NeurIPS.

Это моя первая статья непосредственно по LLM, мы там представляем новый метод по значительному ускорению инференса 405-миллиардной модели.

В ближайшие дни будет на архиве, тогда и напишу про нее подробнее.

#резерч

@ai_newz
2025/02/16 06:28:10
Back to Top
HTML Embed Code: