ai_newz 3650 Telegram Group

😮

Трамп анонсировал проект Stargate по построению AI инфраструктуры в США на $500 млрд

Инвестиции в размере $500B – это очень много денег, и составляет 1.7% ВВП США, что сравнимо с тратами на Лунную програму США в прошлом веке. Еще для сравнения, это в 3 раза больше всей VC индустрии в США!

Почему сейчас? Потому что Китайцы давят люто, и даже с гораздо меньшими ресурсами и под санкциями выпускают модели, которые не хуже по качеству чем у OpenAI, да еще и дешевле и быстрее.

США видит в этом прямую угрозу и хотят оставаться лидером в гонке AI. Также на уровне государства все осознали потенциал AI трансформации во многих сферах жизни, включая экономику и военную промышленность, куда исторически США инвестирует большие доллары.

Что это значит для нас? Это значит, что сфера дальше будет раздуваться, зарплаты AI инженеров и сайнтистов расти, а размер инвестиций в AI увеличиваться. Инфра и инференс моделей сильно подешевеет. Как сказал Коля Давыдов: "нас зальют баблом, AI стартапам будет очень хорошо".

Приведет ли это к AGI в широком понимании в течение следующих 5 лет? Я тут скорее скептичен и склоняюсь к тому, что нет. Но модели точно станут более мощными и умными.

Мы с вами в очень правильное время занимаемся очень правильными вещами.

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

36.3K viewsedited 09:47

эйай ньюз

Google продолжает эксперименты с reasoner моделями. Компания обновила свою Gemini Flash Thinking (доступна бесплатно в AI Studio) - она теперь умнее, имеет миллион токенов контекста и может выполнять код (нужно отдельно включать). Вообще раздражает, что в AI studio не всегда понятно, когда именно модель пользуется поиском или исполнением кода,

Моделька сейчас занимает первое место на чатбот арене, обгоняя o1, Sonnet 3.6 и другие модели, что доказывает бесполезность этой самой арены - у модели очень сильный "small model smell". Она уходит в думлупы, не знает многих вещей и в целом часто тупит. Но, хоть и от Gemini-Exp-1206 впечатления часто были приятнее, на кодинге с математикой Flash Thinking всё же показывает себя лучше (но слабее o1 и R1).

Что мне не нравится в поведении Google в последний год - концентрация на маленьких модельках. Сначала с радаров пропала Gemini Ultra, а теперь уже и Pro не так часто появляется. Выглядит это, честно говоря, странно - как будто бы команде дают только компьют на эксперименты, но не на скейлинг.

Flash Thinking, для маленькой модели, показывает себя прекрасно. Но всё же хочется посмотреть, насколько хорошей будет Gemini Pro/Ultra Thinking. И, учитывая тот факт, что дистилляция из большей модели, работает намного лучше чем RL напрямую на маленькой модели, насколько похорошеет Flash от дистилляции из моделей побольше.

@ai_newz

29.5K views15:58

эйай ньюз

Последний экзамен человечества

Новый бенчмарк, на котором все наилучшие LLM набирают меньше 10%. Собирали его всем миром - была открыта форма, где принимались вопросы, если на вопросе фейлились основные передовые LLM - его давали на обсуждение панели экспертов, которая которая отсеивала неподходящие вопросы и модифицировала прошедшие ценз вопросы. Всего LLM не прошли 13000 вопросов, из которых выбрали 6000, на более чем сотню разных тем. Половину из них - опубликовали, половина - попала в приватный сет. Авторы топ 50 лучших вопросов получили $5000, за следующие 500 вопросов уже платили $500, что тоже солидно.

На бенче лидируют o1 и R1, причём кто лучше тут сказать сложно. 10% бенчмарка - мультимодальные вопросы, R1 в изображения не умеет, поэтому её тестили лишь на текстовой части, где она обогнала всех (так что то что она на уровне o1 - не байт). А на полном бенче всех обгоняет o1. Что интересно - у всех моделей, кроме Grok 2, при переходе на текстовую часть бенчмарка, слегка падает точность, но результаты моделей пока что слишком плохие чтобы делать из этого какие-то выводы.

Кроме качества ответов, бенч тестит ещё и самооценку - вместе с самим ответом, модель просят выдать и её уверенность в этом ответе. Это позволяет понять, насколько хорошо модель может оценить свои собственные возможности. У хорошо откалиброванной модели результаты на бенчмарке и среднеквадратичная уверенность должны быть довольно близко. На этой части, с заметным отрывом, лидирует та же R1, но всё равно Calibration Error у неё за 80%. Надеюсь, из-за этого бенча, заоблачную самооценку современных LLM немного поумерят.

Название, конечно, слишком пафосное и далеко не факт что насыщение этого бенчмарка означает что модель - это AGI. Но новые, ненасыщенные бенчмарки сейчас на вес золота, создавать их крайне сложно, так что грех жаловаться. Авторы ожидают что до конца года новые модели могут выдать более 50% точность на этом бенче, посмотрим как на нём себя покажет o3.

Пейпер
Бенчмарк
Сайт проекта

@ai_newz

35.0K views15:40

эйай ньюз

OpenAI показали Operator - своего первого агента

Он может полноценно пользоваться браузером и заказывать билеты, еду, столики и т.д. Выглядит это как отдельный сайт на поддомене чатгпт, где к обычному интерфейсу прилепили окно браузера, которое стримится одновременно и пользователю и оператору. Пользователь в любой момент может перехватить контроль, более того, для чувствительных действий, вроде платежей, вмешательство пользователя необходимо.

Это всё напоминает мне про стартап Mighty, который создавал облачный браузер, но пивотнулся в генерацию изображений пару лет назад (теперь они Playground). Он проходил Y Combinator как раз когда Альтман ещё был там главой совета директоров, возможно OpenAI выкупили IP.

Работает это всё на основе CUA (Computer-Using Agent), нового тюна GPT-4o, который совмещает ризонинг с пониманием изображений. Она бьёт Sonnet 3.6 (2024-10-22) по computer use, с аналогичной моделью Google не сравнивают - там разрыв куда меньше и доступа публичного пока что нету. Заметьте, как OpenAI всё больше и больше в презентациях похожи на Apple - в табличке упоминают модель как "Previous SOTA", а то что это Sonnet 3.6 можно узнать только из сносок.

Anthropic и Google показывали демки и запускали API на несколько месяцев раньше, но OpenAI всё равно первыми запустили консьюмерский продукт, что показывает разницу приоритетов. Operator уже раскатывают на пользователей Pro подписки (кстати, а вы знали что она убыточна?), через подписку Plus и API оно будет доступно через несколько недель.

operator.chatgpt.com (доступно Pro пользователям из США, под впном пускает)

@ai_newz

30.9K views19:08

эйай ньюз

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

0:06

This media is not supported in your browser

VIEW IN TELEGRAM

Kling Elements: есть ли смысл?

Я уже писал про генерацию видео с заданныит объектами, когда вышла пика 2.0. Но пика, мягко говоря, слабовата. Клинг объективно на голову выше, да и версия 1.6 недавно вышла.

И вот я всё-таки решил потестировать *Elements*. Мои спекуляции о том, как работает эта фича в Pika (там она зовётся ingredients), можете почитать здесь.

Ну что там по тестам? Я закинул мокап с телефоном и фон с каким-то модерновым домом. Я сам не очень представлял, как их совместить — собственно, и вышла шляпа. Но я хотел проверить, как передастся текст, и... на удивление, у него получилось! Ну, почти. По крайней мере, надпись "эйай ньюз" реально видна. А это очень важно для всяких AI-шных промо-роликов, ведь это значит, что эта штука способна передавать логотипы.

(Но, кстати, если отдельно залить только лого, он вообще его не воспринимает.)

Юзать для каких-то брендовых историй, где нужно, чтобы логотип обязательно сохранился, можно. Если просто задать конечный и начальный кадры с таким вот мелким (да и крупным тоже) текстом, у вас, скорее всего, ничего, кроме каши из пикселей, не выйдет.

Однако всё равно это очень тупо — генерить видео текстом, не имея контроля над начальной картинкой (как это делается в обычном image2video). А что, если мне нужна композиция или "киношность" MidJourney? Приходится кучу раз тестировать разные комбинации фона и продукта. Поэтому на ожидание генерации уходит просто неимоверное количество времени и токенов.

Кстати, Клинг по ощущениям — самый медлительный генератор. Даже в те моменты, когда на серверы не такая большая нагрузка, как сегодня на релизе, ждать приходится в среднем минут 7.

Так что хз, такой себе костыль. Не более чем временное решение.

klingai.com

@ai_newz

28.8K views11:20

эйай ньюз

Forwarded from Denis Sexy IT 🤖

Мнение по Operator от ChatGPT на основе дня использования:
- это все еще ранний продукт, поэтому в бете: он не со всем справляется, но от него уже есть польза

- он полезен, когда вам нужно что-то собрать в автономном режиме: отправляете его собирать список философских кружков вокруг вас, он возвращается со списком ссылок, или у вас есть список товаров и нужно прописать им описания автоматом, или вам нужно найти какую-то редкую деталь, ответ и тп и тд, короче вы поняли

- он довольно сухо и коротко отвечает пока что - видно, что это будут настраивать

- поскольку это бета, агент может запутаться и долго делать простую задачу - простые задания лучше все еще делать кожаным

- каждый раз, когда он подходит к выполнению задачи, он просит вас вмешаться чтобы убедиться, что все ок - оператор работает в фоне и присылает пуш когда вы нужны, удобно

- забавный промпт инженеринг пример от OpenAI: в системном промпте, они говорят агенту что у него 20-летний опыт использования компьютера 🌚

- кстати, оператор будет доступен на телефонах в том числе, вчера упомянули на презентации - это уже киллер фича мне кажется, полноценный пк-браузер доступный в любой момент

Пока что мне нравится, соберу потом сценарии использования от сообщества

GitHub

scratch/system_prompts/operator_system_prompt-2025-01-23.txt at 80847e027aaff42071eaff0502324736d7db4f47 · wunderwuzzi23/scratch

Repo with random useful scripts, utilities, prompts and stuff - wunderwuzzi23/scratch

23.7K views14:15

эйай ньюз

Я же говорил, что анонс Трампа разгонит AI индустрию в целом. Вслед за Stargate Марк флексит тем, какой большой датацентр размером с Манхэттен строит Мета.

Это будет датацентр мощностью 2GW+. В 2025 онлайн уже будет ~1GW* мощности и более 1.3 миллиона GPU! Только в 25 году в этот проект будет проинвестировано $60-65 млрд, а также Марк будет значительно наращивать AI команду внутри Мета - а это значит еще больше конкуренции за таланты!

* 1GW - это мощность, выдаваемая средненькой атомной электростанцией, например Беларуская АЭС производит 1.2 GW.

@ai_newz

31.5K viewsedited 18:11

эйай ньюз

Теперь поиск можно юзать вместе с R1

Работает и на сайте и в приложениях (да, у них теперь есть приложения на Android и iOS). DeepSeek, как всегда, просто релизят фичи, без анонса.

Надеюсь OpenAI почувствуют давление и добавят и это и интерпретатор кода в o1, а DeepSeek, в свою очередь, ответит, ведь конкуренция - это хорошо. Релиз R1 уже побудил их анонсировать бесплатный доступ к o3-mini.

chat.deepseek.com

@ai_newz

28.9K viewsedited 13:11

эйай ньюз

Нейродайджест за неделю (#53)

DeepSeek R1
Китайцы выложили в общий доступ свою reasoning-модель, на уровне o1 от OpenAI!
- Веса — для запуска потребуется 8xH200, для тех кто не может себе позволить есть дешевые API и бесплатный чат.
- Бенчи — R1 особенно хороша в коде и математике.
- Дистилляты — их есть целый спектр и даже 1.5B моделька по бенчам обходит 4o в узких задачах.
- Генерируем видосы в стиле 3Blue1Brown — Manim позволяет создавать самые разнообразные визуализации и презентации (не только математические) с помощью кода, и с этим R1 справляется на ура.
- Поиск с R1 — у DeepSeek и так был один из лучших AI-поисковиков, у тут с reasoning он стал ещё лучше.

LLM другое
- Gemini Flash Thinking — очередная "малявка" от Google, хороша, но где флагманы Google?
- Последний экзамен человечества — что будет, если всем миром собрать пул из 6000 самых сложных задач? LLM решат меньше 10% из них.
- Operator — агент, который может брать под контроль браузер от OpenAI. Уже доступен за $200.

Инфраструктура для LLM
- Stargate — $500B потекут рекой прямо в залив AI с лёгкой руки Трампа. Ни о каких регуляциях для больших разработчиков и уж тем более калифорнийском проекте запретов речи уже не идёт.
- 2GW датацентр от Meta — Марк анонсировал огромный датацентр размером с Манхэттен.

Прочее
- Kling Elements — мои тесты для видеогенерации с заданными объектам: костыль есть костыль.

Читать дайджест #52

#дайджест
@ai_newz

28.4K viewsedited 21:04

эйай ньюз

Топ апстора в США прямо сейчас

UPD: от такого наплыва юзеров дипсик прилёг
UPD2: частично поднялся
UPD3: ограничили регистрацию новых пользователей

@ai_newz

32.5K viewsedited 10:30

эйай ньюз

Perplexity добавили Reasoning в Pro Search

Поддерживается как R1 так и o1, бесплатным пользователям дают 3 поиска в день с R1, обещают постепенно повышать лимиты.

R1 у них хостится самостоятельно, на европейских и американских серверах, так что проблемы с перегрузкой DeepSeek (которые из-за повышенного спроса закрыли регистрацию) их не затронут.

Я как раз преданный подписчик Perplexity. Нравится, что там легко можно переключаться между моделями.

perplexity.ai

@ai_newz

30.4K viewsedited 17:54

эйай ньюз

1:33

This media is not supported in your browser

Пока DeepSeek лагает под нагрузкой, давайте поговорим про Qwen

У компании за последние пару дней было несколько релизов, но я подождал китайского нового года и собрал всё

➖ Qwen 2.5-VL - обновлённая визуальная модель в размерах 3B, 7B и 72B. Из интересностей - возможность парсить документы в HTML и базовый компьютер юз - до клода и оператора далековато (модель попадает в лупы даже на официальных демо, правда выбирается из них).

➖ Компания сильно обновила свой чат интерфейс, там есть теперь генерация картинок с видео и поиск по интернету.

➖ Релизнули Qwen 2.5-1M - 7B и 14B модели с миллионом токенов контекста, непонятно как их sparse attention влият на качество. Много тестов пока нет - все играются с R1 и на Qwen внимания не обращают.

Веса Qwen-2.5-VL
Веса Qwen-2.5-1M

chat.qwenlm.ai

@ai_newz

33.3K views20:02

эйай ньюз

1:35

This media is not supported in your browser

VIEW IN TELEGRAM

Хайп по DeepSeek дошёл до Трампа

Мнение сводится к: "если китайцы могут тренировать модели эффективнее, то и наши лучшие в мире учёные смогут".

На удивление взвешенная и адекватная оценка, без копиума которого так много нынче в твиттере.

@ai_newz

67.0K views10:52

эйай ньюз

Qwen-2.5-Max - китайцам тоже сложно конкурировать с DeepSeek

На бенчах соревнуется с фронтирными не-reasoner моделями, но стоит как reasoner.

Цена тут и правда MAX. За модель просят 10 долларов за миллион токенов на вход и 30 долларов за миллион токенов на выход. Это, если что, в разы дороже чем все конкуренты - в 2.5x дороже чем Sonnet и аж в 30x дороже DeepSeek V3. Причём Qwen тут не предлагает никаких фич для оптимизации цен, даже тех, что уже стали стандартом.

Основное достоинство модели при такой цене - то, что её главный конкурент в Китае находится под жуткой нагрузкой уже второй день и не может выдержать всех желающих.

Ко всему прочему это закрытая модель, как и все современные MoE модельки Qwen. Бесплатно потестить можно в их чат интерфейсе.

chat.qwenlm.ai

Хух, в Китае наступил Китайский Новый год и релизов от них должно стать чуть меньше

@ai_newz

31.5K views17:29

эйай ньюз

Опенсорс Suno🤡

🤡

Наконец-то в опенсорс генераторах музыки сподвижки. Угадайте, кто? Правильно, китайцы YuE — по-русски йе! Yeah, ну или просто 乐. По звуку похоже скорее на Suno v2, но и это уже очень хорошо. Примеры в видосе и полные треки в комментариях.

К сожалению, какого-то демо не нашёл, поэтому своих тестов нет. Пейпер обещают скоро, а вот раскатить модельку у себя уже можно. Потребуется только 24 GB VRAM, то есть 4090 может осилить.

Ждём, когда оптимизируют и понаделают всякие финтифлюшки, по типу звуковых IP-адаптеров и контролнетов. :)

Модели на HF
Project page
GitHub

@ai_newz

Please open Telegram to view this post

VIEW IN TELEGRAM

32.3K viewsedited 11:48

2025/02/24 03:16:59
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>