Telegram Group Search
Команда Answer.AI месяц тестила ИИ-инженера Devin, который, напомню, обещает сам писать код, деплоить проекты и решать сложные задачи. На старте всё было круто: Devin легко затянул данные из Notion в Google Sheets и даже помог создать планетарный трекер (при этом команды давались через телефон). Но чем сложнее становились задачи, тем больше он начинал буксовать.

От бесконечных попыток сделать невозможное до кучи бесполезного спагетти-кода. Похоже, основная проблема Девина такая же как и у LLM в целом: неумение сказать “я не знаю” / “я не могу”. В целом, эксперимент быстро превратился в проверку на терпение. Итоговые цифры говорят сами за себя: из 20 задач — только 3 успеха, 14 провалов и 3 “непонятных” результата.

Основной вывод авторов — идея автономного ИИ для программирования классная, но в реальности Devin больше мешал, чем помогал.

Подробнее читать тут - хороший текст от уважаемых ребят
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenAI представили Operator.

Это ИИ-агент, который может ходить в веб и выполнять там для нас разные задачи.

Тезисно, что зацепило:

- Оператору можно поставить в задачу, после чего он открывает удаленное окно браузера и начинает там эээ оперировать. В демо показали бронирование столика в ресторане и заказ продуктов.

- Оператор основан на новой модели, которую они называют computer using agent (CUA). Она, в свою очередь, основана на gpt-4o.

- Доступен для Pro пользователей в Штатах.
Позже будет для Plus и других стран.

- Видит кастомные инструкции (например понимает, где вы живете, если это есть в кастомных инструкциях и может выбрать локацию в сервисах, где он оперирует)

- Это все еще рисерч превью.

- Ожидаются еще агенты. Operator назвали «первым».

- Все шаги оператора расписаны в виде chain of thoughts, которую он генерирует.

- Есть возможность перехвата, чтобы поправить его действия.

- Пока что оператор может только ходить в веб. Но похоже будет и полное управление ОС.

Пост от OpenAI

System card
Гонка ИИ на сегодняшний день 🥲
На медузе вышел текст про AGI и это пример журналисткой безграмотности. 🫠

Там столько ошибочных и ложных утверждений, что просто больно смотреть. А ведь этот текст прочитают много людей и сделают неверные выводы.

Могли бы что ли проконсультироваться со знающими людьми вроде Игоря (https://www.group-telegram.com/seeallochnaya) или Артема (https://www.group-telegram.com/ai_newz).

ИМХО такие тексты вредят и формируют неправильное мнение у общей аудитории.

Читайте проверенные источники.
Я долго не писал про Deep Seek r1, потому что было очень много информации для переваривания. Кругом слухи, интервью, юзкейсы, восхищения и подозрения. Сейчас, мне кажется, уже можно разобраться в некоторых утверждениях. Поехали:

DeepSeek потратили $6 миллионов на обучение модели
Не совсем так. DeepSeek потратили эти деньги только на финальный запуск обучения, из которого получилась сама модель, которой мы пользуемся. То есть в эту сумму не входят все предыдущие эксперименты (а их точно было много), а также косты на людей, данные, видеокарты. Более того, r1 это модель поверх другой базовой модели - DeepSeek-V3. Очевидно, она тоже возникла не из воздуха и не бесплатно. Ну и еще вопрос: откуда данные для обучения? Понятно, что часть они собрали сами. Но похоже еще часть насинтезировали с других моделей - как минимум это модели OpenAI, Anthropic и, внезапно, Yandex. Такой вывод можно сделать из того, что r1 нет-нет, да и представится чужим именем. Ну а насинтезировать данные - это тоже небесплатно, само собой.

DeepSeek r1 - это сторонний проект (side project).
Тоже сомнительно. Это подается под соусом "чуваки по фану сделали модель уровня о1 на коленке и за плошку риса". Разлетелся этот тейк после твита Han Xiao, хотя он к deep seek особого отношения не имеет. Между тем, DeepSeek финансируется исключительно китайским хедж-фондом High-Flyer. Хедж-фонд — это такой инвестиционный фонд для богатых, который использует сложные и рискованные стратегии, чтобы заработать больше денег. Так вот этот High-Flyer вертит активами на $7 миллиардов, а его основатель - Лианг Венфенг - является и основателем DeepSeek. То есть это буквально один и тот же человек. Согласно Reuters, в марте 2023 года High-Flyer написал в WeChat (китайская соцсеть), что они выходят за рамки трейдинга и концентрируют ресурсы на создании "новой и независимой исследовательской группы для изучения сущности AGI". Ну и позже в этом же году появилась компания DeepSeek. Уже не звучит, как сторонний проект, не так ли?

DeepSeek обошлись небольшим количеством видеокарт.
Кажется, что это отчасти так. Но только отчасти. Они репортят, что для базовой модели V3 они использовали 2048 штук H800. Утверждается, что DeepSeek не использовали видеокарты H100 из-за санкций США, которые сделали их труднодоступными. Вместо этого они оптимизировали свою модель и процесс обучения для работы с H800, у которых ниже пропускная способность памяти, но которые можно легально купить. Для преодоления ограничений H800 они пошли на разные хитрости вроде программирования на уровне PTX (низкоуровневый язык для GPU), чтобы эффективно управлять коммуникацией между видеокартами, и использование вычислений в FP8, прогнозирование сразу нескольких токенов, использование Mixture of Experts. В общем, голь на выдумку хитра и это очень впечатляет, слов нет. Но и здесь стоит учесть две вещи. Во-первых, 2048 штук H800 - это порядка $50 миллионов (side project, ага). Во-вторых, CEO  Scale AI Александр Ванг утверждает, что у DeepSeek есть 50.000 штук H100 (то есть они их купили в обход санкций). Это слух, который невозможно подтвердить или опровергнуть. Илон Маск на эту инфу написал "Obviously", но он тот ещё актер одного театра. Есть мнение, что этот слух пошел от другого твита, где утверждается, что у DeepSeek 50 тысяч видеокарт Hopper, без уточнения каких конкретно (то есть возможно и H800). Так или иначе, источник этих слухов "trust me bro", но я нисколько не удивлюсь, если это окажется правдой.
DeepSeek r1 крутая модель, которая встряхнула больших игроков вроде OpenAI и заставила их напрячься.
Да, и да. Модель и правда классная, да еще и открытая. Читать цепочку ее рассуждения очень интересно и залипательно, а в веб версии к ней прикрутили еще и поисковик и ее можно использовать, как Google Deep Research. И все это бесплатно в веб версии. При этом модель открыта и потенциально я могу запустить ее у себя на работе на 8 x H100. Более крутых открытых альтернатив, мне кажется, нет. А при этом по API она стоит копейки, в сравнении с o1. Кажется, что именно из-за r1 Сэм Альтман решил дать доступ к o3-mini аж бесплатно. А Google начали хвалиться тем, что их последняя думающая модель Gemini доступна бесплатно, обладает большим контекстным окном и к ней скоро прикрутят поиск. Тем не менее, независимые бенчмарки и оценки которые я видел говорят о том, что r1 уступает o1. По моим личным ощущениям и тестам это тоже так.

Есть 6 версий DeepSeek r1 разного размера.
Это не так, r1 на самом деле один и он MoE на 671 миллиард параметров. Все остальное, это файн-тюны Qwen и Llama. Самое важное здесь понимать, что в них нет Reinforcement Learning этапа обучения, который и делает всю магию r1. Если вы видите новость о том, что кто-то запустил r1 на телефоне - это туфта. 

Из-за deep seek упали фондовые рынки.
Откровенно говоря, я не знаю. Может оно и повлияло, но лично мне это кажется сомнительным. Хотя определенная логика тут, конечно, есть: опасения по конкурентоспособности американских бигтехов и сомнения в необходимости больших затрат в инфраструктуру ИИ. Но кажется, что в мире есть факторы и посильнее.

Ну и пара моих личных спекуляций (вообще не претендую на истину).
DeepSeek дали нам классную модель и подвинули Meta на фронте опенсорса - а это ничего себе. Лично мне кажется, у них есть уже и другие модели (скажем r2) и скоро мы о них услышим. В то же время, я думаю дешевые цены на r1 долго не продержаться, мне кажется тут китайцы демпингуют.
Ждем продолжения сериала.🍿
Ребята из ARC-AGI протестировали DeepSeek r1 и r1-Zero, получив 15.8% и 14% соответственно. Для сравнения, OpenAI o1 в low compute-режиме показал 20.5%.

Но это не самое интересное.

Главное отличие r1-Zero – отсутствие Supervised Fine-Tuning (SFT), модель обучалась только Reinforcement Learning (RL). То есть не использовались данные, подготовленные людьми. DeepSeek добавили SFT в r1, так как без него r1-Zero смешивала языки и её рассуждения было сложно читать.

Однако ARC-AGI считает, что это не баг, а фича: на их тестах модель работала хорошо, без явной несвязанности.

Их выводы заставляют задуматься:
1. SFT не обязателен для точного пошагового рассуждения (CoT) в верифицируемых областях.
2. RL-обучение позволяет модели создавать собственный предметно-специфический язык (DSL) в пространстве токенов.
3. RL повышает универсальность CoT в разных областях.

Занятное чтиво: https://arcprize.org/blog/r1-zero-r1-results-analysis
Please open Telegram to view this post
VIEW IN TELEGRAM
OpenEuroLLM, или как Евросоюз пытается в AI.

Сегодня анонсировали семейство open-source моделей от ЕС для ЕС. С одной стороны это все страшный стыд, с другой - людям нравится медленный и административный подход ЕС, и в этом даже просматривается некая логика.

Давайте я постараюсь объяснить стыд и в то же время побуду адвокатом дьявола.

Итак, Европейская Комиссия (!) сделала анонс OpenEuroLLM в твиттере. Анонс выглядит больше как релиз - складывается впечатление, что модели уже есть. Но это не так. И вообще говоря, Еврокомиссия- последнее место, где такой анонс ожидаешь увидеть. Естественно, в комментах им напихали в панамку.

Вот что вообще происходит.

ЕС собрал кучу вузов, стартапов и компаний из разных стран в проект OpenEuroLLM. Среди компаний, кстати, нет Mistral - ну вы понимаете, собрали лучших из лучших.

Хотят выпустить открытые модели, поддерживающие все языки ЕС. Вот, собственно, и все. При ближайшем рассмотрении анонс оказывается о том, что модели прошли какой-то там бюрократический стандарт.

В общем, все грустно, медленно и тухло.

С другой стороны, мои коллеги и разные люди с конференций и митапов говорят мне, что им нравится такой подход. Мол, все эти AI модели неизведанная и опасная дичь. Надо подождать, пока станет понятно, как с этим всем безопасно работать. И сделать свои модели, в которых мы будем уверены. А то всякие OpenAI чёрти что творят: данные наворовали, модели biased, хакать их легко, галлюцинируют только так. Ну с этим просто невозможно спокойно жить!

Мне кажется, в этом весь ЕС - люди голосуют и выбирают понятное, безопасное и спокойное. А все инновации под это по определению не попадают.

Тут у меня лично возникает диссонанс. С одной стороны Европа мне нравится именно равномерными секьюрностью и высоким уровнем жизни в целом. С другой стороны, я кайфую от безостановочного AI фестиваля.

Вот и как быть?
Please open Telegram to view this post
VIEW IN TELEGRAM
Один из исследователей OpenAI поделился графиком насыщения бенчмарков за прошедшие годы. С такой скоростью мы просто перестанем успевать создавать новые тесты. 🤷‍♂️
Сэм Альтман рассказал о дальнейших планах OpenAI.

Планируют выпустить GPT-4.5 (подтвердили, что это Orion) в ближайшие недели — это будет последняя “нелинейно размышляющая” (non-chain-of-thought) модель.

Затем последует GPT-5, которая объединит модели o-series и GPT-series, станет универсальнее. Будет доступна как в приложении, так и через API.

GPT-5 включи в себя o3, а сама o3 не будет выпускаться отдельно. Бесплатные пользователи ChatGPT получат доступ к GPT-5 (на стандартном уровне интеллекта). Plus-подписчики получат улучшенную версию GPT-5. Pro-подписчики получат ещё более мощную версию. Plus и Pro будут включать голос, canvas, поиск, deep research и другие функции (какие?).

GPT-4.5 – через несколько недель!
GPT-5 – через несколько месяцев!
This media is not supported in your browser
VIEW IN TELEGRAM
Art-выставка в Японии, где на вас пытается напасть робо-собака, прикованная цепью к стене. 🫠

Отсюда
Perplexity Deep Research

Еще один сервис по умному и глубокому поиску, теперь от Perplexity и бесплатно.

Показывает 20.5% на Humanity’s Last Exam (но это, кажется, экспертная платная версия). У OpenAI 26%.

Умеет примерно всё то же самое, что и версия от OpenAI:
- делает десятки поисковых запросов
- читает сотни источников
- размышляет (reasoning) по найденному
- может кодить под капотом
- тратит несколько минут на один запрос
- пишет отчеты и сохраняет их в pdf

Бесплатная версия, похоже, немного урезанная. А платным подписчикам за $20 обещают expert level researcher со странным ограничением в 500 запросов в день.

Судя по всему основное преимущество OpenAI в специальной версии модели о3, которая и создает магию - все таки сложно с ними соревноваться. Но очень приятно, что Perplexity уже дают бесплатный доступ к чему-то такому.

https://www.perplexity.ai/hub/blog/introducing-perplexity-deep-research

P.S. Deep Research оказался настолько интересным сервисом, что делают его все, при этом не меняя названия. 🙃
2025/02/19 18:19:29
Back to Top
HTML Embed Code: