Telegram Group & Telegram Channel
SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья



group-telegram.com/nn_for_science/2363
Create:
Last Update:

SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья

BY AI для Всех




Share with your friend now:
group-telegram.com/nn_for_science/2363

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. "He has to start being more proactive and to find a real solution to this situation, not stay in standby without interfering. It's a very irresponsible position from the owner of Telegram," she said.
from cn


Telegram AI для Всех
FROM American