Telegram Group & Telegram Channel
SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья



group-telegram.com/nn_for_science/2363
Create:
Last Update:

SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья

BY AI для Всех




Share with your friend now:
group-telegram.com/nn_for_science/2363

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from de


Telegram AI для Всех
FROM American