Telegram Group & Telegram Channel
SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья



group-telegram.com/nn_for_science/2363
Create:
Last Update:

SWE-Lancer: OpenAI всерьез взялись за ИИ-програмиста

Многие спорят, сможет ли ИИ полноценно заменять разработчиков. Новый эксперимент OpenAI — SWE-Lancer — показывает, насколько мы приблизились к этому будущему.

Исследователи взяли 1 488 реальных задач из фриланс-проекта Expensify на Upwork и показали их передовым ИИ-моделям, чтобы узнать, сколько денег они способны “заработать”. И тут всё серьёзно: за каждую решённую задачу — настоящая выплата, общий призовой фонд — $1 млн!

Задачи собирали для двух сценариев:
1. IC (Individual Contributor) Tasks — ИИ пишет решение задачи и тесты как в реальном продукте .
2. Задачи менеджера — ИИ оценивает несколько предложений решения проблемы и выбирает лучшее, как реальный тимлид.

Оказалось, что даже крутые системы вроде GPT-4о и Claude 3.5 Sonnet (на о3 почему то не проверяли) собрали лишь часть возможной суммы: лучший результат — около $400 000. Цифра внушительная, но говорит о том, что им ещё есть к чему стремиться.

Что тут измеряют и почему это важно?

Сложность задач. Простые мелочи стоят $50, а большие фичи — до $32 000. Эта разница чётко показывает уровень навыков ИИ.
Подход к работе. Одни модели лучше выбирают готовые решения (как тимлид), другие — активнее пишут код.
Путь к улучшению. Раз видим, где ИИ “недозаработал”, мы понимаем, какие умения прокачивать — например, работать сразу с несколькими файлами или тщательнее тестировать.

Пока ИИ хорош в точечных задачах и быстрых решениях, но когда дело доходит до больших, “раскиданных” по проекту проблем, начинаются пробуксовки.

Куда всё идёт?

С большой вероятностью — к тому, что модели продолжат совершенствоваться, научатся быстрее и глубже понимать проекты, а значит и зарабатывать всё ближе к заветным $1 млн. Людям же в этом процессе роль конкурентов видимо не достанется.

SWE-Lancer наглядно демонстрирует, что современные модели не так уж и далеки от полного захвата фриланса. Пока же мы видим, что живой разработчик и его навыки остаются незаменимы, но, как гласит одна из заповедей: “what you can measure - you can improve”.

Статья

BY AI для Всех




Share with your friend now:
group-telegram.com/nn_for_science/2363

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors.
from ru


Telegram AI для Всех
FROM American