Telegram Group & Telegram Channel
Ещё раз хороним программирование. Земля пухом

С каждым выходом нового AI-агента или какой-нибудь софтины, которая сама пишет код, программирование хоронят. Фаундер очередного AI-агента пишет твитттер-тред с его возможностями. Подобные твиттер-треды, которые являются ни чем иным, как рекламой, берут на виллы разные предприниматели, менеджеры, AI-инфоцыгане, да и просто зеваки. «Это очередной прорыв, скоро программисты точно будут не нужны», — говорят они.

Этот пост — попытка ответить на вопрос, а что AI-агенты, AI Code Editor’ы и другие программы для написания кода могут прямо сейчас:

0. Обратите внимание. Демонстрация подобного софта в подавляющем большинстве случаев — написание чего-то с нуля. Так было и на последнем DevDay OpenAI, где AI писал софт для управления дроном, который запустили прямо в зал со зрителями. Но написания кода с нуля — немного искусственная задача. Работа программиста в 99.9% — ковырять существующий проект из нескольких десятков/сотен тысяч строк кода. Программист удаляет или рефакторит существующие куски, а также дописывает что-то новое.

А почему демонстрация происходит на новом проекте? Максимальный эффективный контекст большой языковой модели на данный момент — 64k токенов. Если мы, скажем, грубо, что в одной строке кода — 5 токенов, то 64k токенов — это проект на 12 000 строк. Это немного. В больших корпоратах даже шаблон нового репозитория может быть больше.

Производители агентов идут на ухищрения, сводя большие репозитории к нескольким тысячам строк кода, как это и делает кожаный программист. Это помогает, но без большого контекста в LLM, задача дописывания кода в большой репозиторий решается так себе.

1. Естественно, есть бенчмарк, который оценивает работу AI на больших репозиториях, SWE-bench. В SWE-bench входят 2300 реальных багов из 12 больших оупенсорсных репозиториев, написанных на Python. Как только этот бенчмарк появился год назад, лучшая модель закрывала 3% багов. Последний результат — 43% от AI-редактора кода Aide. 43% — мощно! Но есть «но».

В обучающей выборке моделей точно были все эти 12 больших оупенсорсных репозиториев. Модели знают о них очень много, даже специальную служебную информацию, например, хэши коммитов.

2. Есть видео Димы Рожкова, где он тестирует 6 AI-тулзов с небольшой задачей, где надо сходить в несколько API и сохранить данные. Дима в конце приходит к выводу, что непонятен конечный пользователь этих тулзов. Они до сих пор требуют много экспертизы и действий. Человек, не знакомый с написанием кода, просто не сможет воспользоваться этими инструментами. А программисту легче будет написать всё самому, так как агенты до сих пор требуют много времени. Вот твиттер-тред о написании обычного бэкенда с нуля инструментом Cursor Composer, изначальный промпт там аж в 250 строк — иногда легче написать код, чем такой запрос.

Вывод такой: пока это сырые инструменты. Но! Они уже могут помогать в чём-то. Нужно пробовать искать личные сценарии использования. Процент помощи вырастет, и тулы будут становиться всё полезнее. И AI точно заменит кожаного программиста, но когда — непонятно. До этого момента мы будем существовать в парадигме «менеджера» LLMок.

Так что, с одной стороны, те кто кричат, что программирование — всё, лукавят. Ну а с другой стороны, те, кто полностью отказываются от работы с AI, мол, я всё буду по старинке делать, похожи на неолуддитов.

Пост помог подготовить Игорь Котенков, автор лучшего, на мой взгляд, тг-канала про AI, Сиолошная. Моя искренняя рекомендация подписаться.



group-telegram.com/digital_ninjaa/189
Create:
Last Update:

Ещё раз хороним программирование. Земля пухом

С каждым выходом нового AI-агента или какой-нибудь софтины, которая сама пишет код, программирование хоронят. Фаундер очередного AI-агента пишет твитттер-тред с его возможностями. Подобные твиттер-треды, которые являются ни чем иным, как рекламой, берут на виллы разные предприниматели, менеджеры, AI-инфоцыгане, да и просто зеваки. «Это очередной прорыв, скоро программисты точно будут не нужны», — говорят они.

Этот пост — попытка ответить на вопрос, а что AI-агенты, AI Code Editor’ы и другие программы для написания кода могут прямо сейчас:

0. Обратите внимание. Демонстрация подобного софта в подавляющем большинстве случаев — написание чего-то с нуля. Так было и на последнем DevDay OpenAI, где AI писал софт для управления дроном, который запустили прямо в зал со зрителями. Но написания кода с нуля — немного искусственная задача. Работа программиста в 99.9% — ковырять существующий проект из нескольких десятков/сотен тысяч строк кода. Программист удаляет или рефакторит существующие куски, а также дописывает что-то новое.

А почему демонстрация происходит на новом проекте? Максимальный эффективный контекст большой языковой модели на данный момент — 64k токенов. Если мы, скажем, грубо, что в одной строке кода — 5 токенов, то 64k токенов — это проект на 12 000 строк. Это немного. В больших корпоратах даже шаблон нового репозитория может быть больше.

Производители агентов идут на ухищрения, сводя большие репозитории к нескольким тысячам строк кода, как это и делает кожаный программист. Это помогает, но без большого контекста в LLM, задача дописывания кода в большой репозиторий решается так себе.

1. Естественно, есть бенчмарк, который оценивает работу AI на больших репозиториях, SWE-bench. В SWE-bench входят 2300 реальных багов из 12 больших оупенсорсных репозиториев, написанных на Python. Как только этот бенчмарк появился год назад, лучшая модель закрывала 3% багов. Последний результат — 43% от AI-редактора кода Aide. 43% — мощно! Но есть «но».

В обучающей выборке моделей точно были все эти 12 больших оупенсорсных репозиториев. Модели знают о них очень много, даже специальную служебную информацию, например, хэши коммитов.

2. Есть видео Димы Рожкова, где он тестирует 6 AI-тулзов с небольшой задачей, где надо сходить в несколько API и сохранить данные. Дима в конце приходит к выводу, что непонятен конечный пользователь этих тулзов. Они до сих пор требуют много экспертизы и действий. Человек, не знакомый с написанием кода, просто не сможет воспользоваться этими инструментами. А программисту легче будет написать всё самому, так как агенты до сих пор требуют много времени. Вот твиттер-тред о написании обычного бэкенда с нуля инструментом Cursor Composer, изначальный промпт там аж в 250 строк — иногда легче написать код, чем такой запрос.

Вывод такой: пока это сырые инструменты. Но! Они уже могут помогать в чём-то. Нужно пробовать искать личные сценарии использования. Процент помощи вырастет, и тулы будут становиться всё полезнее. И AI точно заменит кожаного программиста, но когда — непонятно. До этого момента мы будем существовать в парадигме «менеджера» LLMок.

Так что, с одной стороны, те кто кричат, что программирование — всё, лукавят. Ну а с другой стороны, те, кто полностью отказываются от работы с AI, мол, я всё буду по старинке делать, похожи на неолуддитов.

Пост помог подготовить Игорь Котенков, автор лучшего, на мой взгляд, тг-канала про AI, Сиолошная. Моя искренняя рекомендация подписаться.

BY Digital Ниндзя


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/digital_ninjaa/189

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. I want a secure messaging app, should I use Telegram? Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee.
from tw


Telegram Digital Ниндзя
FROM American