Notice: file_put_contents(): Write of 5446 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 13638 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Digital Ниндзя | Telegram Webview: digital_ninjaa/189 -
Telegram Group & Telegram Channel
Ещё раз хороним программирование. Земля пухом

С каждым выходом нового AI-агента или какой-нибудь софтины, которая сама пишет код, программирование хоронят. Фаундер очередного AI-агента пишет твитттер-тред с его возможностями. Подобные твиттер-треды, которые являются ни чем иным, как рекламой, берут на виллы разные предприниматели, менеджеры, AI-инфоцыгане, да и просто зеваки. «Это очередной прорыв, скоро программисты точно будут не нужны», — говорят они.

Этот пост — попытка ответить на вопрос, а что AI-агенты, AI Code Editor’ы и другие программы для написания кода могут прямо сейчас:

0. Обратите внимание. Демонстрация подобного софта в подавляющем большинстве случаев — написание чего-то с нуля. Так было и на последнем DevDay OpenAI, где AI писал софт для управления дроном, который запустили прямо в зал со зрителями. Но написания кода с нуля — немного искусственная задача. Работа программиста в 99.9% — ковырять существующий проект из нескольких десятков/сотен тысяч строк кода. Программист удаляет или рефакторит существующие куски, а также дописывает что-то новое.

А почему демонстрация происходит на новом проекте? Максимальный эффективный контекст большой языковой модели на данный момент — 64k токенов. Если мы, скажем, грубо, что в одной строке кода — 5 токенов, то 64k токенов — это проект на 12 000 строк. Это немного. В больших корпоратах даже шаблон нового репозитория может быть больше.

Производители агентов идут на ухищрения, сводя большие репозитории к нескольким тысячам строк кода, как это и делает кожаный программист. Это помогает, но без большого контекста в LLM, задача дописывания кода в большой репозиторий решается так себе.

1. Естественно, есть бенчмарк, который оценивает работу AI на больших репозиториях, SWE-bench. В SWE-bench входят 2300 реальных багов из 12 больших оупенсорсных репозиториев, написанных на Python. Как только этот бенчмарк появился год назад, лучшая модель закрывала 3% багов. Последний результат — 43% от AI-редактора кода Aide. 43% — мощно! Но есть «но».

В обучающей выборке моделей точно были все эти 12 больших оупенсорсных репозиториев. Модели знают о них очень много, даже специальную служебную информацию, например, хэши коммитов.

2. Есть видео Димы Рожкова, где он тестирует 6 AI-тулзов с небольшой задачей, где надо сходить в несколько API и сохранить данные. Дима в конце приходит к выводу, что непонятен конечный пользователь этих тулзов. Они до сих пор требуют много экспертизы и действий. Человек, не знакомый с написанием кода, просто не сможет воспользоваться этими инструментами. А программисту легче будет написать всё самому, так как агенты до сих пор требуют много времени. Вот твиттер-тред о написании обычного бэкенда с нуля инструментом Cursor Composer, изначальный промпт там аж в 250 строк — иногда легче написать код, чем такой запрос.

Вывод такой: пока это сырые инструменты. Но! Они уже могут помогать в чём-то. Нужно пробовать искать личные сценарии использования. Процент помощи вырастет, и тулы будут становиться всё полезнее. И AI точно заменит кожаного программиста, но когда — непонятно. До этого момента мы будем существовать в парадигме «менеджера» LLMок.

Так что, с одной стороны, те кто кричат, что программирование — всё, лукавят. Ну а с другой стороны, те, кто полностью отказываются от работы с AI, мол, я всё буду по старинке делать, похожи на неолуддитов.

Пост помог подготовить Игорь Котенков, автор лучшего, на мой взгляд, тг-канала про AI, Сиолошная. Моя искренняя рекомендация подписаться.



group-telegram.com/digital_ninjaa/189
Create:
Last Update:

Ещё раз хороним программирование. Земля пухом

С каждым выходом нового AI-агента или какой-нибудь софтины, которая сама пишет код, программирование хоронят. Фаундер очередного AI-агента пишет твитттер-тред с его возможностями. Подобные твиттер-треды, которые являются ни чем иным, как рекламой, берут на виллы разные предприниматели, менеджеры, AI-инфоцыгане, да и просто зеваки. «Это очередной прорыв, скоро программисты точно будут не нужны», — говорят они.

Этот пост — попытка ответить на вопрос, а что AI-агенты, AI Code Editor’ы и другие программы для написания кода могут прямо сейчас:

0. Обратите внимание. Демонстрация подобного софта в подавляющем большинстве случаев — написание чего-то с нуля. Так было и на последнем DevDay OpenAI, где AI писал софт для управления дроном, который запустили прямо в зал со зрителями. Но написания кода с нуля — немного искусственная задача. Работа программиста в 99.9% — ковырять существующий проект из нескольких десятков/сотен тысяч строк кода. Программист удаляет или рефакторит существующие куски, а также дописывает что-то новое.

А почему демонстрация происходит на новом проекте? Максимальный эффективный контекст большой языковой модели на данный момент — 64k токенов. Если мы, скажем, грубо, что в одной строке кода — 5 токенов, то 64k токенов — это проект на 12 000 строк. Это немного. В больших корпоратах даже шаблон нового репозитория может быть больше.

Производители агентов идут на ухищрения, сводя большие репозитории к нескольким тысячам строк кода, как это и делает кожаный программист. Это помогает, но без большого контекста в LLM, задача дописывания кода в большой репозиторий решается так себе.

1. Естественно, есть бенчмарк, который оценивает работу AI на больших репозиториях, SWE-bench. В SWE-bench входят 2300 реальных багов из 12 больших оупенсорсных репозиториев, написанных на Python. Как только этот бенчмарк появился год назад, лучшая модель закрывала 3% багов. Последний результат — 43% от AI-редактора кода Aide. 43% — мощно! Но есть «но».

В обучающей выборке моделей точно были все эти 12 больших оупенсорсных репозиториев. Модели знают о них очень много, даже специальную служебную информацию, например, хэши коммитов.

2. Есть видео Димы Рожкова, где он тестирует 6 AI-тулзов с небольшой задачей, где надо сходить в несколько API и сохранить данные. Дима в конце приходит к выводу, что непонятен конечный пользователь этих тулзов. Они до сих пор требуют много экспертизы и действий. Человек, не знакомый с написанием кода, просто не сможет воспользоваться этими инструментами. А программисту легче будет написать всё самому, так как агенты до сих пор требуют много времени. Вот твиттер-тред о написании обычного бэкенда с нуля инструментом Cursor Composer, изначальный промпт там аж в 250 строк — иногда легче написать код, чем такой запрос.

Вывод такой: пока это сырые инструменты. Но! Они уже могут помогать в чём-то. Нужно пробовать искать личные сценарии использования. Процент помощи вырастет, и тулы будут становиться всё полезнее. И AI точно заменит кожаного программиста, но когда — непонятно. До этого момента мы будем существовать в парадигме «менеджера» LLMок.

Так что, с одной стороны, те кто кричат, что программирование — всё, лукавят. Ну а с другой стороны, те, кто полностью отказываются от работы с AI, мол, я всё буду по старинке делать, похожи на неолуддитов.

Пост помог подготовить Игорь Котенков, автор лучшего, на мой взгляд, тг-канала про AI, Сиолошная. Моя искренняя рекомендация подписаться.

BY Digital Ниндзя


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/digital_ninjaa/189

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes. Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel.
from us


Telegram Digital Ниндзя
FROM American