Telegram Group & Telegram Channel
Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).



group-telegram.com/seeallochnaya/2167
Create:
Last Update:

Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2167

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides.
from us


Telegram Сиолошная
FROM American