Telegram Group & Telegram Channel
Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).



group-telegram.com/seeallochnaya/2167
Create:
Last Update:

Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2167

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. "Markets were cheering this economic recovery and return to strong economic growth, but the cheers will turn to tears if the inflation outbreak pushes businesses and consumers to the brink of recession," he added. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from jp


Telegram Сиолошная
FROM American