Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/seeallochnaya/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2167 -
Telegram Group & Telegram Channel
Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).



group-telegram.com/seeallochnaya/2167
Create:
Last Update:

Уже пару раз в канале писал про Aider, открытого AI-ассистента для написания кода, поддерживающего почти всех LLM провайдеров. Для того, чтобы отслеживать тренды в области и давать рекомендации/советы пользователям касательно выбора моделей, создатель придумал несколько бенчмарков по программированию на внесение изменений в код.

Однако прошлый основной бенчмарк за +-годик уже немного устарел, потому разработчик решил сделать новый. Очень большая доля тестовых датасетов по программированию — на Python, что не совсем точно отражает качество работы в менее популярных языках. Теперь же бенчмарк содержит 225 задач на C++, Go, Java, JavaScript, Python и Rust. Это самые сложные задачи с образовательной площадки Exercism (не реклама, я впервые слышу про этот сайт). Минус тут, как можно понять по последнему предложению, что это задачи а) открытые, выложенные в интернет б) обучающие, то есть скорее всего часть из них повторяется и обсуждается на других сайтах.

Но имеем что имеем, всё же делать с нуля бенчмарк с уникальными и написанными с нуля задачами на 200+ примеров — дело достаточно времязатратное. С проверкой моделей всё хуже и хуже, так как нужно нанимать очень высококвалифицированных специалистов, чтобы делать актуальный тест — вон как в FrontierMath нанимали ведущих исследователей в математике, вплоть до лауреатов Филдсовской премии.

Тем не менее, давайте смотреть на результаты. o1 от OpenAI тут существенно обгоняет всех подряд. Свежая gemini-exp-1206 на уровне с o1-mini, gemini-2.0-flash решает лишь 22%, что меньше Haiku 3.5. Внизу неожиданно волокётся gpt-4o с 15% решений, это немного неожиданно. Но если принимать за правду спекуляцию, что o1 обучена поверх той же базовой модели, что 4o, то становится заметен результат нового подхода к обучению от компании, приводящий к существенному улучшению (ну это мы по всем остальным бенчмаркам заметили).

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2167

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Additionally, investors are often instructed to deposit monies into personal bank accounts of individuals who claim to represent a legitimate entity, and/or into an unrelated corporate account. To lend credence and to lure unsuspecting victims, perpetrators usually claim that their entity and/or the investment schemes are approved by financial authorities.
from ms


Telegram Сиолошная
FROM American