Мы зарелизили первый датасет для software engineering agents! 🤖

commit history

Мы зарелизили первый датасет для software engineering agents! 🤖

В последние несколько месяцев наша команда активно работала над software engineering агентами. Я с частью команды отвечал за данные и эксперименты с ними. Сегодня мы выложили данные, которые собрали. Напомню, что на этих данных мы обучили модели (Llama 3.1, Qwen 2.5), которыми набрали 40.6% на SWE-Bench Verified.

Про сами данные:
Используя доработанную напильником методологию SWE-Bench мы собрали 6.4k пар PR+issue из 2k репозиториев на питоне. Потом сгенерировали 80к траекторий, где агент на базе SWE-agent, используя наши зафайнтюненные модели пытается решить эти issues. В каждой траектории есть инфа про то, решил ли итоговый патч issue, какая была модель, статус окончания работы агента и логи evaluation.

Данные выложили на HuggingFace:
6.4k issue-PR pairs: nebius/SWE-bench-extra
80k траекторий: nebius/SWE-agent-trajectories

Блогпост с подробным описанием того, как собирали данные можно прочитать тут

huggingface.co

nebius/SWE-bench-extra · Datasets at Hugging Face

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

www.group-telegram.com/kr/c0mmit.com/63

10.8K viewsedited Dec 20 at 13:43

group-telegram.com/c0mmit/63

Create: 2024-12-20
Last Update: 2024-12-27 16:21:54

BY commit history

Share with your friend now:
group-telegram.com/c0mmit/63

Telegram | DID YOU KNOW?

Мы зарелизили первый датасет для software engineering agents! 🤖