Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.

Старший Авгур

Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:


from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
    examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
    ex = row["conversation"][0]["content"]
    if ex in examples:
        examples[ex] = 1
print(sum(examples.values()))

Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

UPD: карточку обновили, там об этом теперь написано

www.group-telegram.com/ar/senior_augur.com/307

10.6K viewsedited Oct 25, 2024 at 11:18

group-telegram.com/senior_augur/307

Create: 2024-10-25
Last Update: 2025-02-07 13:49:29


from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
    examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
    ex = row["conversation"][0]["content"]
    if ex in examples:
        examples[ex] = 1
print(sum(examples.values()))

BY Старший Авгур

Share with your friend now:
group-telegram.com/senior_augur/307

Telegram | DID YOU KNOW?

Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.