group-telegram.com/senior_augur/307
Create:
Last Update:
Last Update:
Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.
Код для проверки:
from datasets import load_dataset
examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0
for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))
Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.
Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.
UPD: карточку обновили, там об этом теперь написано
BY Старший Авгур
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/LJYP-YDLINfeqrHtBqfTnq9GBfgHNNFnuW-JWhjcM3y8LUCHX5hQkjiguqmM7ZCShO7Strza8KiReqjh1zc8HiXTjx7eslUGcK6mEQ9QBDsvIzIj1YCUc5lA5aktBrN_vufx4jMn2rhYbdb3SzyPHd7LILAqipbLmDmc7RqcA6DEXJa1EyUCyD6wnmAlfO36YElV-8gKaQilVnK0ScFfnx3BQhdGjfZj2_gmauvis4VjsF13wQRnCe8IgIgPsX-8L-iIqyyucp4tpYtiJp64FQ2aYnXG1sTWld1D1F53o0bgTuulrIZpWYBj-XA-TdwXQ729T7jjfbMNq_AxSdbrDA.jpg)
Share with your friend now:
group-telegram.com/senior_augur/307