Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/senior_augur/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Старший Авгур | Telegram Webview: senior_augur/307 -
Telegram Group & Telegram Channel
Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:

from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))


Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

UPD: карточку обновили, там об этом теперь написано



group-telegram.com/senior_augur/307
Create:
Last Update:

Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:


from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))


Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

UPD: карточку обновили, там об этом теперь написано

BY Старший Авгур




Share with your friend now:
group-telegram.com/senior_augur/307

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. Again, in contrast to Facebook, Google and Twitter, Telegram's founder Pavel Durov runs his company in relative secrecy from Dubai. But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat.
from ar


Telegram Старший Авгур
FROM American