Warning: mkdir(): No space left on device in /var/www/group-telegram/post.php on line 37

Warning: file_put_contents(aCache/aDaily/post/senior_augur/--): Failed to open stream: No such file or directory in /var/www/group-telegram/post.php on line 50
Старший Авгур | Telegram Webview: senior_augur/307 -
Telegram Group & Telegram Channel
Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:

from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))


Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

UPD: карточку обновили, там об этом теперь написано



group-telegram.com/senior_augur/307
Create:
Last Update:

Ларчик с Вихрём Немо просто открывался. Рецепт оказался прост: трейн на тесте.
Я недавно случайно обнаружил, что в GrandMaster-PRO-MAX лежит около 180 промптов и ответов на них из ru_arena_general. А их там всего 500, то есть больше трети примеров из тестов слиты в обучающую выборку. Вполне возможно, что это сделано не только в SFT, но и в SMPO фазе.

Код для проверки:


from datasets import load_dataset

examples = dict()
for row in load_dataset("Vikhrmodels/ru-arena-general", split="train"):
examples[row["turns"][0]["content"]] = 0

for row in load_dataset("Vikhrmodels/GrandMaster-PRO-MAX", split="train"):
ex = row["conversation"][0]["content"]
if ex in examples:
examples[ex] = 1
print(sum(examples.values()))


Я решил поэкспериментировать и сделал то же самое в SFT. Получил +6 пунктов на арене. Справедливости ради, мне всё равно не удалось догнать Вихрь, но, вероятно, это решается доливом теста в SimPO.

Намеренно ли это было сделано? На 99% уверен, что нет.
Делает ли это Вихрь Немо плохой моделью? Тоже нет.
Но хорошо бы это увидеть в карточке модели, да и с арены модель убрать.

UPD: карточку обновили, там об этом теперь написано

BY Старший Авгур




Share with your friend now:
group-telegram.com/senior_augur/307

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. For Oleksandra Tsekhanovska, head of the Hybrid Warfare Analytical Group at the Kyiv-based Ukraine Crisis Media Center, the effects are both near- and far-reaching.
from vn


Telegram Старший Авгур
FROM American