Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)
Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.
К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.
Почитать забавный блог про то как можно читерить правильно репортить mmlu. Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.
Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.
Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)
Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.
К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.
Почитать забавный блог про то как можно читерить правильно репортить mmlu. Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.
Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.
Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted.
from sg