Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)
Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.
К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.
Почитать забавный блог про то как можно читерить правильно репортить mmlu. Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.
Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.
Почему так? Почему метрики могут гулять? Ответ очень простой: разный код для измерения. MATH HHE MBBP и прочие ббпе вообще то не детерминированные(через это их меряют обычно @10 какой нибудь) их множно Fewshotить, mctsить и делать кучу страшных вещей(400 раз генерировать ответ например, тк ответ мы знаем/можем оценить правильность)
Я не думаю что тинькофф банк намеренно что либо ломал, модели неплохие, но просадки от дотрена на русский - есть и с ними сложно боротся если ваш датамикс хуже чем изначальный Qwenовый.
К слову одна из причин почему Вихри ушли от смены токенайзера-дотрена - собирать чистый датамикс чтобы не просадить code/reasoning способности модели очень трудоемкая задача.
Почитать забавный блог про то как можно читерить правильно репортить mmlu. Не, в приниципе можно и в суд потащить кого нибудь, но имхо правильно сравнивать, использовать разные бенчмарки, строить разные бенчмарки и искать истину.
Я не видел не одного полностью репрезентативного бенчмарка который не ломался, поэтому проблемы не вижу. Для многих задач тиньковские модели будут хороши, выбирайте модель под задачу, cеребрянной пули не существует.
"There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. Some privacy experts say Telegram is not secure enough
from it