Существуютли задачи, которые большие языковые модели решают хуже чем маленькие?
По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей: 1. Вопросы с отрицанием. 2. Вопросы с ложной подсказкой. 3. Повторение искажённых цитат. 4. Вопросы со странной математикой.
Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.
Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.
Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁♂️
Существуютли задачи, которые большие языковые модели решают хуже чем маленькие?
По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей: 1. Вопросы с отрицанием. 2. Вопросы с ложной подсказкой. 3. Повторение искажённых цитат. 4. Вопросы со странной математикой.
Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.
Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.
Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁♂️
The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can."
from de