AbstractDL | Telegram Webview: abstractDL/171 -

Telegram Group & Telegram Channel

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

www.group-telegram.com/ua/abstractDL.com/171

4.4K viewsedited Nov 8, 2022 at 11:45

group-telegram.com/abstractDL/171

Create: 2022-11-08
Last Update: 2025-01-24 03:59:27

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/171

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-01-24|

After fleeing Russia, the brothers founded Telegram as a way to communicate outside the Kremlin's orbit. They now run it from Dubai, and Pavel Durov says it has more than 500 million monthly active users. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. NEWS
from ua

Telegram AbstractDL
FROM American