AbstractDL | Telegram Webview: abstractDL/171 -

Telegram Group & Telegram Channel

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

www.group-telegram.com/kr/abstractDL.com/171

4.4K viewsedited Nov 8, 2022 at 11:45

group-telegram.com/abstractDL/171

Create: 2022-11-08
Last Update: 2025-01-24 04:18:59

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/171

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-01-24|

Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. Recently, Durav wrote on his Telegram channel that users' right to privacy, in light of the war in Ukraine, is "sacred, now more than ever." Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report.
from kr

Telegram AbstractDL
FROM American