AbstractDL | Telegram Webview: abstractDL/171 -

Telegram Group & Telegram Channel

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

www.group-telegram.com/id/abstractDL.com/171

4.3K viewsedited Nov 8, 2022 at 11:45

group-telegram.com/abstractDL/171

Create: 2022-11-08
Last Update: 2025-01-09 07:45:05

Существуют ли задачи, которые большие языковые модели решают хуже чем маленькие?

По результатам Inverse Scaling Prize было найдено 4 типа задач, для которых перформанс ухудшался по мере роста моделей:
1. Вопросы с отрицанием.
2. Вопросы с ложной подсказкой.
3. Повторение искажённых цитат.
4. Вопросы со странной математикой.

Для ребят из Google этот результат показался подозрительным и они решили увеличить количество параметров ещё больше — в результате обнаружился U-shaped scaling law — точность моделей, по мере их роста, падала только в начале, а затем начинала повышаться.

Возможно, это из-за того, что каждая из тех задач на самом деле состоит из двух частей — настоящей и отвлекающей (ложной). И только гигантские модели могут правильно в этом разобраться, а модели поменьше ошибочно фокусируются на ложной задаче.

Ещё оказалось, что использование подхода Chain-of-Thought тоже позволяет предотвратить падение качества, а иногда даже получить 100% accuracy 💁‍♂️

Статья

BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/171

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-01-09|

In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively. DFR Lab sent the image through Microsoft Azure's Face Verification program and found that it was "highly unlikely" that the person in the second photo was the same as the first woman. The fact-checker Logically AI also found the claim to be false. The woman, Olena Kurilo, was also captured in a video after the airstrike and shown to have the injuries.
from id

Telegram AbstractDL
FROM American