Telegram Group & Telegram Channel
CausalLM is not optimal for in-context learning (by Google)

Довольно претенциозная статья про недостатки causal attention и, следовательно, превосходство PaLM над GPT.

Авторам удалось экспериментально и теоретически показать, что префиксные языковые модели (T5, PaLM, UL-2) лучше понимают few-shot демонстрации и даже могут находить оптимальное (по MSE) решение задач регрессии, в отличие от каузальных языковых моделей (GPT, LLaMa). Похоже, что треугольное маскирование внимания (causal attention) сильно ограничивает сложность операций с внутренними представлениями.

Статья



group-telegram.com/abstractDL/239
Create:
Last Update:

CausalLM is not optimal for in-context learning (by Google)

Довольно претенциозная статья про недостатки causal attention и, следовательно, превосходство PaLM над GPT.

Авторам удалось экспериментально и теоретически показать, что префиксные языковые модели (T5, PaLM, UL-2) лучше понимают few-shot демонстрации и даже могут находить оптимальное (по MSE) решение задач регрессии, в отличие от каузальных языковых моделей (GPT, LLaMa). Похоже, что треугольное маскирование внимания (causal attention) сильно ограничивает сложность операций с внутренними представлениями.

Статья

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/239

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise. NEWS The War on Fakes channel has repeatedly attempted to push conspiracies that footage from Ukraine is somehow being falsified. One post on the channel from February 24 claimed without evidence that a widely viewed photo of a Ukrainian woman injured in an airstrike in the city of Chuhuiv was doctored and that the woman was seen in a different photo days later without injuries. The post, which has over 600,000 views, also baselessly claimed that the woman's blood was actually makeup or grape juice. It is unclear who runs the account, although Russia's official Ministry of Foreign Affairs Twitter account promoted the Telegram channel on Saturday and claimed it was operated by "a group of experts & journalists."
from br


Telegram AbstractDL
FROM American