AbstractDL | Telegram Webview: abstractDL/250 -

Telegram Group & Telegram Channel

The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень маленькое пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

UPD: приняли на EACL 🎉

Статья

www.group-telegram.com/fr/abstractDL.com/250

21.3K viewsedited Nov 13, 2023 at 14:16

group-telegram.com/abstractDL/250

Create: 2023-11-13
Last Update: 2025-01-01 10:37:48

The Shape of Learning: Intrinsic Dimensions in Transformer-Based Models

Препринт нашей новой работы! Оказалось, что языковые модели «упаковывают» свои репрезентации в очень маленькое пространство с внутренней размерностью не больше 60. И при этом анизотропия на средних слоях трансформеров-декодеров стремится к единице! Получается, эмбеддинги из середины модели расположены вдоль одной линии.

Еще одно интересное наблюдение — обучение LLM делится на две фазы: расширение и последующее сжатие активаций (см. картинку). А перед взрывами лосса их размерность немного подрастает.

UPD: приняли на EACL 🎉

Статья

BY AbstractDL

Share with your friend now:
group-telegram.com/abstractDL/250

Open in Telegram

Telegram | DID YOU KNOW?

Date: 2025-01-01|

Sebi said data, emails and other documents are being retrieved from the seized devices and detailed investigation is in progress. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government.
from fr

Telegram AbstractDL
FROM American