Telegram Group & Telegram Channel
У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

Memory as Context: долгосрочная память используется как контекст для текущего внимания.
Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/5900
Create:
Last Update:

У Google вышла крутая статья про новую архитектуру Titan, которая может победить проблему забывания в трансформерах

Традиционные трансформеры очень прожорливы. Архитектура масштабируется квадратично по мере увеличения длины последовательности. Это приводит к проблеме невозможности увеличения контекстного окна и так называемому забыванию, потому что трансформеры также часто склонны аллоцировать внимание на нерелевантный контекст и, чем он больше, тем больше такая накапливаемая ошибка и степень забывчивости модели.

В Titan же подход к памяти немного иной: помимо краткосрочной памяти attention исследователи добавили в архитектуру долгосрочную память (тут вы, возможно, поймали флешбек на LSTM, и не зря). То есть у нас есть некоторый core – стандартное внимание с ограниченным окном, и модуль, который хранит важную информацию из "далекого прошлого". Чтобы решать, какую информацию запоминать, в нем используется метрика сюрприза (чем "неожиданнее" новые данные для модели, тем важнее их запомнить) + есть коэффициент затухания. Все эффективно параллелится.

При этом в статье показали аж три варианта соединить текущее внимание с долгосрочной памятью:

Memory as Context: долгосрочная память используется как контекст для текущего внимания.
Memory as Gating: здесь прямо максимальный мэтч с LSTM, тот же механизм гейтов
Memory as Layer: самый простой вариант, вся память соединена как слой в сетке

MAC оказался лучше всего по перплексии, а MAL чуть быстрее, но теряет в эффективности. В целом такая архитектура может легким движением руки масштабироваться до контекста в 2+ миллиона токенов, сохраняя стабильную точность (трансформеры начинают обычно фейлить уже после отметки 4096). Очень крутая работа получилась у Google, в общем.

Полный текст статьи здесь

P.S. Очень подробный и понятный разбор архитектуры LSTM от нас можно почитать здесь, а вот тут лежит наша большая статья про другие архитектуры-альтернативы трансформеру

BY Data Secrets











Share with your friend now:
group-telegram.com/data_secrets/5900

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis." Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news.
from in


Telegram Data Secrets
FROM American