TransformerFAM: Feedback attention is working memory
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
group-telegram.com/rizzearch/349
Create:
Last Update:
Last Update:
TransformerFAM: Feedback attention is working memory
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/rswLluD4Ig4e54zlB_La-PWMyi0dr0Beuo8ZAUfaoaQW79LXCgR1vOPMfTu_CdAt-9b3eQHr4UD9xtxcDrsw5SjND83FXKnmhfWxnhAP4-4t4YB6Wdzl74Kw0SeKexEnnXEo5jbJVT0MFQkgRuXgGfXnnJAl7BwkjMb4gojtXIEpPYAvH2t3PRA4dPYGjcHxA7cP28F1840CMrEGi7VpnkGIxxX7Eda663R3fKXYb91FcUAKMN9CZu-ES5wPmzxuz32t4YbWJpCLu40e-ggLbDsFnmH6Fvo7eFM4D6Mcqn2DYMft9Se8RaUJtpRVsR33a-_qWtBUyexdm3EGMEQPXw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/H88JYEE410nMdJIDYbqBOFNU1YY4Vpp3SV6KECO-LymPk4K08q03MMCK2jqHqUnxuSuEKsAvMsnqBWSVwl78mvZlgimaEUy5LiH-wPRjGnY2zJWcKaEqe5Zvuykw2f_xQ8_ID_oj4cc93y93baQ-HciqYiUb_LoHm_WTX4OuHkn2XOVwN8OrrPYk-TEjolixGlUnKEUXnjBXeW8O5pc23O5bxXOV8iu_3Pmj8JKg8x1a1rYxwlrVLGC7pEx1o2nGD1ZgbiHuu3UVE9IE9VcFkAx1ZbsQqxiczP2UxPwh0wOvIJg0cXky0Aj98pjgEetbza_pc4PWZKG9Kr5AO5SJHQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/cPBWIFlZVm3fAFCKre2QFMolk5nMuLnwq4I0fycKaOR0-8of5tnjU5OMAmwNrBxwA3ckC2JbS3e8y8r1ChQ2DknVj1mqkeOomtXLGfRNZSyFfqbiIi1IBoLrZEnwZvzaXb3nTX1E72GUkwKW-ageORsrLEbhUmFnx7mBsIatUzxBkSZaVl2QLgbPnA5kCJhMlT_gLnDT7isRo0g9ry8gMQMNzzREtbf1XPar41fiIdiFQWI_o5U4wjqmMILMlUzCGlqPr-pBJnWgA-N1tMOSlcEflnRiz8FAcQHe2NnF8wBIsgFEh6O06mab__9OkANVSmGYxJIGcdbQvXK4Sopt6w.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/WuS9tTK3VV1rOtZl6QAwYyByVi0rXfyIbkWoUrNslcxZt27hOw3jJfvO0TbYuMxYzRiVnOJN0H2EclW8T7T4dYeb0436hcp6WH358Nyemtv-mx0QmZSAjf3AlihxbGydwyUbFwEUCe6vwX-x5i10TRIbw2y6jLfxz8-XtoHu_4_d1LusocoPg93EHc6bgcc42CvuG_ZOJDSfgwYGxRWeCXeCge6ffWR3fOGEJe_0j3uC2b7dtvdZG5HVuo6MRWuWocYzVbyxyoGiJydztZFJzTml2bn0WOMaqpHMDTVrWU_0sojiYtMk-m4Gv-zSzogwQsVERtlGfEIxOOJ0GxEdkw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/feIb1GCo7nJP6MZh39kjMc5vtLtoSwtrAHnMeDwEoESzwRLEMNVqOV2f3rEa-kkiFSbXMcDnyYFbG7Ymy9J3XwcaICYqCX03tr8VSzD_ARWg5hiVwvuUOGRmlMPhIOhuDONL8pBnfd9b2b6tlpWBu5cIEek65p99ZYyUXIxyRS3ELUcOxgKXJSpOeVB5jWeGj4PaLTJzeaPsTfS3IaME_9oOV2_2o4sMRYc4lfyyVU_PECzISpT0AR1e_c4wDn4VGG3VZdwvkT4mBseEQ01I2YX1oOiBN5zuoUgCaDLRrODYoh_EMWCGRp2HvqzoWBSRpF1ESA-wSygWMg1U0lf3OQ.jpg)
Share with your friend now:
group-telegram.com/rizzearch/349