TransformerFAM: Feedback attention is working memory
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
group-telegram.com/rizzearch/349
Create:
Last Update:
Last Update:
TransformerFAM: Feedback attention is working memory
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
еще одна попытка заново изобрести рнн в контексте трансформера
как сейчас принято обрабатывать длинные последовательности - через скользящее окно и по блокам (хардвейрный аспект), информация передается по предыдущим токенам для каузального аттна и по предыдущим слоям. однако авторы немножечко знают за нейробиологию, где есть концепция рабочей памяти (working memory)
на уровне биологического нейрона она описывается как что-то вроде импульса, который периодически возвращается к этому самому нейрону, отчего появляется связь, которая постоянно фигурирует в нашей голове по необходимости. как только необходимость уходит, этот сигнал тоже пропадает
авторы почерпнули эту идею и решили воспроизвести это через связь токенов на том же уровне глубины в сетке. сделали это через обучаемые токены, которые вбирают в себя поблочно информацию о предыдущих токенах ⇒ блок компрессится в токены и таким образом контекст предыдущих блоков подается в трансформер в счет нескольких токенов
однако, псевдокод как будто немного противоречит основной концепции воркинг мемори. эти самые токены представляют из себя память с предыдущих блоков, при том последующие воркинг мемори токены могут обращаться к таким же токенам с предыдущих блоков (напоминает рнн с хидден стейтами, не так ли? прям то же самое). отсюда возникает интуиция, что на вход операции внимания мы можем подавать эти мемори токены и токены с данного блока, но в алгоритме к этому добавляются обычные инпут токены с предыдущих блоков. то есть 2х истории подается аттеншну - появляется послевкусие костыльности, but if it works let it work
так же на ощущение костыльности намекает тот факт, что если увеличивать количество мемори токенов (64 → 256), то перформанс ухудшается. связывают с нейробиологией, но это забавно. неужели в 64 токенах может скрываться вся необходимая воркинг мемори, почему не 52, или скорее перформанс ухудшился из-за жесткой нестабильности?
и есть кстати подозрения, что воркинг мемори работает из-за обильного количества резидуал коннекшнов + так же авторы пишут, что не нужны дополнительные веса (кроме как новых обучаемых токенов) для операции аттеншна, что странно, тк по сути эти самые токены проходят дважды через один и тот же слой (хотя тут я могу ошибаться но судя по операциям так оно и есть) ⇒ при бекворде проекция из одного пространства в другое или вотевер ослабевает (что бы это ни значило)
имхо идея вряд ли в долгосрок работает. она лучше block-wise sliding window attention (и в принципе с ним авторы и сравниваются), но есть много других вопросов
кстати есть очень классные пункты в аппендиксе о том, что они пробовали и не сработало + вывод они начали с описания фильма Нолана Мементо. за это прям респект
👀LINK
BY rizzearch
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UY2FeAioey_SnbzFubmyIo6VoXQfIG95rpTkG0vEgorKXAUgOz0Fu3uG6ClvJK7nZEjVzliJ2o3ZzZi93rl2aCd38jqOI-EqTtaarFIAoHsYsR7mlDCXyuKSHYRZmW6Jt5UZ_10WUgFfR-gd434jWOiefUfYxQkjnXDpOHvGq3c6bVP7UFLUBbN9V5QOJ7FIXGd0poQxBAisWwXufa92DpNtMR9-9sxgtimX8xLBxHXbfrNm42NDTRCavqmnIOj7jf7OuItn0_UXrdCt_IfbJ5SmI7q995S7J4w_W9GuPdLZm_aVN6MXTzM5e4_EcktBbHMOjHeMVLBGUoZ3R0cNEA.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/UDz1pBxYO06B9Gn_Yh1aSrKw7BpTOweTqWqGdJFFcGvmu2KEy5RlnhyAFAlXc-OwBm5-jD2e8GeyfiitoWpcJ8xphOffCmEJvzZN7xcyUasX3l0cGp6s8gUvZo_7XY0qW_YCVxD1gZB44uXldWyfXKGbqMphihNqj-mBqghQDvgvt6UIVe3Sv2tKCMQaP7Ft6MmgiIe-86LLmknGmtdBSab_w9AhFNetQjdsaW74mluwN1LKzxWCWyjxJxvT0wd83SJnpZeI1A8EyOEtQNKQDfMnXRFvw1EGqkc_le1GyvfWIgHHbg7kp--b4IjKpKHhQTP6QnOTlxswZCmLyXCYCw.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/p8G1CVvfw-is3tt7cAH2PH9aLvcPjsZfjPs8_uhFICFP3lyzIGWSA290klx2aW7zUHrTgkiUcuf2xxHY76gslt88Bstj7uVMntgTyczql_J5-KxFgxPQJn75S9md8PGxTFz4cIvakJJsdiod2Pm1tmSH5zufcLvUIakVaRQ2PG900gPxGSvzN69bMaqfrXI7uWYHgwYzslOfdirglLa0b6_Vopetiq9CAS8hodwxxvvk-21_MSnO6bFOkzbhBn0oYq_Otxyjfh3_3umwTdYgHQi9Zbb3ZVJ7EZVIwTMNTcLbL4OWWaV_xZydb3qn2GHYsz8znucuaW4Pu9j762s7RQ.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/eVv70qOwq75Ll8gqexh489QdpKh5-5XoILDK7P9VziAWCeOy9WxWWHu1xZ3tmwcTtn2rDwDx6tjNt6gI_AI1U-ID1q2adTGO-AmwkPA4YG1AkS3MrejMQj22mU_QqlAOlkbtq8tQQchdEuNb93efbThDX1DGOn-LHtf900zD1oGooNCVlVsmM2AeqpEMN-S3xnLEviZ2dQsQgp-V3S8i22XRuTphXtgEYcgvH-xnGIVZf9OpscsO5OGiz-NqtSbdnnMDbZOI_An76Wmlb8vNxvXNlVIuSAOreK1PWy32k-WPKC0mw5d_Hp0W-g9i4Y6TpkE2cjcsi31dEmLdyZQHGg.jpg)
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/XcMq2a0STGo5-oxgqoDR9O2pB6z7FNpXjVn9tuqEZ-tAaMT6cMNtMmIaSiBFVDqqXUcYZJs2cZ94BQNyqqi484xCnokPS0xnY2YheREFissaPi4P7wPVe1MFkcTA4byTksP8nbVCRAgZ0yWu0mvzBMSvK6Fh-zrezVft_JUPh-mJ1rrwIwkGT0lCVAlEk6V0_6axBKlAPkoPPgLt8_VrWPe0AsMwjOvCsC8YMTEnNmEex1IDDsxWY_qjhak1IO-tKWb5pzj-LGwBO1o8uXRB9bR83yiuo6RmI7NeiwKZsCN5FW5zbaltMHUqU0997S6tES3w74ihLNvfwBG_o1rw0Q.jpg)
Share with your friend now:
group-telegram.com/rizzearch/349