Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
#transformer #optimization #memory #context
Пока во всех каналах идет шумиха о новой модели, я подготовил еще один разбор статьи. На этот раз погрузился в тему бесконечного контекста и линейной алгебры.
Очередной трансформер - авторы выделяют дополнительную память для итерационного сохранения векторов K и V по всем токенам текста в структуре Linear Attention, который работает параллельно оригинальному Multi-Head Attention (на выходе считают их взвешенную сумму с обучаемым параметром). Это позволяет не увеличивать сложность расчетов (которая и так O(N^2) в оригинальном Attention), а также запоминать сколь угодно много контекста. По результатам Infini-Transformer довольно хорошо справляется с задачей суммаризации (по бенчмаркам лучше, чем BART) и, очевидно👍, эфективнее работает с длинным контекстом.
Leave No Context Behind: Efficient Infinite Context Transformers with Infini-attention
#transformer #optimization #memory #context
Пока во всех каналах идет шумиха о новой модели, я подготовил еще один разбор статьи. На этот раз погрузился в тему бесконечного контекста и линейной алгебры.
Очередной трансформер - авторы выделяют дополнительную память для итерационного сохранения векторов K и V по всем токенам текста в структуре Linear Attention, который работает параллельно оригинальному Multi-Head Attention (на выходе считают их взвешенную сумму с обучаемым параметром). Это позволяет не увеличивать сложность расчетов (которая и так O(N^2) в оригинальном Attention), а также запоминать сколь угодно много контекста. По результатам Infini-Transformer довольно хорошо справляется с задачей суммаризации (по бенчмаркам лучше, чем BART) и, очевидно👍, эфективнее работает с длинным контекстом.
He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. For tech stocks, “the main thing is yields,” Essaye said. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from us