Notice: file_put_contents(): Write of 705 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Warning: file_put_contents(): Only 8192 of 8897 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50 gonzo-обзоры ML статей | Telegram Webview: gonzo_ML/65 -
Модификация механизма внимания, позволяющая увеличить длину входа. На self-reported тестах более эффективен чем Transformer-XL
При высчислении обычного внимания сложность вычислений Х^2, где Х -- длина входа, т.к. мы считаем внимание с каждого элемента на каждый. Другими словами, внимание это квадратная симметричная матрица. Оказывается, если долго смотреть на эти матрицы, можно узреть паттерны -- часто возникающие схемы внимания, которые сильно проще чем Х^2 и легко факторизуются. Это позволяет считать внимание не по всем элементам, а по небольшому подмножеству, перейдя от Х^2 почти к О(Х). Авторы предлагают две простые факторизации внимания -- strided и fixed. Как следствие это позволяет сильно увеличить размер окна -- обрабатывать Трансформером сырой звук и картинки, что раньше не делали именно из-за того, что в него сложно впихнуть что-то длинное. На текстах они сделали какой-то один SOTA замер, надо последить, что дальше будет. Поясняющую картинку см выше.
На этом у меня пока всё. Если что-то важное забыл, пишите в личку, @altsoph.
Модификация механизма внимания, позволяющая увеличить длину входа. На self-reported тестах более эффективен чем Transformer-XL
При высчислении обычного внимания сложность вычислений Х^2, где Х -- длина входа, т.к. мы считаем внимание с каждого элемента на каждый. Другими словами, внимание это квадратная симметричная матрица. Оказывается, если долго смотреть на эти матрицы, можно узреть паттерны -- часто возникающие схемы внимания, которые сильно проще чем Х^2 и легко факторизуются. Это позволяет считать внимание не по всем элементам, а по небольшому подмножеству, перейдя от Х^2 почти к О(Х). Авторы предлагают две простые факторизации внимания -- strided и fixed. Как следствие это позволяет сильно увеличить размер окна -- обрабатывать Трансформером сырой звук и картинки, что раньше не делали именно из-за того, что в него сложно впихнуть что-то длинное. На текстах они сделали какой-то один SOTA замер, надо последить, что дальше будет. Поясняющую картинку см выше.
На этом у меня пока всё. Если что-то важное забыл, пишите в личку, @altsoph.
BY gonzo-обзоры ML статей
Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260
The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred."
from no