Ребята из Стенфорда сделали фреймворк, упрощающий взаимодействие с тензорными ядрами. И показали его мощь на FlashAttention в сотне строк, который работает быстрее оригинального FlashAttention 2!
Почему так быстро?🥵
➖ Для ThunderKittens придумали новые абстракции поверх тензорных ядер, что дало удобный доступ к ~95% мощности H100 ➖ На полную задействуется новый ускоритель доступа к памяти (TMA) ➖ Подобрав незадокументированные лейауты памяти, вышло задействовать новые асинхронные инструкции для работы с тензорными ядрами ➖ FlashAttention-1 оптимизировал доступ к HBM. FlashAttention-2 – использование тензорных ядер на A100. А тут пошли ещё дальше: начали оптимизировать доступ к разделяемой памяти (shared memory) ➖ Всё это полили соусом из мелких улучшений
FlashAttention – всего лишь первая демка фреймворка, и другие кернелы на нём уже активно пишутся. А тем временем этот проект благословил Tri Dao – мега крутой мужик, автор FlashAttention.
Если хотите, чтобы я рассказал как работает FlashAttention - ставьте 🦄
Ребята из Стенфорда сделали фреймворк, упрощающий взаимодействие с тензорными ядрами. И показали его мощь на FlashAttention в сотне строк, который работает быстрее оригинального FlashAttention 2!
Почему так быстро?🥵
➖ Для ThunderKittens придумали новые абстракции поверх тензорных ядер, что дало удобный доступ к ~95% мощности H100 ➖ На полную задействуется новый ускоритель доступа к памяти (TMA) ➖ Подобрав незадокументированные лейауты памяти, вышло задействовать новые асинхронные инструкции для работы с тензорными ядрами ➖ FlashAttention-1 оптимизировал доступ к HBM. FlashAttention-2 – использование тензорных ядер на A100. А тут пошли ещё дальше: начали оптимизировать доступ к разделяемой памяти (shared memory) ➖ Всё это полили соусом из мелких улучшений
FlashAttention – всего лишь первая демка фреймворка, и другие кернелы на нём уже активно пишутся. А тем временем этот проект благословил Tri Dao – мега крутой мужик, автор FlashAttention.
Если хотите, чтобы я рассказал как работает FlashAttention - ставьте 🦄
To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety.
from es