Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 SageAttention: ΠΌΠ΅Ρ‚ΠΎΠ΄ квантования ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° внимания Π² Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°Ρ… трансформСров.

Π’Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ - ΠΊΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ трансформСров, Π½ΠΎ Π΅Π³ΠΎ квадратичная ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ вычислСний становится ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ. ΠšΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ примСняСтся для ускорСния Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… слоСв, Π½ΠΎ ΠΎΠ½ΠΎ ΠΌΠ°Π»ΠΎ ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡƒ внимания.

SageAttention - ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 8-Π±ΠΈΡ‚Π½ΠΎΠ΅ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° внимания для ускорСния вычислСний ΠΈ сохранСния точности ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ΠœΠ΅Ρ‚ΠΎΠ΄ Π½Π΅ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ обучСния ΠΈ ΠΊΠΎΠ½Π²Π΅Ρ€Ρ‚Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚, ΠΎΠ½ примСняСтся ΠΊ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌ трансформСным модСлям Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ "plug-and-play".

ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ особСнности ΠΌΠ΅Ρ‚ΠΎΠ΄Π°:

πŸŸ’Π”Π»Ρ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ ошибки квантования ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ сглаТивания ΠΌΠ°Ρ‚Ρ€Ρ‚ΠΈΡ†Ρ‹ К (срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ K вычитаСтся ΠΏΠΎ всСм Ρ‚ΠΎΠΊΠ΅Π½Π°ΠΌ);

πŸŸ’ΠšΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ Q ΠΈ K Π² INT8;
INT8 Π² Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π° быстрСС, Ρ‡Π΅ΠΌ Π² FP16, ΠΈ Π² Π΄Π²Π° Ρ€Π°Π·Π° быстрСС, Ρ‡Π΅ΠΌ Π² FP8.

🟒Matmul PV выполняСтся с FP16-Π½Π°ΠΊΠΎΠΏΠΈΡ‚Π΅Π»Π΅ΠΌ;
Π£ΠΌΠ½ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π² высокой разрядности позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ вычислСния Π±Π΅Π· ΠΏΠΎΡ‚Π΅Ρ€ΠΈ точности.

πŸŸ’ΠΠ΄Π°ΠΏΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅;
Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ слоя внимания выбираСтся Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ быстрый Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ квантования.

SageAttention Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ с использованиСм Triton ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½ для GPU RTX4090 ΠΈ 3090. ΠœΠ΅Ρ‚ΠΎΠ΄ прСвосходит FlashAttention2 ΠΈ xformers ΠΏΠΎ скорости ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π² 2,1 ΠΈ 2,7 Ρ€Π°Π·Π° соотвСтствСнно.

ВСстированиС Π½Π° Llama2, CogvideoX, Unidiffuser ΠΈ TIMM ΠΏΠΎΠ΄Ρ‚Π²Π΅Ρ€Π΄ΠΈΠ»ΠΎ сохранСниС ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ точности ΠΏΡ€ΠΈ использовании SageAttention.

⚠️ ИспользованиС SageAttention рСкомСндуСтся с вСрсиями:

🟠python>=3.11;
🟠torch>=2.4.0;
🟠triton-nightly.

⚠️ SageAttention ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½ для RTX4090 ΠΈ RTX3090. На Π΄Ρ€ΡƒΠ³ΠΈΡ… Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°Ρ… GPU прирост ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ.

β–ΆοΈΠŸΡ€ΠΈΠΌΠ΅Ρ€ использования:

# Install sageattention
pip install sageattention

# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)

# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F

F.scaled_dot_product_attention = sageattn

# Specifically
cd example
python sageattn_cogvideo.py


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: BSD-3-Clause license.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #SageAttention #Transformers
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ArtificialIntelligencedl/2145
Create:
Last Update:

🌟 SageAttention: ΠΌΠ΅Ρ‚ΠΎΠ΄ квантования ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° внимания Π² Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°Ρ… трансформСров.

Π’Π½ΠΈΠΌΠ°Π½ΠΈΠ΅ - ΠΊΠ»ΡŽΡ‡Π΅Π²ΠΎΠΉ ΠΊΠΎΠΌΠΏΠΎΠ½Π΅Π½Ρ‚ трансформСров, Π½ΠΎ Π΅Π³ΠΎ квадратичная ΡΠ»ΠΎΠΆΠ½ΠΎΡΡ‚ΡŒ вычислСний становится ΠΏΡ€ΠΎΠ±Π»Π΅ΠΌΠΎΠΉ ΠΏΡ€ΠΈ ΠΎΠ±Ρ€Π°Π±ΠΎΡ‚ΠΊΠ΅ Π΄Π»ΠΈΠ½Π½Ρ‹Ρ… ΠΏΠΎΡΠ»Π΅Π΄ΠΎΠ²Π°Ρ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚Π΅ΠΉ. ΠšΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ ΡƒΡΠΏΠ΅ΡˆΠ½ΠΎ примСняСтся для ускорСния Π»ΠΈΠ½Π΅ΠΉΠ½Ρ‹Ρ… слоСв, Π½ΠΎ ΠΎΠ½ΠΎ ΠΌΠ°Π»ΠΎ ΠΈΠ·ΡƒΡ‡Π΅Π½ΠΎ ΠΏΡ€ΠΈΠΌΠ΅Π½ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎ ΠΊ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΡƒ внимания.

SageAttention - ΡΠΊΡΠΏΠ΅Ρ€ΠΈΠΌΠ΅Π½Ρ‚Π°Π»ΡŒΠ½Ρ‹ΠΉ ΠΌΠ΅Ρ‚ΠΎΠ΄, ΠΊΠΎΡ‚ΠΎΡ€Ρ‹ΠΉ ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ 8-Π±ΠΈΡ‚Π½ΠΎΠ΅ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ ΠΌΠ΅Ρ…Π°Π½ΠΈΠ·ΠΌΠ° внимания для ускорСния вычислСний ΠΈ сохранСния точности ΠΌΠΎΠ΄Π΅Π»ΠΈ.

ΠœΠ΅Ρ‚ΠΎΠ΄ Π½Π΅ Ρ‚Ρ€Π΅Π±ΡƒΠ΅Ρ‚ ΡΠΏΠ΅Ρ†ΠΈΠ°Π»ΡŒΠ½ΠΎΠ³ΠΎ обучСния ΠΈ ΠΊΠΎΠ½Π²Π΅Ρ€Ρ‚Π°Ρ†ΠΈΠΈ ΠΌΠΎΠ΄Π΅Π»Π΅ΠΉ Π² ΠΊΠ°ΠΊΠΎΠΉ-Π»ΠΈΠ±ΠΎ Ρ„ΠΎΡ€ΠΌΠ°Ρ‚, ΠΎΠ½ примСняСтся ΠΊ ΡΡƒΡ‰Π΅ΡΡ‚Π²ΡƒΡŽΡ‰ΠΈΠΌ трансформСным модСлям Π² Ρ€Π΅ΠΆΠΈΠΌΠ΅ "plug-and-play".

ΠšΠ»ΡŽΡ‡Π΅Π²Ρ‹Π΅ особСнности ΠΌΠ΅Ρ‚ΠΎΠ΄Π°:

πŸŸ’Π”Π»Ρ ΡƒΠΌΠ΅Π½ΡŒΡˆΠ΅Π½ΠΈΡ ошибки квантования ΠΈΡΠΏΠΎΠ»ΡŒΠ·ΡƒΠ΅Ρ‚ΡΡ сглаТивания ΠΌΠ°Ρ‚Ρ€Ρ‚ΠΈΡ†Ρ‹ К (срСднСС Π·Π½Π°Ρ‡Π΅Π½ΠΈΠ΅ K вычитаСтся ΠΏΠΎ всСм Ρ‚ΠΎΠΊΠ΅Π½Π°ΠΌ);

πŸŸ’ΠšΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅ Q ΠΈ K Π² INT8;
INT8 Π² Ρ‡Π΅Ρ‚Ρ‹Ρ€Π΅ Ρ€Π°Π·Π° быстрСС, Ρ‡Π΅ΠΌ Π² FP16, ΠΈ Π² Π΄Π²Π° Ρ€Π°Π·Π° быстрСС, Ρ‡Π΅ΠΌ Π² FP8.

🟒Matmul PV выполняСтся с FP16-Π½Π°ΠΊΠΎΠΏΠΈΡ‚Π΅Π»Π΅ΠΌ;
Π£ΠΌΠ½ΠΎΠΆΠ΅Π½ΠΈΠ΅ ΠΌΠ°Ρ‚Ρ€ΠΈΡ† Π² высокой разрядности позволяСт ΡƒΡΠΊΠΎΡ€ΠΈΡ‚ΡŒ вычислСния Π±Π΅Π· ΠΏΠΎΡ‚Π΅Ρ€ΠΈ точности.

πŸŸ’ΠΠ΄Π°ΠΏΡ‚ΠΈΠ²Π½ΠΎΠ΅ ΠΊΠ²Π°Π½Ρ‚ΠΎΠ²Π°Π½ΠΈΠ΅;
Для ΠΊΠ°ΠΆΠ΄ΠΎΠ³ΠΎ слоя внимания выбираСтся Π½Π°ΠΈΠ±ΠΎΠ»Π΅Π΅ быстрый Π²Π°Ρ€ΠΈΠ°Π½Ρ‚ квантования.

SageAttention Ρ€Π΅Π°Π»ΠΈΠ·ΠΎΠ²Π°Π½ с использованиСм Triton ΠΈ ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½ для GPU RTX4090 ΠΈ 3090. ΠœΠ΅Ρ‚ΠΎΠ΄ прСвосходит FlashAttention2 ΠΈ xformers ΠΏΠΎ скорости ΠΏΡ€ΠΈΠΌΠ΅Ρ€Π½ΠΎ Π² 2,1 ΠΈ 2,7 Ρ€Π°Π·Π° соотвСтствСнно.

ВСстированиС Π½Π° Llama2, CogvideoX, Unidiffuser ΠΈ TIMM ΠΏΠΎΠ΄Ρ‚Π²Π΅Ρ€Π΄ΠΈΠ»ΠΎ сохранСниС ΠΌΠ΅Ρ‚Ρ€ΠΈΠΊ точности ΠΏΡ€ΠΈ использовании SageAttention.

⚠️ ИспользованиС SageAttention рСкомСндуСтся с вСрсиями:

🟠python>=3.11;
🟠torch>=2.4.0;
🟠triton-nightly.

⚠️ SageAttention ΠΎΠΏΡ‚ΠΈΠΌΠΈΠ·ΠΈΡ€ΠΎΠ²Π°Π½ для RTX4090 ΠΈ RTX3090. На Π΄Ρ€ΡƒΠ³ΠΈΡ… Π°Ρ€Ρ…ΠΈΡ‚Π΅ΠΊΡ‚ΡƒΡ€Π°Ρ… GPU прирост ΠΏΡ€ΠΎΠΈΠ·Π²ΠΎΠ΄ΠΈΡ‚Π΅Π»ΡŒΠ½ΠΎΡΡ‚ΠΈ ΠΌΠΎΠΆΠ΅Ρ‚ Π±Ρ‹Ρ‚ΡŒ Π½Π΅Π·Π½Π°Ρ‡ΠΈΡ‚Π΅Π»ΡŒΠ½Ρ‹ΠΌ.

β–ΆοΈΠŸΡ€ΠΈΠΌΠ΅Ρ€ использования:

# Install sageattention
pip install sageattention

# How to use
from sageattention import sageattn
attn_output = sageattn(q, k, v, is_causal=False, smooth_k=True)

# Plug-and-play example with Cogvideo
# add the following codes and run
from sageattention import sageattn
import torch.nn.functional as F

F.scaled_dot_product_attention = sageattn

# Specifically
cd example
python sageattn_cogvideo.py


πŸ“ŒΠ›ΠΈΡ†Π΅Π½Π·ΠΈΡ€ΠΎΠ²Π°Π½ΠΈΠ΅: BSD-3-Clause license.


🟑Arxiv
πŸ–₯GitHub


@ai_machinelearning_big_data

#AI #ML #SageAttention #Transformers

BY Artificial Intelligence






Share with your friend now:
group-telegram.com/ArtificialIntelligencedl/2145

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss β€” its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram. Meanwhile, a completely redesigned attachment menu appears when sending multiple photos or vides. Users can tap "X selected" (X being the number of items) at the top of the panel to preview how the album will look in the chat when it's sent, as well as rearrange or remove selected media. The news also helped traders look past another report showing decades-high inflation and shake off some of the volatility from recent sessions. The Bureau of Labor Statistics' February Consumer Price Index (CPI) this week showed another surge in prices even before Russia escalated its attacks in Ukraine. The headline CPI β€” soaring 7.9% over last year β€” underscored the sticky inflationary pressures reverberating across the U.S. economy, with everything from groceries to rents and airline fares getting more expensive for everyday consumers. Russian President Vladimir Putin launched Russia's invasion of Ukraine in the early-morning hours of February 24, targeting several key cities with military strikes.
from us


Telegram Artificial Intelligence
FROM American