Notice: file_put_contents(): Write of 8852 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50 AbstractDL | Telegram Webview: abstractDL/247 -
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз
Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.
Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).
Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 раз
Авторы этой статьи доказали, что языковые модели обладают свойством контекстуальной разреженности (contextual sparsity). То есть для генерации каждого отдельного токена активируется очень мало весов. А какие именно части модели нужны на данном шаге — можно легко предсказать.
Для этого они обучили несколько маленьких MLP, динамически отключающих головы внимания и фрагменты FF-слоёв модели во время инференса. При такой "спарсификации" перплексия почему-то падает, а точность растёт! (см. картинку).
Результаты подтверждаются на моделях разных размеров, вплоть до OPT-175B, позволяя ускорить LLM в 3-6 раз.
The picture was mixed overseas. Hong Kong’s Hang Seng Index fell 1.6%, under pressure from U.S. regulatory scrutiny on New York-listed Chinese companies. Stocks were more buoyant in Europe, where Frankfurt’s DAX surged 1.4%. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. Two days after Russia invaded Ukraine, an account on the Telegram messaging platform posing as President Volodymyr Zelenskiy urged his armed forces to surrender. Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market.
from ua