Telegram Group & Telegram Channel
Классы алгоритмической сложности для трансформеров

Сначала расскажу про более объёмную статью, которую мы выпустили на этой неделе. Мы пытаемся дать теоретические оценки того, как эффективно трансформеры решают те или иные алгоритмические задачи. Алгоритмы – это такой ключик к пониманию способностей моделей рассуждать.

Про трансформерные модели мы знаем довольно много: они Тюринг-полные – правда, при polylog-числе слоёв, а при константной глубине они ограничены классом TC0. Это всё, конечно, очень интересно 😐, но хочется изучать трансформеры в более реалистичных сценариях.

Вот тут на сцену выходим мы🤴! В статье мы анализируем девять графовых алгоритмов 👥, которые трансформеры решают в трёх разных режимах параметров. Под параметрами в статье понимаем ширину слоя m, глубину сети L, и аналог chain-of-though токенов, которые позволяют модели покряхтеть над задачкой подольше. 🤔

Внимательный подпищеки заметили 🧐, что алгоритмы мы рассматриваем только графовые. Не серчайте – это всё ради науки! Сложность графовых задач легко варьировать, к тому же, существует сильно больше классов задач, чем для операций с символьными манипуляцями.

Совсем простые задачи 😛, например, как подсчет узлов или рёбер, могут быть решены трансформерами глубины один с шириной log 𝐍. Трансформеры также могут выполнять параллельные алгоритмы - мы нашли три задачи, которые могут быть эффективно решены с помощью трансформеров глубины log 𝐍.

А ещё на графах мы можем сравнить трансформеры с графовыми нейросетями. Теоретически мы показываем случаи, где трансформерам нужно меньше вычислений для решения разных задач, и на практике показываем, как с некоторыми алгоритмическими задачами трансформеры справляются лучше GNNок. Да, практическая часть в статье тоже весёлая – мы попробовали посравнивать трансформеры, натренированные для конкретной задачи с файнтьюненными LLMками! А получилось – читать продолжение в источнике…

Статья получилась жирная 🥁 на теоремы и эмпирику, но, надеюсь, кому-нибудь да понравится.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/171
Create:
Last Update:

Классы алгоритмической сложности для трансформеров

Сначала расскажу про более объёмную статью, которую мы выпустили на этой неделе. Мы пытаемся дать теоретические оценки того, как эффективно трансформеры решают те или иные алгоритмические задачи. Алгоритмы – это такой ключик к пониманию способностей моделей рассуждать.

Про трансформерные модели мы знаем довольно много: они Тюринг-полные – правда, при polylog-числе слоёв, а при константной глубине они ограничены классом TC0. Это всё, конечно, очень интересно 😐, но хочется изучать трансформеры в более реалистичных сценариях.

Вот тут на сцену выходим мы🤴! В статье мы анализируем девять графовых алгоритмов 👥, которые трансформеры решают в трёх разных режимах параметров. Под параметрами в статье понимаем ширину слоя m, глубину сети L, и аналог chain-of-though токенов, которые позволяют модели покряхтеть над задачкой подольше. 🤔

Внимательный подпищеки заметили 🧐, что алгоритмы мы рассматриваем только графовые. Не серчайте – это всё ради науки! Сложность графовых задач легко варьировать, к тому же, существует сильно больше классов задач, чем для операций с символьными манипуляцями.

Совсем простые задачи 😛, например, как подсчет узлов или рёбер, могут быть решены трансформерами глубины один с шириной log 𝐍. Трансформеры также могут выполнять параллельные алгоритмы - мы нашли три задачи, которые могут быть эффективно решены с помощью трансформеров глубины log 𝐍.

А ещё на графах мы можем сравнить трансформеры с графовыми нейросетями. Теоретически мы показываем случаи, где трансформерам нужно меньше вычислений для решения разных задач, и на практике показываем, как с некоторыми алгоритмическими задачами трансформеры справляются лучше GNNок. Да, практическая часть в статье тоже весёлая – мы попробовали посравнивать трансформеры, натренированные для конкретной задачи с файнтьюненными LLMками! А получилось – читать продолжение в источнике…

Статья получилась жирная 🥁 на теоремы и эмпирику, но, надеюсь, кому-нибудь да понравится.

BY epsilon correct




Share with your friend now:
group-telegram.com/epsiloncorrect/171

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. He said that since his platform does not have the capacity to check all channels, it may restrict some in Russia and Ukraine "for the duration of the conflict," but then reversed course hours later after many users complained that Telegram was an important source of information. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from sg


Telegram epsilon correct
FROM American