Telegram Group & Telegram Channel
The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
Jonathan Frankle, Michael Carbin
CSAIL MIT

Статья: https://arxiv.org/abs/1803.03635

#CNN, #FFNN, #optimization, #pruning, #ICLR 2019

Статья немного про природу вещей. Рассматривают dense feed-forward neural networks, полносвязные и/или CNN. Известно, что методы network pruning позволяют эффективно ужать уже обученную сеть -- выкинуть заметную часть параметров (связей) без потерь качества (в ряде случаев удаётся снизить объём на 90%). Известно, кроме того, что сразу научить такую уменьшенную сеть до того же качества не выходит.

Авторы выдвигают гипотезу "лотерейного билета": любая случайно инициализированная плотная сеть, обучаемая на заданный таргет, содержит некоторую подсеть, которая, будучи обученной на тот же таргет, даст качество не хуже за то же или меньшее число итераций обучения. В целом, это утверждение имеет как минимум тривиальное подтверждение, но авторы утверждают, что это эффективная подсеть обычно существенно меньше основной. Такие эффективные подсети называют "winning tickets".

Интуиция тут такая: Начиная обучать случайно инициализированную сеть, оптимизатор просто ищет уже готовый подходящий канал внутри случайной сети, а дальше уже именно этот путь оптимизируется, а остальная сеть не очень то и нужна. В плотной сети число возможных путей от входа к выходу растёт с числом нейронов существенно надлинейно. Поэтому, чем больше сеть взять в начале, тем больше шансов сразу получить подходящий подграф.

Проводят серию экспериментов для подтверждения этой гипотезы:
1) Возьмём большую случайно инициализированную сеть Х, сохраним её копию С.
2) Обучим Х, применим к ней pruning, получим редуцированную обученную сеть У (размером 10-20% от Х).
3) Вернёмся к сохранённой копии С, редуцируем её до тех же параметров, что остались в У, но веса оставим случайными (из С) -- это будет сеть Z.
4) Обучим Z и сравним сходимость с Х. Качество должно получиться не хуже, а сходимость -- не медленнее.
5) Затем вернёмся к Z и вновь переинициализируем её случайным образом, пусть это будет сеть R. Опять сравним с X и Z. Если гипотеза верна, всё должно ухудшиться.
6) Ещё можно сравниться со случайным подграфом Х того же размера что Z.

В целом, результаты экспериментов скорее подтверждают гипотезу, по крайней мере для простых топологий. Дальше в статье идёт разбор таких экспериментов для некоторого числа разных задач, топологий и методов оптимизации.

Общие выводы:
- текущая схема обучения сетей не очень эффективна, есть куда улучшаться, например, в сторону более эффективной начальной инициализации (но не очень понятно как),
- можно попробовать определять winning tickets на ранних стадиях обучения большой сети и делать ранний pruning к ним -- это может повысить эффективность обучения на практике.



group-telegram.com/gonzo_ML/21
Create:
Last Update:

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
Jonathan Frankle, Michael Carbin
CSAIL MIT

Статья: https://arxiv.org/abs/1803.03635

#CNN, #FFNN, #optimization, #pruning, #ICLR 2019

Статья немного про природу вещей. Рассматривают dense feed-forward neural networks, полносвязные и/или CNN. Известно, что методы network pruning позволяют эффективно ужать уже обученную сеть -- выкинуть заметную часть параметров (связей) без потерь качества (в ряде случаев удаётся снизить объём на 90%). Известно, кроме того, что сразу научить такую уменьшенную сеть до того же качества не выходит.

Авторы выдвигают гипотезу "лотерейного билета": любая случайно инициализированная плотная сеть, обучаемая на заданный таргет, содержит некоторую подсеть, которая, будучи обученной на тот же таргет, даст качество не хуже за то же или меньшее число итераций обучения. В целом, это утверждение имеет как минимум тривиальное подтверждение, но авторы утверждают, что это эффективная подсеть обычно существенно меньше основной. Такие эффективные подсети называют "winning tickets".

Интуиция тут такая: Начиная обучать случайно инициализированную сеть, оптимизатор просто ищет уже готовый подходящий канал внутри случайной сети, а дальше уже именно этот путь оптимизируется, а остальная сеть не очень то и нужна. В плотной сети число возможных путей от входа к выходу растёт с числом нейронов существенно надлинейно. Поэтому, чем больше сеть взять в начале, тем больше шансов сразу получить подходящий подграф.

Проводят серию экспериментов для подтверждения этой гипотезы:
1) Возьмём большую случайно инициализированную сеть Х, сохраним её копию С.
2) Обучим Х, применим к ней pruning, получим редуцированную обученную сеть У (размером 10-20% от Х).
3) Вернёмся к сохранённой копии С, редуцируем её до тех же параметров, что остались в У, но веса оставим случайными (из С) -- это будет сеть Z.
4) Обучим Z и сравним сходимость с Х. Качество должно получиться не хуже, а сходимость -- не медленнее.
5) Затем вернёмся к Z и вновь переинициализируем её случайным образом, пусть это будет сеть R. Опять сравним с X и Z. Если гипотеза верна, всё должно ухудшиться.
6) Ещё можно сравниться со случайным подграфом Х того же размера что Z.

В целом, результаты экспериментов скорее подтверждают гипотезу, по крайней мере для простых топологий. Дальше в статье идёт разбор таких экспериментов для некоторого числа разных задач, топологий и методов оптимизации.

Общие выводы:
- текущая схема обучения сетей не очень эффективна, есть куда улучшаться, например, в сторону более эффективной начальной инициализации (но не очень понятно как),
- можно попробовать определять winning tickets на ранних стадиях обучения большой сети и делать ранний pruning к ним -- это может повысить эффективность обучения на практике.

BY gonzo-обзоры ML статей


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/gonzo_ML/21

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Friday’s performance was part of a larger shift. For the week, the Dow, S&P 500 and Nasdaq fell 2%, 2.9%, and 3.5%, respectively.
from fr


Telegram gonzo-обзоры ML статей
FROM American