Telegram Group & Telegram Channel
Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья



group-telegram.com/abstractDL/139
Create:
Last Update:

Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/139

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. Telegram Messenger Blocks Navalny Bot During Russian Election The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion.
from tr


Telegram AbstractDL
FROM American