Chinchilla: оптимальная языковая модель (by DeepMind)
Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).
Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.
Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.
Chinchilla: оптимальная языковая модель (by DeepMind)
Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).
Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.
Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.
WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. The next bit isn’t clear, but Durov reportedly claimed that his resignation, dated March 21st, was an April Fools’ prank. TechCrunch implies that it was a matter of principle, but it’s hard to be clear on the wheres, whos and whys. Similarly, on April 17th, the Moscow Times quoted Durov as saying that he quit the company after being pressured to reveal account details about Ukrainians protesting the then-president Viktor Yanukovych. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Apparently upbeat developments in Russia's discussions with Ukraine helped at least temporarily send investors back into risk assets. Russian President Vladimir Putin said during a meeting with his Belarusian counterpart Alexander Lukashenko that there were "certain positive developments" occurring in the talks with Ukraine, according to a transcript of their meeting. Putin added that discussions were happening "almost on a daily basis."
from kr