Chinchilla: оптимальная языковая модель (by DeepMind)
Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).
Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.
Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.
Chinchilla: оптимальная языковая модель (by DeepMind)
Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).
Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.
Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.
Right now the digital security needs of Russians and Ukrainians are very different, and they lead to very different caveats about how to mitigate the risks associated with using Telegram. For Ukrainians in Ukraine, whose physical safety is at risk because they are in a war zone, digital security is probably not their highest priority. They may value access to news and communication with their loved ones over making sure that all of their communications are encrypted in such a manner that they are indecipherable to Telegram, its employees, or governments with court orders. The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War." Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. At this point, however, Durov had already been working on Telegram with his brother, and further planned a mobile-first social network with an explicit focus on anti-censorship. Later in April, he told TechCrunch that he had left Russia and had “no plans to go back,” saying that the nation was currently “incompatible with internet business at the moment.” He added later that he was looking for a country that matched his libertarian ideals to base his next startup. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today."
from nl