Telegram Group & Telegram Channel
Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья



group-telegram.com/abstractDL/139
Create:
Last Update:

Chinchilla: оптимальная языковая модель (by DeepMind)

Оказывается(!) бывает полезно не только масштабировать языковые модели, но и увеличивать количество обучающих данных (или хотя бы количество эпох).

Исследователи из DeepMind даже выявили примерный закон, как именно должны быть связаны размеры модели и число токенов в обучающем датасете при фиксированном количестве доступных гпу-часов для получения лучшей по перформансу модели (см. картинку). Если коротко, model_size x2 -> dataset_size x2.

Судя по всему, существующие большие модели — слишком большие (для имеющихся обучающих данных). Чтобы исправить эту несправедливость, авторы представили оптимальную модель — Chinchilla, которая в 4 раза меньше чем Gopher, но обучалась в 5 раз дольше (тот же датасет, больше эпох). Получившаяся модель, несмотря на свой размер, обходит Gopher почти на всех бенчмарках.

Статья

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/139

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform. And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%. Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from tw


Telegram AbstractDL
FROM American