Telegram Group & Telegram Channel
​​Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Новая версия всем известного BERT. Авторы обновили архитектуру, добавили модные трюки для оптимизации тренировки, досыпали данных. Получили SOTA на большинстве бенчмарков.

Было интересно почитать какие изменения появились за 6 лет. В конце статьи авторы ещё подробно описывали эксперименты и мысли. Из забавного: "проблема первого мира" - если в батче 500к-1млн семплов, то дефолтный семплер в Pytorch плохо рандомит. Авторам пришлось взять ссемплер из Numpy.

А ещё интересное - один из авторов недавно взял соло золото в соревновании на каггле и занял 4-е место в общем рейтинге соревнований.

Paper
Code
Weights
Blogpost

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview



group-telegram.com/datastorieslanguages/345
Create:
Last Update:

​​Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Новая версия всем известного BERT. Авторы обновили архитектуру, добавили модные трюки для оптимизации тренировки, досыпали данных. Получили SOTA на большинстве бенчмарков.

Было интересно почитать какие изменения появились за 6 лет. В конце статьи авторы ещё подробно описывали эксперименты и мысли. Из забавного: "проблема первого мира" - если в батче 500к-1млн семплов, то дефолтный семплер в Pytorch плохо рандомит. Авторам пришлось взять ссемплер из Numpy.

А ещё интересное - один из авторов недавно взял соло золото в соревновании на каггле и занял 4-е место в общем рейтинге соревнований.

Paper
Code
Weights
Blogpost

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

'Wild West' "Like the bombing of the maternity ward in Mariupol," he said, "Even before it hits the news, you see the videos on the Telegram channels." In addition, Telegram's architecture limits the ability to slow the spread of false information: the lack of a central public feed, and the fact that comments are easily disabled in channels, reduce the space for public pushback. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Founder Pavel Durov says tech is meant to set you free
from sg


Telegram Data, Stories and Languages
FROM American