Telegram Group & Telegram Channel
​​Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Новая версия всем известного BERT. Авторы обновили архитектуру, добавили модные трюки для оптимизации тренировки, досыпали данных. Получили SOTA на большинстве бенчмарков.

Было интересно почитать какие изменения появились за 6 лет. В конце статьи авторы ещё подробно описывали эксперименты и мысли. Из забавного: "проблема первого мира" - если в батче 500к-1млн семплов, то дефолтный семплер в Pytorch плохо рандомит. Авторам пришлось взять ссемплер из Numpy.

А ещё интересное - один из авторов недавно взял соло золото в соревновании на каггле и занял 4-е место в общем рейтинге соревнований.

Paper
Code
Weights
Blogpost

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview



group-telegram.com/datastorieslanguages/345
Create:
Last Update:

​​Smarter, Better, Faster, Longer: A Modern Bidirectional Encoder for Fast, Memory Efficient, and Long Context Finetuning and Inference

Новая версия всем известного BERT. Авторы обновили архитектуру, добавили модные трюки для оптимизации тренировки, досыпали данных. Получили SOTA на большинстве бенчмарков.

Было интересно почитать какие изменения появились за 6 лет. В конце статьи авторы ещё подробно описывали эксперименты и мысли. Из забавного: "проблема первого мира" - если в батче 500к-1млн семплов, то дефолтный семплер в Pytorch плохо рандомит. Авторам пришлось взять ссемплер из Numpy.

А ещё интересное - один из авторов недавно взял соло золото в соревновании на каггле и занял 4-е место в общем рейтинге соревнований.

Paper
Code
Weights
Blogpost

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview

BY Data, Stories and Languages




Share with your friend now:
group-telegram.com/datastorieslanguages/345

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. The perpetrators use various names to carry out the investment scams. They may also impersonate or clone licensed capital market intermediaries by using the names, logos, credentials, websites and other details of the legitimate entities to promote the illegal schemes. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. Telegram users are able to send files of any type up to 2GB each and access them from any device, with no limit on cloud storage, which has made downloading files more popular on the platform.
from us


Telegram Data, Stories and Languages
FROM American