Telegram Group & Telegram Channel
Language Modeling with Pixels

А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр:
ᗪ🝗🝗尸 ㇄🝗闩尺𝓝讠𝓝Ꮆ.

Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.

В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.

P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.

Статья, GitHub, Hugging Face



group-telegram.com/abstractDL/152
Create:
Last Update:

Language Modeling with Pixels

А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр:
ᗪ🝗🝗尸 ㇄🝗闩尺𝓝讠𝓝Ꮆ.

Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.

В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.

P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.

Статья, GitHub, Hugging Face

BY AbstractDL




Share with your friend now:
group-telegram.com/abstractDL/152

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But because group chats and the channel features are not end-to-end encrypted, Galperin said user privacy is potentially under threat. The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Ukrainian forces have since put up a strong resistance to the Russian troops amid the war that has left hundreds of Ukrainian civilians, including children, dead, according to the United Nations. Ukrainian and international officials have accused Russia of targeting civilian populations with shelling and bombardments. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from us


Telegram AbstractDL
FROM American