group-telegram.com/abstractDL/152
Last Update:
Language Modeling with Pixels
А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр:
ᗪ🝗🝗尸 ㇄🝗闩尺𝓝讠𝓝Ꮆ.
Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.
В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.
P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.
Статья, GitHub, Hugging Face
BY AbstractDL
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/Eft6_-np6UGRLtuqtGOK7xvRmga239TMHZD4BE_t48KqWRo1301kdalinRorbVBO5sR4KY8c94XsVsLp1OAqKTcCcbQGz9zGPZM-DMdO1nbjlknlml7jl-a7dolCRyo1xrTUNjBnoVNksZg-tcA6qnRbDT5-HyU7oo97AWyaztw8nsnsC_1VGW13yA2DYK7xB2Ex63VAyZ0FR0Bv_iq6V5SyOSYcVIWurWbHzKzrvcrcXT0uLqWpkAvTppBcuat3hisjyWAhrZGgyzF13Ber5TAJbpByYQUZ_vudZYZT_L75JAMm9G_EiuSoEv0OuEYoIPH2-sOlHex0HkvwsMrRXQ.jpg)
Share with your friend now:
group-telegram.com/abstractDL/152