А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр: ᗪ🝗🝗尸 ㇄🝗闩尺𝓝讠𝓝Ꮆ.
Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.
В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.
P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.
А что будет, если учить нейронную сеть понимать текст по скриншотам? Оказалось, что такая модель будет работать ничуть не хуже, чем BERT, и, к тому же, ещё и понимать мультсимвольный шифр: ᗪ🝗🝗尸 ㇄🝗闩尺𝓝讠𝓝Ꮆ.
Авторы предложили вместо дискретных токенов предсказывать пиксели буквенных символов. Подход очень похож на смесь BERT и ViT-MAE — сначала обучающие тексты рендерятся в изображение, а затем маскируются и восстанавливаются разные его куски. Этот подход позволил избавиться от так называемого vocabulary bottleneck — то есть нет необходимости хранить огромное количество эмбеддингов для десятков тысяч токенов и вычислять дорогостоящий софтмакс.
В итоге, модель демонстрирует сравнимый с бертом перформанс и гораздо более устойчива к adversarial атакам.
P.S. На картинке показана работа промежуточного чекпоинта модели, когда она научилась декодить замаскированный текст, но ещё не до конца.
"Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. For tech stocks, “the main thing is yields,” Essaye said. Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores.
from tr