Byte Latent Transformer: Patches Scale Better Than Tokens
Новая статья от META - Byte Latent Transformer. Пробуют новый подход к токенизации - вместо фиксированного словаря используют динамические patches, размер которых определяется по энтропии следующего байта. Модель успешно масштабировали до 8B параметров и 4T байтов, при этом с лучшим качеством. Плюс эффективность и тренировки, и инференса лучше. Каких-то особых недостатков подхода авторы не описали. Ждём Llama 4 на байтах? :)
Byte Latent Transformer: Patches Scale Better Than Tokens
Новая статья от META - Byte Latent Transformer. Пробуют новый подход к токенизации - вместо фиксированного словаря используют динамические patches, размер которых определяется по энтропии следующего байта. Модель успешно масштабировали до 8B параметров и 4T байтов, при этом с лучшим качеством. Плюс эффективность и тренировки, и инференса лучше. Каких-то особых недостатков подхода авторы не описали. Ждём Llama 4 на байтах? :)
The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. Ukrainian President Volodymyr Zelensky said in a video message on Tuesday that Ukrainian forces "destroy the invaders wherever we can." "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights.
from br