А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез
Андрей написал минимальную имплементациюByte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.
Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.
Идея BPE очень простая: 1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных. 2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине. 3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.
Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!
А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез
Андрей написал минимальную имплементациюByte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.
Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.
Идея BPE очень простая: 1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных. 2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине. 3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.
Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!
А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.
But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. False news often spreads via public groups, or chats, with potentially fatal effects. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from sa