Telegram Group & Telegram Channel
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2426
Create:
Last Update:

А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2426

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. False news often spreads via public groups, or chats, with potentially fatal effects. For example, WhatsApp restricted the number of times a user could forward something, and developed automated systems that detect and flag objectionable content. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into."
from sa


Telegram эйай ньюз
FROM American