Telegram Group & Telegram Channel
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2426
Create:
Last Update:

А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2426

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a message on his Telegram channel recently recounting the episode, Durov wrote: "I lost my company and my home, but would do it again – without hesitation." "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Despite Telegram's origins, its approach to users' security has privacy advocates worried. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from ru


Telegram эйай ньюз
FROM American