Telegram Group & Telegram Channel
А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/ai_newz/2426
Create:
Last Update:

А вот и подоспел новый образовательный контент от Карпатого после его ухода из OpenAI. #ликбез

Андрей написал минимальную имплементацию Byte Pair Encoding (BPE) токенайзера, который широко используется в современных LLM, в том числе и в GPT-4.

Токенайзер - это алгоритм, который преобразует текст в последовательность токенов (целых чисел), перед тем, как его скормить в LLM.

Идея BPE очень простая:
1️⃣ Берем Unicode строку и представляем ее в виде последовательности байтов. - Изначально каждый байт - это отдельный токен, их всего 256 уникальных.
2️⃣ Затем находим наиболее частую пару соседних токенов и заменяем её на новый токен с номером (256 + i) → пример на скрине.
3️⃣ Повторяем это дело K раз. В итоге имеем словарь на 256 + K токенов, которые сжимают оригинальную последовательность байтов в более короткую последовательность токенов, закодированных номерами.


Видео лекция про BPE у Карпатого уже в производстве, он обещал скоро ей поделиться!

А пока можете посмотреть разбор BPE (пост+видео) из NLP курса на HuggingFace: ссылка.

@ai_newz

BY эйай ньюз




Share with your friend now:
group-telegram.com/ai_newz/2426

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Since January 2022, the SC has received a total of 47 complaints and enquiries on illegal investment schemes promoted through Telegram. These fraudulent schemes offer non-existent investment opportunities, promising very attractive and risk-free returns within a short span of time. They commonly offer unrealistic returns of as high as 1,000% within 24 hours or even within a few hours. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. READ MORE
from vn


Telegram эйай ньюз
FROM American