Telegram Group & Telegram Channel
Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder
👍25🔥92



group-telegram.com/law_coder/195
Create:
Last Update:

Заблуждение о токенизации и обработке текста

Одним из наиболее распространенных и важных для понимания заблуждений является представление о том, что LLM обрабатывают текст на уровне отдельных букв или символов. Карпати объясняет, что современные языковые модели работают с токенами - фрагментами текста, которые могут представлять части слов, целые слова или даже фразы. Этот процесс токенизации создает словарь из десятков тысяч токенов. Токен при этом состоит не из букв в человеческом понимании. Токен - это набор цифр в таком виде [302, 1618, 19772] (так LLM видит слово strawberry).

Токенизация является корнем многих ограничений LLM, которые пользователи ошибочно приписывают архитектуре или алгоритмам обучения. Классический пример, который приводит Карпати - неспособность модели правильно подсчитать количество букв "r" в слове "strawberry". Поскольку слово может быть токенизировано как "st" + raw" +"berry", модель не имеет прямого доступа к отдельным символам, потому что видит его так [302, 1618, 19772]. Это объясняет, почему мощные языковые модели могут решать сложные математические задачи, но испытывают трудности с простым подсчетом символов.

В экспериментаторской есть раздел с объяснением понятия токен и калькулятор для подсчета количество токенов в тексте:
экспериментаторская.рф/tiktoken
Можете поиграться с этим на досуге.

Это серия постов с заблуждениями об ЛЛМ. Предыдущий здесь.

LawCoder

BY LawCoder


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/law_coder/195

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Elsewhere, version 8.6 of Telegram integrates the in-app camera option into the gallery, while a new navigation bar gives quick access to photos, files, location sharing, and more. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from us


Telegram LawCoder
FROM American