Telegram Group & Telegram Channel
Многие проблемы языковых моделей на самом деле восходят к токенизации

Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:

➡️Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).

➡️Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

➡️Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).

➡️Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.

➡️Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.

Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/4441
Create:
Last Update:

Многие проблемы языковых моделей на самом деле восходят к токенизации

Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:

➡️Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).

➡️Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

➡️Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).

➡️Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.

➡️Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.

Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня 🚀

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/4441

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors.
from tr


Telegram Data Secrets
FROM American