Notice: file_put_contents(): Write of 4347 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 12539 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Data Secrets | Telegram Webview: data_secrets/4441 -
Telegram Group & Telegram Channel
Многие проблемы языковых моделей на самом деле восходят к токенизации

Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:

➡️Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).

➡️Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

➡️Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).

➡️Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.

➡️Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.

Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня 🚀
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_secrets/4441
Create:
Last Update:

Многие проблемы языковых моделей на самом деле восходят к токенизации

Токенизация – это "распиливание" текста на токены, которое необходимо, чтобы модель нормально ела и обрабатывала письменную речь. Обратите внимание, что токен != слово и токен != слог. Токен – это вообще нечто нечеткое. Например:

➡️Пробел тоже может быть токеном, и из-за этого модель может по-разному воспринимать предложение с символом пробела и без символа пробела на конце (обсуждение на Reddit).

➡️Токенайзеры восприимчивы к регистру. "Hello” и “HELLO" могут быть токенизированы по-разному. В этом, кстати, кроется причина того, что многие модели проваливают тест Capital letter, где вопросы задаются зАбоРЧИком.

➡️Некоторые языки лучше поддаются токенизации, некоторые хуже. Из-за этого перформанс моделей на "неэффективно токенизируемых" языках гораздо ниже, а цена и время инференса иногда вдвое больше (вот исследование Оксфорда на эту тему).

➡️Из-за токенов у моделек проблемы с математикой (картинка наверху): токенайзер может токенизировать 380 как "380", а 381 как "38" и "1", то есть модель на самом деле просто не понимает, что представляет из себя число. Например, GPT-4 считает, что 7735 больше чем 7926.

➡️Токены – это также причина того, что модели фейлятся на задачах с анограммами или не могут просто-напросто перевернуть слово.

Так что вероятно, если мы найдем способ скармливать моделям текст другим способом – это будет прорыв. Про одно из исследований на эту тему мы расскажем уже сегодня 🚀

BY Data Secrets




Share with your friend now:
group-telegram.com/data_secrets/4441

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Continuing its crackdown against entities allegedly involved in a front-running scam using messaging app Telegram, Sebi on Thursday carried out search and seizure operations at the premises of eight entities in multiple locations across the country. As the war in Ukraine rages, the messaging app Telegram has emerged as the go-to place for unfiltered live war updates for both Ukrainian refugees and increasingly isolated Russians alike. And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app.
from nl


Telegram Data Secrets
FROM American