Telegram Group & Telegram Channel
🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):

from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml



group-telegram.com/data_analysis_ml/3639
Create:
Last Update:

🦖 Tokasaurus — универсальный токенизатор с поддержкой 70+ языков

Tokasaurus — это быстрый и лёгкий инструмент для токенизации текста, созданный на базе библиотеки tokenizers от Hugging Face. Он поддерживает более 70 языков программирования и естественных языков.

🔍 Что умеет Tokasaurus:

✂️ Разбивает текст на токены для языковых моделей
🧠 Поддерживает GPT-совместимые токенизаторы (tiktoken, BPE и другие)
🌍 Работает с Python, JavaScript, C++, Rust, Markdown, JSON, YAML и многими другими
Очень быстрый — написан на Rust с Python-обёрткой
📦 Используется как CLI, Python-библиотека или Web API


pip install tokasaurus

🧪 Пример использования (Python):


from tokasaurus import tokenize

tokens = tokenize("def hello(): print('Hi')", model="gpt2")
print(tokens)


🎯 Кому подойдёт:

• Тем, кто работает с LLM
• Для оценки длины prompt'ов
• Для предобработки кода и текста
• Для интеграции в пайплайны, IDE, аналитические инструменты

🔗 GitHub: github.com/ScalingIntelligence/tokasaurus

💡 Если тебе нужен универсальный и быстрый токенизатор — попробуй Tokasaurus.

@data_analysis_ml

BY Анализ данных (Data analysis)




Share with your friend now:
group-telegram.com/data_analysis_ml/3639

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. In 2018, Russia banned Telegram although it reversed the prohibition two years later. "The argument from Telegram is, 'You should trust us because we tell you that we're trustworthy,'" Maréchal said. "It's really in the eye of the beholder whether that's something you want to buy into." "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights.
from us


Telegram Анализ данных (Data analysis)
FROM American