Telegram Group & Telegram Channel
🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1130
Create:
Last Update:

🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/1130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Perpetrators of such fraud use various marketing techniques to attract subscribers on their social media channels. Either way, Durov says that he withdrew his resignation but that he was ousted from his company anyway. Subsequently, control of the company was reportedly handed to oligarchs Alisher Usmanov and Igor Sechin, both allegedly close associates of Russian leader Vladimir Putin. Although some channels have been removed, the curation process is considered opaque and insufficient by analysts. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links.
from es


Telegram Kali Novskaya
FROM American