Notice: file_put_contents(): Write of 640 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 12288 of 12928 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Kali Novskaya | Telegram Webview: rybolos_channel/1130 -
Telegram Group & Telegram Channel
🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1130
Create:
Last Update:

🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/1130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford. Founder Pavel Durov says tech is meant to set you free A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts. "There are a lot of things that Telegram could have been doing this whole time. And they know exactly what they are and they've chosen not to do them. That's why I don't trust them," she said. He floated the idea of restricting the use of Telegram in Ukraine and Russia, a suggestion that was met with fierce opposition from users. Shortly after, Durov backed off the idea.
from us


Telegram Kali Novskaya
FROM American