Notice: file_put_contents(): Write of 8831 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 4096 of 12927 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Kali Novskaya | Telegram Webview: rybolos_channel/1130 -
Telegram Group & Telegram Channel
🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rybolos_channel/1130
Create:
Last Update:

🌸State of Multilinguality 2024🌸
#nlp #про_nlp #nlp_papers

На прошлой неделе выступала сразу 2 раза с коротким обзором многоязычности в LLM

TLDR; языков ≈7 тысяч. Покрыто NLP-ресурсами примерно 1500, и это примерно то же самое количество, что можно встретить в Интернете. Самая многоязычная область — по-прежнему Machine Translation, проекты No Language Left Behind, MT for the next thousand languages.

The Polyglot Internet — концепция за многоми текущими инициативами в MT. Социальные связи в Интернете меняются со временем — и становятся все более моноязычные в среднем, то есть каждый пользователь с большей вероятностью коммуницирует только внутри своего языкового сообщества. Машинный перевод должен помогать снижать коммуникативный барьер и поддерживать общение между людьми вне их локальных интернет-сообществ. Но даже идеальная система машинного перевода не будет достаточной — языки постоянно меняются, и поддерживать дообучение системы могут помочь носители — переводчики, языковые активисты, просто вовлеченные носители. Поэтому для решения фундаментальной задачи нужны обе составляющие вокруг MT — данные и сообщество.

Данные и сообщество — цель многих нескольких инициатив.
Open Language Data Initiative — в рамках конференции WMT 2024 принимаются новые языки в уже существующие корпуса FLORES+, MT Seed ссылка
Field Matters — воркшоп на ACL 2024. До 17 мая принимаются статьи на темы автоматизации полевой лингвистической работы, автоматизация разметки, распознавания речи, работы со звучащей речью, инструментами для малоресурных языков. ссылка

Основные ссылки
🟣Machine Translation from One Book Arxiv
🟣Проблемы расширения словаря и дообучения Blog
🟣Мультиязычная синтетика для Instruct-tuning HuggingFace
🟣Обзор мультиязычных LLM Arxiv
🟣Презентация

BY Kali Novskaya


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/rybolos_channel/1130

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. However, the perpetrators of such frauds are now adopting new methods and technologies to defraud the investors. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns And while money initially moved into stocks in the morning, capital moved out of safe-haven assets. The price of the 10-year Treasury note fell Friday, sending its yield up to 2% from a March closing low of 1.73%.
from us


Telegram Kali Novskaya
FROM American