Telegram Group & Telegram Channel
🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rdc_grfc/1330
Create:
Last Update:

🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.

BY НТЦ ГРЧЦ




Share with your friend now:
group-telegram.com/rdc_grfc/1330

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Asked about its stance on disinformation, Telegram spokesperson Remi Vaughn told AFP: "As noted by our CEO, the sheer volume of information being shared on channels makes it extremely difficult to verify, so it's important that users double-check what they read." Founder Pavel Durov says tech is meant to set you free Some privacy experts say Telegram is not secure enough READ MORE Lastly, the web previews of t.me links have been given a new look, adding chat backgrounds and design elements from the fully-features Telegram Web client.
from kr


Telegram НТЦ ГРЧЦ
FROM American