🫢 У ИИ очередные проблемы. На этот раз лингвистическиеПо данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.
Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.
➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.
➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.
➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.
▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.