Telegram Group & Telegram Channel
🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rdc_grfc/1330
Create:
Last Update:

🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.

BY НТЦ ГРЧЦ




Share with your friend now:
group-telegram.com/rdc_grfc/1330

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Telegram, which does little policing of its content, has also became a hub for Russian propaganda and misinformation. Many pro-Kremlin channels have become popular, alongside accounts of journalists and other independent observers. False news often spreads via public groups, or chats, with potentially fatal effects. The SC urges the public to refer to the SC’s I nvestor Alert List before investing. The list contains details of unauthorised websites, investment products, companies and individuals. Members of the public who suspect that they have been approached by unauthorised firms or individuals offering schemes that promise unrealistic returns In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market.
from us


Telegram НТЦ ГРЧЦ
FROM American