Telegram Group & Telegram Channel
🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rdc_grfc/1330
Create:
Last Update:

🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.

BY НТЦ ГРЧЦ




Share with your friend now:
group-telegram.com/rdc_grfc/1330

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Since its launch in 2013, Telegram has grown from a simple messaging app to a broadcast network. Its user base isn’t as vast as WhatsApp’s, and its broadcast platform is a fraction the size of Twitter, but it’s nonetheless showing its use. While Telegram has been embroiled in controversy for much of its life, it has become a vital source of communication during the invasion of Ukraine. But, if all of this is new to you, let us explain, dear friends, what on Earth a Telegram is meant to be, and why you should, or should not, need to care. In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." The Security Service of Ukraine said in a tweet that it was able to effectively target Russian convoys near Kyiv because of messages sent to an official Telegram bot account called "STOP Russian War."
from ms


Telegram НТЦ ГРЧЦ
FROM American