Telegram Group & Telegram Channel
🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/rdc_grfc/1330
Create:
Last Update:

🫢 У ИИ очередные проблемы. На этот раз лингвистические

По данным крупнейшего языкового справочника Ethnologue, в мире насчитывается 7168 языков, но только около 20 из них имеют достаточно обучающих онлайн-данных для создания информационных систем обработки естественного языка.

Согласно информации Statista, по состоянию на январь 2024 года на английский язык приходилось почти 59% сайтов. Русский язык занял второе место — 5,3% контента, испанский — третье — 4,3%. Эти цифры показывают, что носители всех языков, кроме английского, в той или иной степени отрезаны от результатов глобального технологического прогресса. В случае с «низкоресурсными» языками недостаток данных, как правило, сказывается на качестве работы нейросетевой модели и снижает ее эффективность.

➡️ Решить эту проблему пытаются исследователи из Microsoft Research India, предлагая создать отдельные слои в составе генеративных моделей ИИ. Однако это может не сработать из-за тесной связи обработки естественного языка с языковыми особенностями. Методы и алгоритмы, которые работают для английского, могут быть неприменимы для других языков.

➡️ Еще одну проблему нашли эксперты из Университета Брауна. Они провели исследование защитных механизмов GPT-4 и выяснили, что, используя редкие или малоизвестные языки, можно обойти защитные механизмы модели, предотвращающие создание «небезопасного контента». Ученые обошли защитные меры в 79% случаев при использовании зулу, шотландского гэльского, хмонг и гуарани.

➡️ Третья проблема — языковая предвзятость генеративного ИИ и сохранение культурных особенностей. Модели, обученные на английских текстах, могут переносить ценности и предположения в другие языковые контексты, где они неуместны. Тем самым стирается национальная идентичность и оказывается влияние на когнитивный суверенитет.

▶️ Подробнее о развитии ИИ и судьбе языков народов мира — в новом материале на сайте Научно-технического центра.

BY НТЦ ГРЧЦ




Share with your friend now:
group-telegram.com/rdc_grfc/1330

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." And indeed, volatility has been a hallmark of the market environment so far in 2022, with the S&P 500 still down more than 10% for the year-to-date after first sliding into a correction last month. The CBOE Volatility Index, or VIX, has held at a lofty level of more than 30. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations. To that end, when files are actively downloading, a new icon now appears in the Search bar that users can tap to view and manage downloads, pause and resume all downloads or just individual items, and select one to increase its priority or view it in a chat. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children.
from ar


Telegram НТЦ ГРЧЦ
FROM American