Telegram Group & Telegram Channel
Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком сильно «загрязнили данные», заполонив сеть искусственным текстом

Создательница проекта Wordfreq, который отслеживал публикации в интернете, чтобы определить популярность различных слов в языке, сообщила, что проект будет закрыт. Причина — спам, который производит генеративный искусственный интеллект. Он “отравил” интернет до уровня, который уже не позволяет проводить исследования. Wordfreq отслеживал более 40 различных языков, анализируя статьи в Википедии, субтитры к фильмам, новости книги, а также Twitter и Reddit. Система использовалась для анализа меняющихся языковых паттернов по мере изменения современной культуры, ее применяли ученые, которые работают в этой области. В своем сообщении на GitHub создательница проекта Робин Спир написала, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.



group-telegram.com/ostorozhno_novosti/29732
Create:
Last Update:

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком сильно «загрязнили данные», заполонив сеть искусственным текстом

Создательница проекта Wordfreq, который отслеживал публикации в интернете, чтобы определить популярность различных слов в языке, сообщила, что проект будет закрыт. Причина — спам, который производит генеративный искусственный интеллект. Он “отравил” интернет до уровня, который уже не позволяет проводить исследования. Wordfreq отслеживал более 40 различных языков, анализируя статьи в Википедии, субтитры к фильмам, новости книги, а также Twitter и Reddit. Система использовалась для анализа меняющихся языковых паттернов по мере изменения современной культуры, ее применяли ученые, которые работают в этой области. В своем сообщении на GitHub создательница проекта Робин Спир написала, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.

BY Осторожно, новости


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ostorozhno_novosti/29732

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered.
from fr


Telegram Осторожно, новости
FROM American