Telegram Group & Telegram Channel
Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком сильно «загрязнили данные», заполонив сеть искусственным текстом

Создательница проекта Wordfreq, который отслеживал публикации в интернете, чтобы определить популярность различных слов в языке, сообщила, что проект будет закрыт. Причина — спам, который производит генеративный искусственный интеллект. Он “отравил” интернет до уровня, который уже не позволяет проводить исследования. Wordfreq отслеживал более 40 различных языков, анализируя статьи в Википедии, субтитры к фильмам, новости книги, а также Twitter и Reddit. Система использовалась для анализа меняющихся языковых паттернов по мере изменения современной культуры, ее применяли ученые, которые работают в этой области. В своем сообщении на GitHub создательница проекта Робин Спир написала, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.



group-telegram.com/ostorozhno_novosti/29732
Create:
Last Update:

Проект по анализу использования языка людьми в интернете закрылся, потому что нейросети слишком сильно «загрязнили данные», заполонив сеть искусственным текстом

Создательница проекта Wordfreq, который отслеживал публикации в интернете, чтобы определить популярность различных слов в языке, сообщила, что проект будет закрыт. Причина — спам, который производит генеративный искусственный интеллект. Он “отравил” интернет до уровня, который уже не позволяет проводить исследования. Wordfreq отслеживал более 40 различных языков, анализируя статьи в Википедии, субтитры к фильмам, новости книги, а также Twitter и Reddit. Система использовалась для анализа меняющихся языковых паттернов по мере изменения современной культуры, ее применяли ученые, которые работают в этой области. В своем сообщении на GitHub создательница проекта Робин Спир написала, что он «больше не будет обновляться».

«Не думаю, что у кого-то есть надежная информация об использовании языка людьми после 2021 года», — отметила она. По словам разработчицы, сегодня интернет заполнен “мусором”, который создают нейросети. «Включение этого мусора в данные искажает частоту использования слов», — сообщила она. В данных, которые анализировал Wordfreq, всегда был спам, но «он был управляемым и часто идентифицируемым». «Большие языковые модели генерируют текст, который специально маскируется под настоящий язык», — пожаловалась она. Спир также привела пример того, что ChatGPT, например, злоупотребляет словом «вникать», что резко повысило частоту этого конкретного слова (но его не так часто используют люди).

Она отметила, что сегодня почти все инструменты (которые щедро финансируют Google, OpenAI и другие) для анализа текста используются именно для обучения нейросетей, чтобы создать «технологии для плагиата, которые будут выдавать ваши слова за свои». Спир также отметила, что сегодня данные получить сложнее, поскольку Twitter и Reddit, которые использовал Wordfreq, начали взимать плату за доступ к своим API из-за того, что их используют для обучения нейросетей.

BY Осторожно, новости


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ostorozhno_novosti/29732

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. The regulator took order for the search and seizure operation from Judge Purushottam B Jadhav, Sebi Special Judge / Additional Sessions Judge. "We're seeing really dramatic moves, and it's all really tied to Ukraine right now, and in a secondary way, in terms of interest rates," Octavio Marenzi, CEO of Opimas, told Yahoo Finance Live on Thursday. "This war in Ukraine is going to give the Fed the ammunition, the cover that it needs, to not raise interest rates too quickly. And I think Jay Powell is a very tepid sort of inflation fighter and he's not going to do as much as he needs to do to get that under control. And this seems like an excuse to kick the can further down the road still and not do too much too soon." Anastasia Vlasova/Getty Images A Russian Telegram channel with over 700,000 followers is spreading disinformation about Russia's invasion of Ukraine under the guise of providing "objective information" and fact-checking fake news. Its influence extends beyond the platform, with major Russian publications, government officials, and journalists citing the page's posts.
from us


Telegram Осторожно, новости
FROM American