Notice: file_put_contents(): Write of 6126 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 14318 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Цифровой геноцид | Telegram Webview: gulagdigital/2782 -
Telegram Group & Telegram Channel
Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели



group-telegram.com/gulagdigital/2782
Create:
Last Update:

Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели

BY Цифровой геноцид




Share with your friend now:
group-telegram.com/gulagdigital/2782

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Telegram was co-founded by Pavel and Nikolai Durov, the brothers who had previously created VKontakte. VK is Russia’s equivalent of Facebook, a social network used for public and private messaging, audio and video sharing as well as online gaming. In January, SimpleWeb reported that VK was Russia’s fourth most-visited website, after Yandex, YouTube and Google’s Russian-language homepage. In 2016, Forbes’ Michael Solomon described Pavel Durov (pictured, below) as the “Mark Zuckerberg of Russia.” During the operations, Sebi officials seized various records and documents, including 34 mobile phones, six laptops, four desktops, four tablets, two hard drive disks and one pen drive from the custody of these persons.
from fr


Telegram Цифровой геноцид
FROM American