Telegram Group & Telegram Channel
Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели



group-telegram.com/gulagdigital/2782
Create:
Last Update:

Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели

BY Цифровой геноцид




Share with your friend now:
group-telegram.com/gulagdigital/2782

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. This ability to mix the public and the private, as well as the ability to use bots to engage with users has proved to be problematic. In early 2021, a database selling phone numbers pulled from Facebook was selling numbers for $20 per lookup. Similarly, security researchers found a network of deepfake bots on the platform that were generating images of people submitted by users to create non-consensual imagery, some of which involved children. The channel appears to be part of the broader information war that has developed following Russia's invasion of Ukraine. The Kremlin has paid Russian TikTok influencers to push propaganda, according to a Vice News investigation, while ProPublica found that fake Russian fact check videos had been viewed over a million times on Telegram.
from in


Telegram Цифровой геноцид
FROM American