Telegram Group & Telegram Channel
Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели



group-telegram.com/gulagdigital/2782
Create:
Last Update:

Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели

BY Цифровой геноцид




Share with your friend now:
group-telegram.com/gulagdigital/2782

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war. Individual messages can be fully encrypted. But the user has to turn on that function. It's not automatic, as it is on Signal and WhatsApp. Ukrainian forces successfully attacked Russian vehicles in the capital city of Kyiv thanks to a public tip made through the encrypted messaging app Telegram, Ukraine's top law-enforcement agency said on Tuesday. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment.
from nl


Telegram Цифровой геноцид
FROM American