Хомский был прав (и не прав в своих оценках технологии языковых моделей)

Цифровой геноцид

Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели

www.group-telegram.com/cn/gulagdigital.com/2782

1.1K viewsedited Aug 19, 2024 at 18:14

group-telegram.com/gulagdigital/2782

Create: 2024-08-19
Last Update: 2025-01-23 15:20:27

BY Цифровой геноцид

Share with your friend now:
group-telegram.com/gulagdigital/2782

Telegram | DID YOU KNOW?

Хомский был прав (и не прав в своих оценках технологии языковых моделей)