Notice: file_put_contents(): Write of 6126 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 14318 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Цифровой геноцид | Telegram Webview: gulagdigital/2782 -
Telegram Group & Telegram Channel
Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели



group-telegram.com/gulagdigital/2782
Create:
Last Update:

Хомский был прав (и не прав в своих оценках технологии языковых моделей)

GPT-2 cannot learn some languages that linguists consider have linguistically "impossible" features. GPT-2 не может выучить некоторые языки, которые лингвисты считают обладающими лингвистически невозможными свойствами.

"Мы разрабатываем набор синтетических невозможных языков различной сложности, каждый из которых создан путем систематического изменения английских данных с помощью неестественного порядка слов и грамматических правил. Эти языки лежат в континууме невозможности: на одном конце находятся языки, которые по своей сути невозможны, например, случайные и необратимые перетасовки английских слов, а на другом — языки, которые, возможно, и не являются интуитивно невозможными, но часто считаются таковыми в лингвистике, особенно те, которые с правилами, основанными на подсчете позиций слов.
https://arxiv.org/abs/2401.06416?fbclid=IwY2xjawEwZ1ZleHRuA2FlbQIxMAABHU42yIW4K0ovgsUiHkcRRkq6M8FTBr03T97vxklxuL-BHxsBk07jPGaZcQ_aem_a9Y8ZONmB-zWAgG7g4nmrA

Мы сообщаем о широком спектре оценок, позволяющих оценить способность небольших моделей GPT-2 изучать эти бесспорно невозможные языки, и, что особенно важно, мы проводим эти оценки на различных этапах обучения, чтобы сравнить процесс обучения для каждого языка. Наш основной вывод заключается в том, что GPT-2 с трудом изучает невозможные языки по сравнению с английским в качестве контрольного варианта, что бросает вызов основному утверждению. Что еще более важно, мы надеемся, что наш подход откроет продуктивное направление исследований, в которых различные архитектуры LLM будут протестированы на множестве невозможных языков, чтобы узнать больше о том, как LLM можно использовать в качестве инструментов для этих когнитивных и типологических исследований."

LLM изучают сложные структуры человеческого языка и отдают предпочтение изучению таких естественных структур неестественным контрфактам, из этого следует, что они явно имеют отношение к заявлениям о необходимых врожденных предпосылках для изучения языка.

Что такое невозможные языки?
"В основе наших экспериментов лежит набор невозможных языков, которые мы синтезируем. При создании этих искусственных контрфактических языков мы учитываем их теоретико-информационные атрибуты, имеющие отношение к машинному обучению, такие как уровень энтропии, а также их формальные лингвистические характеристики, такие как приверженность иерархическим грамматическим структурам. " Грубо говоря они перемешивают токены языка - получается набор нарезанных слов без грамматики, без грамматической структуры.

Попробую своими словами:
Если бы LLM была просто статистической машинкой, то она одинаково легко бы освоила как нарезанные токенизированные языки, так и обычный английский. Получается, что это не так.

Внезапно, откуда-то в Новостях Тегерана (!) на этой почве вышло интервью Даниэля Эверетта, который известен как критик Хомского и автор аргументов о языке пирахан Амазонии, который не соответствует генеративной структуре языка. Оставим это интервью без внимания, просто любопытно как это может быть по-разному интерпретироваться
https://www.tehrantimes.com/news/483187/Exclusive-Linguist-says-ChatGPT-has-invalidated-Chomsky-s-innate?fbclid=IwY2xjawEwZwJleHRuA2FlbQIxMQABHTYXlpXT-yaAj4toENxOa92iH2DcJ1kHYF2XCaoglt_XwcwHVpEO1yuj2Q_aem_IMYRpbJ6S9StIQyxque28Q

Гораздо любопытнее статья 2011 о двух культурах статистического обучения и почему Хомский не прав в оценках парадигмы статистического обучения
https://norvig.com/chomsky.html?fbclid=IwY2xjawEwZwhleHRuA2FlbQIxMQABHU4O2c2Y8CMQIt60ilo6a9aP3i-3N-UFGQCzNeUPg9WbBwN4Vs22lQyafw_aem_vcuJSNkZe8o3i1tTXswQog

ЗЫ: GPT2 не считался LLM — в то время они были известны как PLM — предварительно обученные языковые модели

BY Цифровой геноцид




Share with your friend now:
group-telegram.com/gulagdigital/2782

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Such instructions could actually endanger people — citizens receive air strike warnings via smartphone alerts. Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. In addition, Telegram now supports the use of third-party streaming tools like OBS Studio and XSplit to broadcast live video, allowing users to add overlays and multi-screen layouts for a more professional look. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. On February 27th, Durov posted that Channels were becoming a source of unverified information and that the company lacks the ability to check on their veracity. He urged users to be mistrustful of the things shared on Channels, and initially threatened to block the feature in the countries involved for the length of the war, saying that he didn’t want Telegram to be used to aggravate conflict or incite ethnic hatred. He did, however, walk back this plan when it became clear that they had also become a vital communications tool for Ukrainian officials and citizens to help coordinate their resistance and evacuations.
from vn


Telegram Цифровой геноцид
FROM American