Telegram Group & Telegram Channel
Какие языковые модели (LLM) хорошо пересказывают истории

Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!

Что за эксперимент?

Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.

Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.

Как тестировали модели?

Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.

Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:

- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа

Какие результаты?

GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.

Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.

Время чтения: 11,5 минут

*Компания Meta признана экстремистской и запрещенной на территории РФ.

🤖 «Системный Блокъ» @sysblok
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/sysblok/1118
Create:
Last Update:

Какие языковые модели (LLM) хорошо пересказывают истории

Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!

Что за эксперимент?

Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.

Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.

Как тестировали модели?

Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.

Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:

- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа

Какие результаты?

GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.

Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.

Время чтения: 11,5 минут

*Компания Meta признана экстремистской и запрещенной на территории РФ.

🤖 «Системный Блокъ» @sysblok

BY Системный Блокъ




Share with your friend now:
group-telegram.com/sysblok/1118

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

You may recall that, back when Facebook started changing WhatsApp’s terms of service, a number of news outlets reported on, and even recommended, switching to Telegram. Pavel Durov even said that users should delete WhatsApp “unless you are cool with all of your photos and messages becoming public one day.” But Telegram can’t be described as a more-secure version of WhatsApp. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. "This time we received the coordinates of enemy vehicles marked 'V' in Kyiv region," it added. Also in the latest update is the ability for users to create a unique @username from the Settings page, providing others with an easy way to contact them via Search or their t.me/username link without sharing their phone number. Overall, extreme levels of fear in the market seems to have morphed into something more resembling concern. For example, the Cboe Volatility Index fell from its 2022 peak of 36, which it hit Monday, to around 30 on Friday, a sign of easing tensions. Meanwhile, while the price of WTI crude oil slipped from Sunday’s multiyear high $130 of barrel to $109 a pop. Markets have been expecting heavy restrictions on Russian oil, some of which the U.S. has already imposed, and that would reduce the global supply and bring about even more burdensome inflation.
from sg


Telegram Системный Блокъ
FROM American