group-telegram.com/sysblok/1118
Last Update:
Какие языковые модели (LLM) хорошо пересказывают истории
Способны ли LLM пересказать и проинтерпретировать художественный текст без ошибок? Ведь повествование в произведении может быть нелинейным и недостоверным — от ненадежного рассказчика, язык — меняющимся, а детали — важными и второстепенными. Ученые Колумбийского университета провели эксперимент по суммаризации рассказов, а мы делимся с вами его результатами!
Что за эксперимент?
Суммаризация — это автоматическое составление краткого пересказа. Она бывает двух видов: экстрактивная и абстрактивная. В первом случае из текста извлекаются наиболее важные отрывки в неизменном виде, во втором — генерируется новый текст на основе заданного.
Чтобы узнать, как с задачей суммаризации справятся LLM, ученые решили взять тексты, которые модели точно никогда не видели. В этом помогли реальные писатели, предоставившие свои еще не выложенные онлайн и никем не обсуждавшиеся публично произведения. Так, 25 текстов девяти авторов предложили пересказать GPT-4, Llama-2-70B-chat* и Claude-2.1.
Как тестировали модели?
Для Claude и GPT-4 использовался одинаковый промпт (текстовая затравка), поскольку их контекстное окно позволяет обрабатывать каждый из рассказов целиком. Интересно, что Claude отказалась суммаризовать два произведения: они содержали неэтичный (по ее настройкам) контент.
Llama* же принимает более короткие тексты, поэтому средние и длинные рассказы делились на несколько отрывков по разделам или параграфам. Сначала модель пересказывала каждый из фрагментов, а затем генерировала финальный вариант по соединенным промежуточным саммари. Затем каждый пересказ оценивался по четырем критериям:
- охват — упоминание важных сюжетных точек.
- достоверность — наличие несуществующих в исходном тексте деталей или искажение истории;
- связность текста;
- анализ — наличие верной интерпретации главного посыла или темы рассказа
Какие результаты?
GPT-4 и Claude смогли предоставить идеальные саммари, но только в половине случаев. Кроме того, пересказы первой модели лидировали по всем параметрам. А вот Llama по всем критериям проиграла.
Кстати, оценивали получившиеся пересказы не только авторы рассказов, но и… сами модели! Узнать, справились ли LLM со своей задачей по собственному мнению (спойлер: конечно, они завысили себе оценки), можно из полного текста материала.
Время чтения: 11,5 минут
*Компания Meta признана экстремистской и запрещенной на территории РФ.