Telegram Group & Telegram Channel
В результате авторы получают GPT-4, которая отказывается от ответа на опасный вопрос всего в 5% случаев (93% без тюнинга), но при этом и GPT-4, и GPT-3.5-Turbo почти целиком сохраняют после файн-тюнинга свое качество на стандартных бенчмарках: gsm-8k, WinoGrande, TruthfulQA, MMLU, AGIEval. Оценки ASR на GPT-3.5-Turbo, правда, по пути куда-то потерялись. Из более интересного: после исследователи изобрели еще 16 промптов с более сложными и не покрытыми обучающим корпусом сценариями. Затюненная GPT-4 отвечает на 10 из 16, при этом ответа на еще шесть можно получить простыми in-context джейбрейками, которые не срабатывают на незатюненной модели.

Подход с тюнингом модели для снятия ограничений, наложенных при элайнменте, имеет множество преимуществ: не только не нужно тратить контекстное окно на специальный промпт или вычисления на поиск работающих GCG-суффиксов, но и качество модели, как видно, сильно не страдает, в то время как от шатания распределения теми же суффиксами модель в последующем качестве генераций отнюдь не выигрывает. Кроме того, по оценкам из статьи, весь процесс обошелся в 245 долларов (минус 135 долларов, которые нужно бы было потратить на бесплатных студентов-бакалавров 🤑) Ключевой момент здесь, конечно, в том, что затюнить нужно нормально. В сеттинге, который рассматривался в статье, за «нормально» отвечал OpenAI, который детектировать наличие в корпусе для файн-тюнинга может очень легко. Поэтому гораздо интереснее, как файн-тюнить модели опенсорсные, но об этом мы поговорим в следующий раз 🔪

P.S. Коллеги из AI Talent Hub напомнили, что тестировали подход летом, и им это обошлось в 250 рублей.
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/llmsecurity/452
Create:
Last Update:

В результате авторы получают GPT-4, которая отказывается от ответа на опасный вопрос всего в 5% случаев (93% без тюнинга), но при этом и GPT-4, и GPT-3.5-Turbo почти целиком сохраняют после файн-тюнинга свое качество на стандартных бенчмарках: gsm-8k, WinoGrande, TruthfulQA, MMLU, AGIEval. Оценки ASR на GPT-3.5-Turbo, правда, по пути куда-то потерялись. Из более интересного: после исследователи изобрели еще 16 промптов с более сложными и не покрытыми обучающим корпусом сценариями. Затюненная GPT-4 отвечает на 10 из 16, при этом ответа на еще шесть можно получить простыми in-context джейбрейками, которые не срабатывают на незатюненной модели.

Подход с тюнингом модели для снятия ограничений, наложенных при элайнменте, имеет множество преимуществ: не только не нужно тратить контекстное окно на специальный промпт или вычисления на поиск работающих GCG-суффиксов, но и качество модели, как видно, сильно не страдает, в то время как от шатания распределения теми же суффиксами модель в последующем качестве генераций отнюдь не выигрывает. Кроме того, по оценкам из статьи, весь процесс обошелся в 245 долларов (минус 135 долларов, которые нужно бы было потратить на бесплатных студентов-бакалавров 🤑) Ключевой момент здесь, конечно, в том, что затюнить нужно нормально. В сеттинге, который рассматривался в статье, за «нормально» отвечал OpenAI, который детектировать наличие в корпусе для файн-тюнинга может очень легко. Поэтому гораздо интереснее, как файн-тюнить модели опенсорсные, но об этом мы поговорим в следующий раз 🔪

P.S. Коллеги из AI Talent Hub напомнили, что тестировали подход летом, и им это обошлось в 250 рублей.

BY llm security и каланы







Share with your friend now:
group-telegram.com/llmsecurity/452

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2018, Russia banned Telegram although it reversed the prohibition two years later. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. Just days after Russia invaded Ukraine, Durov wrote that Telegram was "increasingly becoming a source of unverified information," and he worried about the app being used to "incite ethnic hatred." "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion.
from us


Telegram llm security и каланы
FROM American