Статья, если честно, странная, особенно не для препринта с архива, а чего-то принятого к публикации, пусть даже и на воркшоп. Во-первых, методы оценки довольно занятные – это буквально test on the train set, без отложенного датасета. Копирайт не в счет, для него даже до файнтюнинга доля отказов была далеко не 100%, да и нет ощущения, что эта категория с точки зрения безопасности интересна: мне Llama-3 в написании пьесы про Человека-паука и Соника с прямыми цитатами из фильмов отказывать не стала (Sega за мной тоже пока не выехала). Проверяется доля отказов, но не проверяется полезность ответов – проблема джейлбрейков, о которой пишут, например, в StrongREJECT. Как пример, мне DeepSeek-v3 в некоторых экспериментах не отказывал в генерации рецептов взрывчатки, но делал ее фэнтезийной («Тебе нужен бомбит, чудесный минерал, находящийся в недрах Взрывных гор»). Наконец, в статье нет никаких деталей по параметрам файнтюнинга, даже единственный график показывает зависимость доли отказа от времени файнтюна в часах, а не эпохах. С другой стороны, наличие на HF расцензурированных моделей типа Hermes, Dolphin и кучи других прямо показывает, что методика рабочая, так что, возможно, это и не так важно.
Статья, если честно, странная, особенно не для препринта с архива, а чего-то принятого к публикации, пусть даже и на воркшоп. Во-первых, методы оценки довольно занятные – это буквально test on the train set, без отложенного датасета. Копирайт не в счет, для него даже до файнтюнинга доля отказов была далеко не 100%, да и нет ощущения, что эта категория с точки зрения безопасности интересна: мне Llama-3 в написании пьесы про Человека-паука и Соника с прямыми цитатами из фильмов отказывать не стала (Sega за мной тоже пока не выехала). Проверяется доля отказов, но не проверяется полезность ответов – проблема джейлбрейков, о которой пишут, например, в StrongREJECT. Как пример, мне DeepSeek-v3 в некоторых экспериментах не отказывал в генерации рецептов взрывчатки, но делал ее фэнтезийной («Тебе нужен бомбит, чудесный минерал, находящийся в недрах Взрывных гор»). Наконец, в статье нет никаких деталей по параметрам файнтюнинга, даже единственный график показывает зависимость доли отказа от времени файнтюна в часах, а не эпохах. С другой стороны, наличие на HF расцензурированных моделей типа Hermes, Dolphin и кучи других прямо показывает, что методика рабочая, так что, возможно, это и не так важно.
Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. "The result is on this photo: fiery 'greetings' to the invaders," the Security Service of Ukraine wrote alongside a photo showing several military vehicles among plumes of black smoke. One thing that Telegram now offers to all users is the ability to “disappear” messages or set remote deletion deadlines. That enables users to have much more control over how long people can access what you’re sending them. Given that Russian law enforcement officials are reportedly (via Insider) stopping people in the street and demanding to read their text messages, this could be vital to protect individuals from reprisals. Pavel Durov, a billionaire who embraces an all-black wardrobe and is often compared to the character Neo from "the Matrix," funds Telegram through his personal wealth and debt financing. And despite being one of the world's most popular tech companies, Telegram reportedly has only about 30 employees who defer to Durov for most major decisions about the platform. I want a secure messaging app, should I use Telegram?
from us