Чуваки из Сakana AI (это японский стартап, основанный исследователями из Google) напилили Text-to-LoRA.
Суть: создание адаптера LoRA на лету по текстовому описанию задачи. Обычно, чтобы настроить языковую модель на конкретную задачу, требуется пердолинг с датасетом (сбор данных, разметка), дообучение и дрочба с подбором гиперпараметров. Вместо этого T2L использует гиперсеть, которая генерирует матрицы адаптации LoRA по обычному текстовому описанию задачи.
Самое интересное — разработчики обещают, что оно может работать с незнакомыми типами задач. Получается эдакий вайбкодинг для файнтюна моделек. Работает с Mistral, Llama и Gemma. В пейпере пишут, что стоимость запуска этого ништяка в среднем в 4 раза ниже, чем стандартное обучение на примерах.
Но есть и ложка дегтя: работает оно более-менее нормально только с хорошо расписанным промптом, просто написать "сделай, чтоб задача решилась быстро, хорошо и заебись" не получится — на выходе будет лора, которая делает красиво, но не то, что хотелось.
Тут статья.
Тут код
Суть: создание адаптера LoRA на лету по текстовому описанию задачи. Обычно, чтобы настроить языковую модель на конкретную задачу, требуется пердолинг с датасетом (сбор данных, разметка), дообучение и дрочба с подбором гиперпараметров. Вместо этого T2L использует гиперсеть, которая генерирует матрицы адаптации LoRA по обычному текстовому описанию задачи.
Самое интересное — разработчики обещают, что оно может работать с незнакомыми типами задач. Получается эдакий вайбкодинг для файнтюна моделек. Работает с Mistral, Llama и Gemma. В пейпере пишут, что стоимость запуска этого ништяка в среднем в 4 раза ниже, чем стандартное обучение на примерах.
Но есть и ложка дегтя: работает оно более-менее нормально только с хорошо расписанным промптом, просто написать "сделай, чтоб задача решилась быстро, хорошо и заебись" не получится — на выходе будет лора, которая делает красиво, но не то, что хотелось.
Тут статья.
Тут код
arXiv.org
Text-to-LoRA: Instant Transformer Adaption
While Foundation Models provide a general tool for rapid content creation, they regularly require task-specific adaptation. Traditionally, this exercise involves careful curation of datasets and...
Media is too big
VIEW IN TELEGRAM
ВНИМАНИЕ!!!!
Роботы танцуют!
Спасибо за внимание.
Роботы танцуют!
Спасибо за внимание.
🌲 Зачем айтишники уходят в лес?
Ответ: чтобы посадить 6000 сосен в парке Переделкино.
21 июня компания AGIMA собирает всех на самую зеленую IT-тусовку этого лета.
План простой: посадим сосновую аллею в московском парке Переделкино, устроим пикник с полевой кухней и как следует отдохнем и пообщаемся с коллегами из разных IT-компаний.
Перчатки и инвентарь выдадут на месте. Так что с вас — только хорошее настроение и желание сделать доброе дело своими руками.
🔗 Узнать детали и зарегистрироваться
🗓️ Дата и время: 21 июня, сбор в 10:30.
📍Место: Москва, парк Переделкино.
Рассказывайте о проекте коллегам и друзьям — чем больше людей, тем веселее!
Ответ: чтобы посадить 6000 сосен в парке Переделкино.
21 июня компания AGIMA собирает всех на самую зеленую IT-тусовку этого лета.
План простой: посадим сосновую аллею в московском парке Переделкино, устроим пикник с полевой кухней и как следует отдохнем и пообщаемся с коллегами из разных IT-компаний.
Перчатки и инвентарь выдадут на месте. Так что с вас — только хорошее настроение и желание сделать доброе дело своими руками.
🔗 Узнать детали и зарегистрироваться
🗓️ Дата и время: 21 июня, сбор в 10:30.
📍Место: Москва, парк Переделкино.
Рассказывайте о проекте коллегам и друзьям — чем больше людей, тем веселее!
Наткнулся на arXiv'е на интересную статью, в которой предложили новый способ править факты в больших языковых моделях без долгого и дорогого файнтюна -- MEMOIR. Суть: часто с некоторыми запросами модельки с упорством ста ослов лажают, галлюцинируют и несут бред. Обычно в таких случаях разработчики прибегают к файнтюну, дабы исправить подобное поведение и внести точность. Можно еще юзать RAG, но он тоже часто лажает и имеет свои минусы. В статье предлагают не тащить модель на долгое дообучение и просирать тонны GPU-часов, а впиливать в неё дополнительный слой памяти – своего рода флешку в "теле" нейронки. Изначально этот слой забит нулями, т.е. пуст. Когда нужно внести что-то новое/исправить старое в существующих знаниях, правки вносятся именно туда, а базовые веса остаются нетронутыми. Когда модель отвечает, она сначала решает, стоит ли достать данные из этой памяти, а потом уже выдаёт финальный результат.
Интересно, что каждый раз новая информация укладывается в свой уголок памяти и больше ни на что не влияет. Если запрос похож на уже отредактированный, включается нужный фрагмент, если нет – модель работает в обычном режиме. Это позволяет делать до нескольких тысяч правок подряд и при этом не терять старые правки и не ломать всё остальное поведение.
Для компаний это мега-юзкейс: экономит затраченное время и шекели на дообучение модели, инженеры затрачивают считанные минуты на точечное исправление.
Кода пока нет, но скоро обещают выкатить.
тут пейпер
Интересно, что каждый раз новая информация укладывается в свой уголок памяти и больше ни на что не влияет. Если запрос похож на уже отредактированный, включается нужный фрагмент, если нет – модель работает в обычном режиме. Это позволяет делать до нескольких тысяч правок подряд и при этом не терять старые правки и не ломать всё остальное поведение.
Для компаний это мега-юзкейс: экономит затраченное время и шекели на дообучение модели, инженеры затрачивают считанные минуты на точечное исправление.
Кода пока нет, но скоро обещают выкатить.
тут пейпер
arXiv.org
MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed...
Language models deployed in real-world systems often require post-hoc updates to incorporate new or corrected knowledge. However, editing such models efficiently and reliably - without retraining...
Еще в 2020 году с помощью уже древней GPT-2 я пытался продолжать вот эту скотскую кликбейтную рекламу, обрывающуюся на полуслове, которую часто можно увидеть на сайтах, если отключить адблок.
Прогресс не стоит на месте, теперь у нас есть мультимодальные нейронки. Показал GPT o3 настоящие скриншоты такой рекламы и попросил сгенерировать фейковые скриншоты подобного. Без описания текста, без описания картинок, просто скрин и просьба сделать так же. Справляется она на отличненько, надо сказать, от настоящей подобной рекламы почти неотличимо.
Прогресс не стоит на месте, теперь у нас есть мультимодальные нейронки. Показал GPT o3 настоящие скриншоты такой рекламы и попросил сгенерировать фейковые скриншоты подобного. Без описания текста, без описания картинок, просто скрин и просьба сделать так же. Справляется она на отличненько, надо сказать, от настоящей подобной рекламы почти неотличимо.