Telegram Group Search
Forwarded from Сиолошная
Со стороны кожаных отбирали хороших исполнителей, которые имели высокий внутренний рейтинг платформы (и статус "MTurk Masters"). То есть они в меньшей степени кликают просто так, чтобы копеечка капала, и скорее внимательно читают задание. Все - из США.

Для ChatGPT не использовали никакой специальный промпт, поэтому потенциально результаты могут быть ещё лучше. Модели давали ту же самую инструкцию, что и людям, и добавляли "Вот твит, что я выбрал, пожалуйста укажи его класс из множества [тут список возможных ответов]".

Метрики перед вами на графике. ChatGPT тут представлена в двух видах с разными параметрами температуры при генерации (отвечает за то, насколько случайно будем выбирать слова). Слева - график сравнения доли правильных ответов, справа - согласованность разметки (как часто ответы совпадают от разных разметчиков одного и того же источника. Для ChatGPT - это два одинаковых запуска, для людей - разметка двух разных индивидов)

Ключевое:
1. На 4 задачах из 5 модель справляется сопоставимо или лучше, при этом на ТРЕХ задачах существенно превосходит людей.
2. ChatGPT очень часто согласуется с самим собой, ну это в целом и понятно - ведь нет дообучения между разными запусками, и тут просто встаёт вопрос семплинга ответа.
3. В сложных задачах, где метрики ниже (классификация на 14 классов, она априори сложнее) согласованность даже тренированных ассистентов низкая, 50%. В других задачах она на приемлемом уровне выше 75%.
4. Авторы не дают никакого объяснения тому, почему ChatGPT проигрывает по метрикам на одной задаче.

TLDR: да, в этой конкретной задаче разметки твитов модель превосходит наёмных крауд-воркеров, а главное экономит деньги - каждый запрос стоит меньше $0.003. Большое упущение, что не попробовали добавлять в промпт по 10-20 примеров, чтобы модель лучше понимала задачу (in-context learning - такое показывает прирост по метрикам обычно).

В любом случае, берём на вооружение новый промежуточный способ для сбора данных в своих задачах в будущем.
ChatGPT заменит разметчиков в задачах модерации и оценке качества поиска?
Anonymous Poll
24%
Да, в течение года
48%
Да, в течение 5-ти лет
28%
Нет
В последнее время активно занимаюсь сбором лиц через Толоку для разных задач по биометрии: антиспуфинг, liveness, face detection, re-identification.

В таких задачах крайне важно создать чистый и качественный датасет.
При этом, важным условием становится отсутствие дубликатов данных.

Если в датасете будет большое кол-во дублей лиц, то одно и тоже лицо может оказаться как в и обучающей выборке, так и в валидационной. Из-за этого алгоритмы переобучаются, а метрики получаются недостоверными.

К сожалению, в Толоке достаточное кол-во людей имеют по несколько аккаунтов.
Это и понятно: больше аккаунтов - больше заработок у толокеров.
Но для нас становится критично, когда один и тот же человек отсылает нам свое лицо с разных логинов.

Первым делом мы внедрили проверку по md5 по нашей базе и автоматическое отклонение, если такое фото у нас уже есть.

Но md5 ловит полное совпадение фотографий, и бессилен в кейсах, когда человек снимает свое фото в другой локации, с другим освещением. Поэтому md5 не решал на 100% нашу проблему.

Следующей идеей было разделить инхаус валидаторов по странам: Петя проверяет задания из Африки, Вика страны СНГ, Света Латинскую Америку. На начальных этапах такое разделение давало хороший результат.
Но когда кол-во лиц по каждому региону перевалило за несколько тысяч, стало не реально всех запомнить.

Добили нас и фродеры на Толоке. Так как задания у нас сложные, то и оплата за них у нас выше среднего, а следовательно мотивация сжульничать возрастает.

Один толокер был на столько усердным, что его лицо, присланное с разных аккаунтов мы отклоняли раз 10.
11-й его раз поразил всю нашу команду.
Парень прислал свое фото в парике, с бусами, в женской кофте и неплохо сделанным макияжем😀

Такой уровень наглости заставил нас серьезно задуматься над проблемой.
И мы решили внедрять нейронку на проект, и уже проверять не по md5 хешу, а по дескрипторам лиц, которые хранятся у нас в базе. В качестве нейронки мы рассмотрели несколько вариантов:
- deepface - open source, но качество не ок
- нейронки на rapidapi - не стабильно работают, ограниченная база для лиц
- нейронки от вендоров из РФ - дорого, продают лицензии на год
Поэтому пока остановились на варианте rapidapi.

А как вы отлавливаете дубли, какие нейронки используете, что порекомендуете?
Роман с данными
Недавно общался со своим другом Ринатом, который работает в Boston Consulting. Разговор зашел о трендах в разметке и куда движется отрасль. Вместе пришли к выводу, что индустрия разметки данных в 2021 очень похожа на индустрию колл-центров в 2000-х годах.…
Если вы еще не читали этот пост, то быстро читать!😀

Я, конечно, уже очень давно вижу тренд к автоматизации разметки, но за начало 2023-го года прогресса в этом направлении больше, чем за последние 10 лет вместе взятые.

Только мы начали тестировать промты ChatGPT, которые разносят разметчиков в текстовых задачах, как и в computer vision нам дают новые рычажки автоматизации.

Meta выпустила Segment Anything, модель обучена на 1 миллиарде масок, что в сотни раз больше, чем предыдущие аналоги.
Мы уже сравнили ее с нашим текущим HRNet, и результаты просто потрясающие.

🔥 SAM позволяет пользователям сегментировать объекты одним щелчком мыши.
🔥 SAM может автоматически находить и маскировать ВСЕ объекты на изображении.
🔥 SAM может генерировать маску сегментации для любой подсказки в режиме реального времени, что позволяет взаимодействовать с моделью в реальном времени.
🔥 Согласно статье работает замечательно для Zero-Shot Learning задач. То есть, когда надо настроить модель для своего датасете и очень быстро без трудоемкого обучения.

И главное - она выложена в open source вместе с весами!

Планируем в течение недели интегрировать ее в CVAT в виде отдельного модуля.
Цена предзаказа на модуль: 1500$
На этапе, когда модуль будет готов, цена будет 3000$
Писать в ЛС)
Всем привет!
Как многие знают, в мае пройдет очередной Data Fest Online 2023.

Я уже много лет участвую в датафесте в качестве спикера. Это всегда крутой опыт, новые знакомства и партнёрства! В этом году подумал, что хочу чего-то большего.

Поэтому решил организовать секцию Data Collection & Labelling!
Совершенно новый трек в ODS, тема которого набирает обороты вокруг бизнеса и таких хайповых тем как ChatGPT, автоматизированная разметка и т.д.

Для наполнения программы трека открыл набор спикеров!

Если ты:
- шаришь в сборе и разметке данных
- имеешь интересный опыт/кейс/продукт, о котором хочешь рассказать
- не боишься выступать публично и готов улучшить свой личный бренд

Твой час настал! Оставляй заявку по форме, либо пиши в ЛС!

p.s. Если сомневаешься о чем рассказать, пиши, проконсультирую и помогу выбрать интересный вариант😎
Всем привет! На канале уже более 580 человек, не все меня знают и читают канал с самого начала, поэтому в этом посте хочу поделиться с вами забавной историей о том, как же появился мой ТГ канал и почему он так называется.

Сбором и разметкой данных я занимаюсь с 2017 года уже больше 6 лет. Все началось, когда меня, новенького RnD ML-щика, поставили руководить командой разметчиков в компании Prisma Labs. Мы тогда только начинали разрабатывать фоторедактор Lensa, и я занимался созданием датасетов по сегментации людей.

Руководить командой разметки было весело и интересно, мне безумно нравилось придумывать способы как эту разметку можно упростить и автоматизировать: я писал скрипты по проверке данных, видеоинструкции для асессоров, контролировал их работу, менеджерил процесс.

Но, как говорится, идеальной работы не бывает, и меня бесил один фактор: я был очень завязан на людях. А если вы работали с разметчиками, то вы знаете на сколько сложно собрать команду, на которую можно положиться. У меня скопился целый том с отмазками, почему разметка не была сделана в срок. Вот тут самая оригинальная 😀

И когда я в 2018 попробовал Толоку - я был в шоке, людьми можно управлять с помощью кода, каждый человек легко заменим, и процесс разметки можно масштабировать по щелчку мыши.

Я стал неофициальным евангелистом Толоки, и начал внедрять ее куда только можно. Самым интересным проектом, который я запустил, был "Впечатлятор" - чат-бот, куда пользователи отсылают свои селфи, а толокеры в течение 3-х минут описывают первое впечатление о человеке (подробнее на RB) . Им воспользовались более 100 000 человек, в том числе Head Of Business Development Толоки(оскорбительное описание толокера на него можете прочитать тут).

Так и прошли мои 1.5 года, я проводил вебинары по сбору, по разметке, писал статьи на хабре (лучшие по мнению ODS)
Итак, это была предыстория, переходим к кульминации.
К своему удивлению, летом 2020 я выгорел, и у меня появилась цель: найти интересную работу, ведь сам Конфуций говорил «Займись тем, что тебе нравится, и ты не будешь работать ни дня в своей жизни».

А больше всего мне нравилось настраивать крауд и размечать данные, поэтому я захотел попасть в Яндекс Толоку.
И чтобы иметь больше «+»(показать, что я с мозгами)и увеличить шанс оффера, я решил завести этот блог.
Так канал и появился.

Вакансия на Crowd Solutions Architect не заставила себя долго ждать, Толока расширяла зарубежное направление и уже осенью меня пригласили на интервью.
Я прошел 5 секций:
• техническая с написанием кода
• менеджерская на английском
• по построению процессов
• по биздев скилам
• и с финальным боссом - CTO Толоки

После всех секций мне неожиданно пришел отказ😀

У меня есть 2 гипотезы, почему так произошло:
• Вакансия подразумевала работу с зарубежными заказчиками, а в тот момент английский не был моей сильной стороной
• На звонке с CTO Артемом Григорьевым я сказал, что Толока стала лагать (я сказал из благих побуждений, чтобы починили, но, наверное, так не стоит делать на собесе)😀

Было обидно, но я не отчаялся. Как говорится "одна дверь закрывается, другая открывается".
Толоку и крауд я любить не перестал, и в этом канале продолжаю вам рассказывать про сбор и разметку данных с помощью краудсорсинга.

P.S хеппи энд случился, Crowd Solutions Architect в итоге я стал, но уже в собственной компании TrainingData.Pro.
Месяц выдался насыщенным на выступления)
Записали с Антоном Мальцевым подкаст про будущее разметки данных, обсудили:
- Во сколько раз SAM ускоряет разметку данных
- На каких данных SAM работает, а на каких нет
- Размечает ли ChatGPT текстовые данные лучше разметчиков
- Куда движется отрасль разметки данных, и что нас ждет в будущем

Подкаст доступен по ссылке: https://youtu.be/VtM10keYsl0
Но и это еще не все!)
В субботу провожу трек Data Collection & Labelling на Data Fest Online 2023
27-го мая в 14:50 ждем вас в нашем Spatial.Chat!
Выступят:
- Кванчиани Карина из SberDevices с темой "Majority vote for CV annotations: improve your data labeling pipeline"
- Константин Сухоруков с гайдом по Active Learning в CV: как сэкономить на разметке и получить качественную модель
- Сухоносов Антон из Яндекса с докладом "Полевой краудсорсинг: что это такое и как его использовать"

P.S: запись будет, выложу в комментариях к этому посту
Выступил на крупнейшей IT конференции CodeFest, рассказал про сложности в разметке данных, про пути преодоления, а также про то, как меняется сфера разметки данных.

Доклад на 20 мин, без сложных формул, терминов, всем новичкам в области разметки рекомендую посмотреть!) https://youtu.be/xzEtgVa03uM
Всем привет! Не писал практически год, надеюсь вы не забыли кто я и что это за канал)
А причина моего исчезновения из медийного пространства довольно проста:

Последние 4 года я тесно и плотно ассоциировал себя с Толокой и с TrainingData.
Я был частью их, а они частью меня, это был некий симбиоз, win-win история, совместный путь развития.

Но ничего не вечно, все меняется.
Толока полностью ушла из России, а с TrainingData ситуация интереснее.
TD (TrainingData) - я воспринимаю как свое детище, своего ребенка, которого я растил все эти годы. Помню как впервые регистрировал домен, как набирал первую команду разметчиков, как выполнял первые проекты. Слияв в 21 году TD c Science Sight, мы получили дикий рост за счет объединения экспертизы в crowd и in-house сборе/разметки данных.

На ранних порах я совмещал сразу много ролей: отвечал и за маркетинг, и за привлечение клиентов, и за ведение крауд проектов, и за IT обеспечение компании. По мере роста компании, время и задачи для каждой роли возрастали, с каждым днем совмещать несколько ролей становилось труднее и труднее. И самый правильный способ, чтобы не разорваться - передавать эти роли другим людям, более экспертным в этих направлениях, разгружая себя.

В 2021 мы наняли СMO, в 2022 я вырастил сильного менеджера и передал ведение крауд проектов. А осенью прошлого года к нам пришел потрясающий CTO с огромной экспертизой в ML и IT.

И вот парадоксальная история на текущий момент:

- Толоки в Росси нет
- Проекты по крауду и разметке я уже самостоятельно не веду

О чем же мне писать в русскоязычном канале “Рома ❤️ Толоку”?

Ясно вижу, что нужно что-то менять) И в этом мне ОЧЕНЬ нужна ваша помощь!
Уделите, пожалуйста, 5 минут, и заполните эту гугл форму.
Я хочу лучше понять вас, что для вас интересно и полезно.
И уже из ваших ответов менять позиционирование канала.

Спасибо большое, что остаетесь со мной
С любовью, Роман Куцев
Спасибо всем, кто поучаствовал в опросе!
Уже нашел несколько инсайтов в ответах, и совсем скоро будет ребрендинг канала.

Сейчас фокус своего внимания сконцентрировал на синтетических данных, с интересом и вдохновлением погружаюсь в эту тему. Генеративный AI врывается в нашу жизнь, один только пример с SORA показывает, как мультимодальные модели кардинально поменяют наш мир.

Уверен, что за синтетическими и сгенерированными данными будущее)
7 марта я буду выступать на конференции OpenTalks.ai c докладом "Обзор методов и инструментов для генерации синтетических датасетов", расскажу на нем, чем же меня синтетика так зацепила.

Кто тоже планирует посетить конференцию OpenTalks?
Пишите, с радостью с вами встречусь!

Видео с докладом и слайды выложу в канале после выступления.
Конференция OpenTalks за 3 дня до начала была отменена.

В чем же дело? — спросите вы
Если кратко - в политике.
А если вам интересны детали, рекомендую посмотреть видео организатора конференции Игоря Пивоварова.

Несмотря на отмену, большая часть людей все-равно приехала, и ночные бары Тбилиси наполнились MLщиками. Рад был увидеть множество знакомых лиц, пообщаться и провести хорошо время в окружении коллег. Да и выступить с докладом получилось.

Ниже прикладываю важные моменты с моего выступления "Обзор методов и инструментов для генерации. синтетических датасетов"
Для начала, почему вообще используются синтетические данные?

Для этого есть четыре основные причины:

1) Экономия денег и времени
2) Получение редких данных
3) Решение проблем с конфиденциальностью
4) Упрощение работы с разметкой и контролем качества

Давайте про каждую подробнее:
Когда мы говорим про ML направление, чем быстрее вы внедряете в продакшн новую модель, тем быстрее захватываете рынок. С синтетикой сделать это можно намного быстрее и дешевле.

Другой важный момент: с синтетикой можно генерировать редкие данные. К примеру, если в медицине в каком-то случае 99% не имеют патологии и только 1% она встречается, то есть таких данных очень мало, то сейчас именно с помощью синтетики пытаются решать эту проблему, генерируя сложные кейсы.

Еще одна причина — так проще всего избежать проблем с хранением и использованием данных. В Европе уже вступил закон GDPR, в США действует Калифорнийский закон о защите прав потребителей (CCPA), а в России вводят уголовную ответственность для тех, кто неправильно хранит персональные данные. В этом случае синтетика снимает эти боли: так как эти данные не настоящие, вы можете проще хранить и обрабатывать их.

Алгоритмы генерации могут работать 24/7 и со стабильными результатами. В отличие от людей, которые отдыхают или могут совершать ошибки. Если у вас есть уже выстроенный pipeline в синтетике, то это проще и быстрее контролировать и допускать меньше ошибок в генерации датасетов.
Как синтетические данные применяются для реальных задач? Так ли синтетика эффективна?

Продолжая тему синтетики и ее использования для задач, можем вспомнить кейс Microsoft Research, где они обучали модель Phi-1 и Phi-2 на текстах, сгенерированых Chat GPT 3.5.

Если у вас есть большая LLM и вы хотите сделать легкую под конкретный домен, то можно сгенерировать синтетические данные на большой и на них обучать более легкую LLM, и одна будет давать хорошее качество в узких доменных областях. Обычно компании тратят огромные средства, чтобы сделать разметку для LLM, а с помощью синтетики можно сделать разметку дешевле и быстрее.

Модерация
Тут может быть интересен подход Open AI. Они придумали, как обучать модель на синтетических данных, полученных с помощью LLM. Предположим, что у вас уже есть контрольная размеченная выборка, и есть инструкция для модераторов.

Тогда вы берете инструкцию, вставляете в промпт LLM модели и анализируете качество, которое получилось на контрольной выборке. Находите ошибки и редактируете инструкцию так, чтобы LLM работала лучше. Через 3-4 итерации вы получите промпт, который позволяет размечать ваши данные действительно качественно. Но проблема в том, что Chat GPT — довольно дорогая и медленная модель для продакшена на больших объемах. Open AI предлагает генерировать с помощью LLM синтетический датасет и обучать легковесную модель, которую вы будете использовать в задачах.

Интересно, что уже сейчас качество данных, выдаваемых LLM, колеблется между тем, что может выдать эксперт и обычный человек. А всего два года назад она вообще не могла соперничать с людьми.

Но есть проблема:
Синтетические данные часто отличаются от обычных данных, поэтому, когда мы обучаем алгоритм на синтетику, он переобучается на нее и показывает хороший результат только на синтетике, а на обычных данных работает нестабильно.

Однако мы видим и огромный прогресс: за последний год качество генерации синтетики стало на порядок выше. Когда качество генерации будет сопоставимо с качеством данных из реального мира, уже не будет возникать проблем с переобучением на синтетику, поэтому она станет более популярной.

И уже сейчас понятно, что в 2030 году больше половины данных для обучения будут сгенерированы, а настоящие данные будут отходить на второй план.
И небольшой бонус: инструменты, благодаря которым можно генерировать любые типы данных.
Overview_of_methods_and_tools_for_generating_synthetic_datasets.pdf
2.7 MB
А еще оставляю презентацию с конференции для тех, кому интереснее ознакомиться подробнее ⬆️
Всем привет!

Так как в последнее время и в моей жизни, и в индустрии происходит много изменений, настало время перемен и для Рома ♥️ Толоку.

Чтобы больше не пропадать и регулярно делиться актуальным контентом, я решил подключить к каналу команду Training Data. Теперь мы будем писать обо всем: от разметки до Data Mining и ML, от трендов и технической литературы до кейсов и карьерных историй, а со временем запустим и вебинары. Еще у канала появится новое имя, так что не теряйте.

Спасибо всем, кто принял участие в опросе про контент: мы вместе прочли и учли ваши мнения, поэтому обязательно следите за новыми постами.

Спасибо вам, что остаетесь с нами
Ваш Роман Куцев ♥️
🛠 Главные ошибки в сборе данных: как не провалиться в процессе?

Итак, вы планируете организовать сбор данных. Давайте обсудим, на что важно обратить внимание во время организации? На самом деле для успешного сбора достаточно соблюдать 3 правила подготовки, про них расскажем в сегодняшнем посте.

Провести пробный сбор данных и проверить технику

До самого сбора необходимо написать техническое задание и в первую неделю провести пилот, а также проверить технику и реквизит, чтобы процесс сбора данных был отлажен и чтобы минимизировать возникновение ошибок во время съемок. Что-то может случиться с камерами, которые работают по скрипту. Если что-то пойдет не так уже во время записи, то впустую тратится и время команды, и бюджет на статистов.

Подготовиться к поиску статистов

Поиск людей для ручного сбора данных часто создает сложности. Придумать реквизит и фон не так трудно, хотя это и занимает время.

Существенно сложнее найти статистов. Многие пугаются и отказываются от работы, так как не понимают, как их данные будут использоваться. Особенно заметно это стало в последние годы, так как сейчас в СМИ много говорят про персональные данные и биометрию, часто упоминая утечки данных в сфере.
Кроме того, часто бывают трудности в разнообразии статистов. Чаще всего во время сбора нужны статисты различного пола, возраста или расы, чтобы нейросеть могла хорошо работать на разных людях.

Расписать действия

Здесь есть много нюансов: с какого ракурса и в каких позах нужно выполнять действие, на каком расстоянии от камеры нужно находиться, какое количество фонов должно быть, учитывая условия, в которых будет работать нейронная сеть.

#где_сбор_лебовски
Интернет, краудсорсинг или ручной сбор данных. Что подходит вам?

Итак, вам нужно собрать данные. Какой способ лучше всего подходит под ваши задачи? Мы с командой составили небольшой пост для тех, кто хочет разобраться во всем вот этом вот.

Интернет
Самой простой способ сбора данных — это спарсить с подходящих сайтов в поисковике. Еще для изображений и видео можно найти открытые данные – например, в YouTube, где можно делать скриншоты или сохранять видео для последующей обработки.

Если это звуковые данные, их можно доставать из опубликованных телефонных диалогов или взять из звуковых дорожек кинофильмов. Аудио вообще часто легче сгенерировать или найти, чем изображения и видео.

Какие еще есть варианты?
2025/06/25 01:40:42
Back to Top
HTML Embed Code: