Telegram Group Search
#travel
Вчера приземлились в Австралии. Пока в восторге.
Про Западную Австралию и Перт подробнее напишу позднее.
У меня новая глава жизни.
В понедельник начала работу в Долине, та же компания.

Дальше будут повествования от стафф инженера в Долине.
Пока осваиваюсь и отхожу от jet lag.
Напишу серию постов из рубрики:
"Не путайте туризм и эмиграцию".
Америка месяц спустя, мои первые впечатления.

Набросала мои личные первые плюсы-минусы Долины по сравнению с Ирландией. Сравниваю именно с Ирландией, не с какой-то другой местностью, и Долину, а не Техас.

Начнём с плюсов.

1. Климат

В Долине идеальный климат. За все 6 недель было 2(!) дождя, коротких, один из них ночью.
Нашу деревню в Ирландии за это время смыло.
Все 6 недель здесь все дни было Солнце 🌞. Температура ультра комфортная, 28 в сентябре и до 22 сейчас. В Ирландии летом максимум 20 и эта роскошь примерно 1 неделю в году. Тут в ноябре проходит идеальное лето Ирландии.

В деревне, где мы поселились, по статистике 330 солнечных дней в году. В деревне Ирландии, где мы жили, по ощущениям таких дней было 30.
Это влияет на самочувствие, настроение, и вообще желание жить и строить.
Продолжаем Долина vs Ирландия

2. Образование

Уровень школ существенно выше. По физике-химии-математике я сама учила Тони и с репетитором, поэтому тут норм, а вот по английскому придется наверстать обоим детям. Плюс, ещё тут испанский и музыка.

В Ирландии 9-летние дети учат умножение на 2 и 3 песнями. Натурально. Они поют песенки про таблицу умножения. В итоге, пока они не допоют - не могут ответить, сколько будет 2*9 (ведь это ближе к концу песенки).

Нам эта муть сразу не понравилась, и полтора года назад Тони просто выучил таблицу умножения, чтоб отскакивало.
Потом научила его умножать и делить в столбик. Потом степени, корни, системы уравнений и т.д.

В школе США в первый день ему надо было поделить 1054 на 4, там с остатком, получилось 263.5 и он справился легко.
В Ирландии тем временем начали песенку умножения на 3 🙈. Почувствуйте разницу.

Дети 6ти лет здесь читают и пишут сильно быстрее Алисы, нам придется наверстать после ирландской школы.

Языки: учат испанский. Тони тоже придется наверстать.
В Ирландии учили кельтский, но на самом деле не учили, а тоже пели песенки. Значения слов в песенках при этом оставались детям неведомы 🙈.

Здесь в школах есть музыка, все учатся играть на инструментах. Это тоже мне нравится, пусть только раз в неделю.

Пока ощущения отличные, но детям приходится догонять из-за сильного отставания в Ирландии.
США vs Ирландия (именно США, даже не Долина)

3. Обязательная кредитная история и вся банковская система

В США есть понятие "кредитная история", если ты никогда в жизни не брал кредит, у тебя нет и не было кредитки США, ты вообще миллионер и живёшь на свои деньги без кредитов - все плохо... У тебя не будет адекватной кредитной истории, и без нее сильно хуже жить в США.

Если ты не хочешь влезать в долг и брать кредитку, тебе спокойно не дадут жить. Без кредитной истории трудно снять дом или квартиру, взять машину в лиз, даже отрыть счёт в банке онлайн.

Без кредитной истории не выдают кредитку, а без кредитки США нет кредитной истории. Замкнутый круг, не имеющий смысла, но вот так.

Выплаченные ипотеки и кредитки других стран не проходят. Тут вообще пока средние века в планах банковской системы.

У меня пока кредитной истории нет, кредитку мне не дали, онлайн счёт в банке открыть на дали... Все ещё разбираюсь.
Буду держать вас в курсе :)

Банки это вообще капец. Простая транзакция на рент в банке Chase идёт 5 дней (за 5 дней, Карл (!), можно облететь земной шар. Мы проверяли). Транзакции блокируют через одну (Chase).
Пока Чейз не справляется с моими онлайн покупками, я плачу европейским Револютом (очень рекомендую).

Открыть счёт онлайн нельзя (без кредитной истории), кредитку не оформить... В Ирландии это все занимает примерно 5 минут онлайн и ирландская кредитка на 5к у меня есть, это заняло 5 минут.

Да что там, в Ирландии за пару дней онлайн мы получили mortgage approval на сумму в 300к.

Тут все плохо с этим. Муж ходил 2 раза в банк, ему вообще не открыли счёт, так как счёт за мусор и rental agreement  они не считаю proof of residence. Все ещё разруливает. Буду держать вас в курсе.
Ирландия vs Долина, продолжаем.

4. Медицина

Почти любая страна выиграет у Ирландии в медицине, потому что на острове тупо нет каких-то врачей.

В этом случае очереди в листе ожидания по 12 лет (не шутка, я видела такие очереди). Если что-то серьезное, а врача нет, не волнуйтесь, они пришлют священника (тоже совсем не шутка).

Врачи, которые есть - их тоже мало. Ко всем нужно направление, и даже по страховке и с направлением вы будете долго ждать - год-два.
Например, у меня была травма плеча в прошлом ноябре. В декабре я сделала МРТ, мега быстро по страховке. Направили на физио и на консультацию с хирургом.

Хорошего физиотерапевта я нашла в соседнем городе, всего в часе езды, большая удача, гоняла к ней раз в неделю.
А вот консультацию с хирургом я все ещё жду, уже 10 месяцев.
Я, конечно, давно забила и разобралась с физио. Но если что-то серьезное, на помощь приходят Польша, Литва,...  другие замечательные страны и дешёвые авиабилеты.

Так вот, тут есть все врачи и ожидание типа месяц, часто меньше.

4.2 Профилактика
В Ирландии сложно просто так сдать анализ крови, для себя, даже за хорошие деньги. Нужно направление, вам его не дадут, ждите 50ти лет. Тут можно сдать, что хочешь, по страховке вообще недорого, 10 баксов на Кайзере, например.

Тут детям первый раз в жизни проверили зрение (!) и слух (!) когда мы делали бумаги к школе.
Мы были в шоке, сколько всего они проверили за полтора часа. А за это время ассистенты перевели нам все прививки из системы Ирландии в систему США. Врач ещё ответил на доп жалобы. Врач был педиатр, не просто GP, как в Ирландии. Ах да, это все бесплатно (покрывала страховка Кайзер, в Ирландии каждый такой визит стоил 60-80 евро и максимум на 10 минут, страховка не покрывает GP).

В общем, профилактика и анализы точно сильно лучше в США. Есть редкие врачи, вроде эндокринолога, которых не было в Ирландии. Детей отправляют сразу к педиатру, а не к GP.
Ирландия vs Долина, продолжаем

5. Прайваси

Вот эта самая прайваси, с которой носится вся Европа... А знаете: в этом что-то есть.

Я ощутила здесь жуткое неуважение приватной информации. На каждом углу ты должен дать свой налоговый номер, имя, адрес, номер телефона, даже сколько зарабатываешь. Часто так и подмывает ответить: "не ваше дело".

Я охренела от таких вопросов на рент, на симку, да везде...
При этом, когда даёшь номер Ирландии и адрес Ирландии, он нигде не проходит. В итоге давала адреса айрбнб и разных знакомых. Для телефона прокатывают дешёвые или бесплатные онлайн номера.

Тут сразу возникло желание сделать себе пару псевдонимов, анонимных телефонов, пару адресов, благо это не трудно...

Телефон натурально заспамили, тк его требовали везде. Сейчас меняю телефон, онлайн смс номер куплю для спама. Я обычно нигде не ввожу свои реальные данные (в Гугле, фб я давно так делаю). И мне не комфортно давать свою реальную дату рождения, адрес и телефон на каждом углу. Для спама у меня специальные имэйлы, к ним не привязаны реальные имя, дата рождения и телефон.
Если требуют паспорт или SSN на предоплаченные услуги или симку в телефон, иду в другой сервис.

После Европы сильно ощущаю, что все эти GDPR и прайваси законы вообще важны. Тут с этим хуже.
Есть штаты (вроде Техас), где могут телефонные разговоры записывать без спроса и согласия.
Такие дела
Ирландия vs Долина, продолжаем

6. Цены

В Калифорнии, конечно, можно прифигеть от цен после Европы.

Рент
Рент зависит от района, но примерно в 2 раза дороже Ирландии. Счета, смотря что, мусор и вода дороже, а вот интернет дешевле. Отопление и электричество пока в 5 раз (!) дешевле, но тут сильно теплее зимой. Увидим, когда зима придет (пока можно днем ходить в майке).

Дома
Тоже зависит от района, в 3-6х дороже Ирландии. Здесь астрономические property tax - типа 15к в год, и проценты (6% годовых).
В отличие от Европы, ипотека тут невыгодна (налог + проценты обычно выше рента)

Услуги
Услуги дороже во много раз.

Занятие по плаванью или таэквондо в Ирландии стоит 10-15 евро, а тут 30-50.

Cleaning и няня дороже в 4 раза. Про косметолога, парикмахера и сантахника пока не знаю, но думаю что будет ооочень дорого.

Фитнес
Бассейн и фитнес зал без инструктора дешевле.
Здесь спокойно дают free pass на неделю и можно разные фитнесс центры объезжать и выбрать. В Ирландии не было такой роскоши.

Еда
Еда дороже раза в 2-3 в среднем. Есть продукты, которые дороже раз в 5-6, есть, которые в 2, и что-то стоит примерно так же.
Зато вино дешевле 😂

Вещи и техника
Вещи в целом дешевле, чем в Европе. Мебель примерно так же. А вот всякие компы, телефоны... и всякая техника дешевле.
Но машины дороже. Особенно подержаные.
Вчера покупали машину, это отдельная эпопея, напишу.
Одежда примерно так же.

Итого
Вот и выходит.
Почти все, чего касалась рука человека в США- сильно дороже.
Почти весь экспорт и все где человека нет (фитнес зал, интернет) - дешевле. Акцизы на алкоголь тоже низкие, пиво-вино дешевле.
Как-то так.

Пока нужно 10к в месяц на семью на рент, счета, питание, страховки, бензин, спорт, секции и всякое прочее... пока не очень понятно, тк мы постоянно покупаем что-то в пустой дом. Или машину. Или страховку. Да ещё и с разных 4-5 счетов.

Как устаканится, подобью финансы и будет понятнее.
🎄С Новым годом! Наступающим в СА и наступившим почти везде!

Желаю в 2025 всем осуществить свои планы: беременным хорошо родить, разруливающим визы и паспорта - получить их, желающим переехать - найти возможность и переехать, ищищум работу - найти то, что по душе, всем ждунам дождаться, одиноким - найти свои половинки, болеющим - выздороветь, невыездным - выехать.

Не все в наших руках, но многое. Пусть то, что в наших, получается, а там, где от нас не зависит, пусть везёт, как утопленникам.

С праздником!

А это последний закат 2024го в Калифорнии
Ирландии vs California

Природа

В Ирландии офигенная природа, особенно, когда нет дождя.

Скалы, уходящие в море и океан, зелёные холмы с овечками и замками, реки, очень красивые и пустые пляжи...выше по каналу писала и показывала.

Есть не все. Например, на горные лыжи нужно летать (недалеко, пару часов до Альп). На тёплые пляжи нужно летать. В высокие горы нужно летать. Хочется стабильный серфинг/ кайтинг - нужно летать. В Ирландии погода выпадает достаточно редко.

В Калифорнии все рядом, относительно.

Стабильный серфинг в 30 минутах, Санта Круз. Но есть нюанс - тут есть акулы.
Кайтинг есть в заливе, там без акул, стабильно есть нужный ветер.

Три часа на машине - и вы в снежной сказке озера Тахо, катаетесь на горнолыжных курортах или беговых лыжах.
Да, Альпы в Австрии, Швейцарии, Италиии... лучше, и часто дешевле, зато тут можно закинуть лыжи в машину, выехать в 6 утра и в 10 быть на склоне.
В Альпы извольте ехать 3 часа в Дублин, за 2 часа до вылета там быть, потом лететь, и потом же ещё трансфер, минимум 1.5-2 часа, а-то и все 8. Это мероприятие мы делали 1-2 раза в году.
Тут можно спокойно кататься хоть каждые выходные, мы уже сгоняли на 5 дней в конце ноября.

С солнцем 🌞 проблем в Долине нет, но на тёплые пляжи придётся ехать на юг, в Санта Барбару, Сан Диего... от 6 до 8 часов на машине.
Или полететь в Мексику.
Внутренние перелёты в сша не такие дешёвые, как ирландский Ryanair, но и не так, чтобы сильно дорогие.

Альпинизм, высокие горы и знаменитый парк Йосемити с раем для скалолазов - несколько (4-5) часов на машине.

Любителям outdoors sports Калифорния понравится, погода тут располагает.
Любителям культурной жизни больше понравится Европа. Но об этом в другом посте.

А тут в треде будут фотки со снежной сказки с озера Тахо.
Пора написать что-то полезное МЛ людям.
#карьера #интервью #career #faang #interview

В эфире МЛ дизайн интервью.

Про литкод я писала раньше, там больно, но хотя бы ясно-понятно, что делать (а именно, не тушеваться, а нарешать 300+ задачек, или сколько вам нужно).

Бихэйв чуть более непредсказуем, но тоже в целом все понятно, писала про подготовку тут и тут.

А вот МЛ дизайн модуль самый непредсказуемый... у многих возникают вопросы с подготовкой.

Тем не менее, это моё самое любимое и интересное интервью. Именно это интервью я регулярно провожу в Линкедин, обычно на уровень стаффа.

Проходят его не многие. Лично у меня процент прохождения где-то 15-20%, а я стараюсь помочь кандидатам и искренне верю в каждого.

Начнём с подготовки.

МЛ сейчас стал большой... все знать и помнить уже давно нереально.
Сфокусируйтесь на команде (не компании, а именно самой команде), куда идёте на интервью. На уровне директора/Sr директора посмотрите, что они делают:
комп зрение, genAI, рекомендашки, fraud...? Иногда это не тривиально узнать и нужно спросить инсайдера в комании. Узнать, кто у них тех лиды.
По именам гуглите блог посты и статьи.

Если у вас нет инсайдера в хорошей компании - это точка для роста, потому что лучше бы ему быть :).

Если у команды есть блог посты или статьи - обязательно почитайте или хотя бы просмотрите. Это поможет понять, чего ожидать. Я прочитала блог посты Lyft, когда к ним шла, и это помогло.

Команда, которая занимается текстовыми genAI, наверняка углубится в llms, и не будет копать в комп зрение или fraud detection. Команда, которая зарабатывает деньги 💰 для компании через рекомендательные системы, почти наверняка спросит задизайнить рекоммендашку (но и про ллм не забываем, сейчас модно и спросят почти все). Команда, которая катит все в прод, может спросить про llm inference оптимизации и инфраструктуру.
А в Тесла стоит ожидать компьютерного зрения.

Все очевидно, но не всегда понятно, если компания большая (как мета или гугл), там надо искать эту информацию. Часто можно спросить прямо у рекрутеров или hiring manager, чем они занимаются, они заинтересованы хорошо и быстро нанять и могут ответить верхнеуровнево. Если match с командой ожидается позднее, как в Мета, в первую очередь стоит повторить LLMs/genAI и старые добрые рекомендашки. Это самые популярные темы для МЛ генералистов.

Итак, у компании или команды есть engineering blog или статьи. Прекрасное начало! Это первое, что нужно прочитать.

Сузили тему и поняли, что готовим. Отлично 👍

Теперь делаем план. Я писала его (ручкой, на бумаге ), чтоб не забыть что-то.

План в следующем посте, а потом частые ошибки на этом интервью.
МЛ дизайн, общий план

#карьера #интервью #career #faang #interview

План ответа зависит от задачи и области, но в большинстве примерно такой. Сейчас тут будет микс языков (я не все знаю на русском).

1. Какую бизнес задачу мы решаем? В чем проблема, что главное, что не очень важно. Наши true north бизнес метрики, safety guardrails. Что сейчас в есть проде (ноль или что-то).

2. Наши constrains (latency, costs, hardware limits, annotation budget, etc.)

3. Какие данные у нас есть, сколько, что с разметкой.

На МЛ дизайн ожидается, что кандидат задаст вопросы, чтобы это понять, а не будет сразу лепить предположения.


Когда мы думаем, что поняли задачу:

4. Выдаем high level design с опциями (так и говорим, что дадим high level, а потом углубимся. Заодно спросим интервьюера, в какие пункты плана лучше углубиться, ведь время ограничено).

5. Переформулируем задачу в задачу МЛ (классификация, регрессия, next token prediction, clustering...) Возможны варианты, озвучте несколько.

6. Оффлайн метрики (онлайн обсудили в пункте 1, когда разбирались, что нужно бизнесу). Накидать можно много, но стоит выбрать главную True north metric и safety guardrails.

7. Данные. Как будем готовить. Будем ли размечать, как. Какие сигналы и фичи использовать, как делать preprocessing и т.д. с оговоркой, что feature eng/ preprocessing зависит и от выбора моделей.
Что будем делать с cold start и/или если данных нет.

8. Модели и tuning: несколько подходов по возрастанию сложности. Обязательно их proc and cons. Почему они.
Потом выбрать один подход и хорошо его рассказать. Спросите интервьюера, в какой метод они желают углубиться.

9. Тренировка. Валидация. Тест. Бенчмарки.
Как выбираем модель для прода.

10. Катим в прод. Оптимизация inference (at scale). Инфраструктура? (Часто не нужно на МЛ дизайне, но иногда да, спросите интервьюера)

11. Онлайн тесты. Тут про а/б тесты, выборку, метрики бизнеса и т.д.

План озвучиваем сразу во время high level design.
Потом идём по пунктам, периодически сверяемся, где углубиться. Не все пункты хотят слышать во все компании. Часть про инфраструктуру, например, часто можно опустить.
Еще: не все захотят углубиться в модели, кто-то может захотеть углубиться в данные или метрики. Будьте флексибильны. В high level design укажите все, а потом уже углубляйтесь по ситуации, считывайте сигналы с интервьюера.

Продолжение следует...
#career #faang #interview #карьера #интервью

МЛ дизайн, работа над ошибками

Общий план выше, сейчас посмотрим на распространенные ошибки, которые я видела на МЛ дизайне.

1. Самое ключевое.
Мы не поняли задачу: в чем именно проблема, ЗАЧЕМ, почему нужно её решать. Какие бизнес метрики важны, какие не очень...
И... полезли её решать.

2. Мы не узнали какие у нас данные, есть ли они. Сразу предположили, что все есть в красивом виде и с разметкой, и давай решать (спойлер. Так не бывает)

3. Мы решаем задачу сразу сота LLMкой /LLM+GNN, etc. не уточнив, что там по бюджетам и железу, и не рассмотрев другие подходы.

4. Мы выбрали один любимый подход и рассматриваем только его. Не агрументируем, почему этот подход. Не рассматриваем альтернативы, их proc and cons. На вопрос: "почему так", ответ "СОТА" без чёткого понимания trade-offs.
МЛ дизайн проверяет ваше знание методов, понимание их плюсов-минусов. Если гиперфокусироваться на одном любимом подходе, вы не сможете это показать.

5. Мы выписали разные метрики, но не знаем их толком.
Если вы не можете произнести на интервью NDCG полными словами - не прозносите! Скажите аббревиатурой. Если не можете объяснить метрику (быстро, понятно, четко) - лучше даже не упоминайте ее, утоните.
Если вы написали на интервью Matthew correlation, будьте готовы ответить за неё и помнить формулу 😁.

6. И наоборот: их никто не спрашивал, а они начинают как прилежные школьники рассказывать формулы для precision and recall (на позицию тех лида).
Не лезте в такие детали. Интервьюер спросит, если захочет. Предполагается, что тех лид с опытом 10 лет знает, что такое recall, не надо тратить время и писать эти формулы. Тратьте время очень грамотно.

7. Time management тоже очень частая проблема.
Рассказать весь дизайн за 45 минут (5 на интро, 5 на follow up, 5 на ваши вопросы), при этом не тараторить со скоростью 100500 слов в сек, достаточно нетривиально. Нужно тренироваться. Поэтому тренировочные интервью так важны.
Часто кандидаты не укладываются во время совершенно, приходится их направлять и навигировать вопросами, чтобы успеть осветить важные пункты. На миддла норм, но на тех лида вы должны вести это интервью, а не наоборот.

8. Отсутствие гибкости. Слишком stick to the plan и не считывают сигналы интервьюера. Я говорю, инфру и data engineering часть можно опустить. А человек все равно по плану... не может отклониться, в итоге теряет время и не успеваем то, что нужно было успеть.

9. Отсутсвие гибкости. Или так: "У вас есть 5 минут на вопросы нам". В ответ, "Ой, давайте я тогда лучше дорасскажу про инфраструктуру 🙈", которую не успел.
Ваши вопросы на уровень тех лида куда важнее, чем дорассказать, что вы там не успели по вашему плану. Этот план важен вам. Гибкость важна, в работе тоже.

10. Мы не знаем, что делать с дисбалансом классов, trade offs, как навигировать precision recall trade off, что делать, если AUPR высок, а AUC близок к 0.5, как делать анализ предиктов, что делать с cold starts, и т.д. дополнительные вопросы всегда будут, будьте готовы.


Вот такие ошибки пришли сходу в голову.
Дальше будут ресурсы для подготовки.

Всем удачи на всяких интервью!
Один из моих самых любимых каналов, связанных с профессиональной деятельностью (LLMs, NLP, recommended systems at scale) это https://www.group-telegram.com/gonzo_ML.

Там крутые авторы и пишут глубоко, а не поверхностно, как большинство более популярных каналов, которые направленных на широкую аудиторию.

Сегодня они написали про модель DeepSeek-V3 - новая LLM от китайцев, которая лихо вошла на лидербоарды (это где сравнивают разные модели), догнав и обогнав по качеству более дорогие разработки Мета, openAI и других уважаемых американских компаний.

Она натворила не мало шума, как выяснилось, обучать отличные llm можно сильно дешевле и быстрее.
Ниже будет обзор от https://www.group-telegram.com/gonzo_ML
DeepSeek moment

Нельзя ничего не сказать про DeepSeek. Эти ребята просто супер молодцы — так задизраптить всё поле мало кому удавалось. Ну OpenAI со своим ChatGPT, потом Цукерберг с Llama в опенсорсе, теперь вот DeepSeek.

DeepSeek сумели обучить модели хорошего качества по ценам на порядок ниже конкурентов.

Во-первых, DeepSeek-V3 (https://github.com/deepseek-ai/DeepSeek-V3), включает две модели DeepSeek-V3-Base и чат-версию DeepSeek-V3. Обе являются MoE с 671B параметров всего и 37B активных. Не для простых смертных модели, надо иметь неслабую multi-GPU конфигурацию что-то типа 8 H200 (но есть сжатые варианты от разных товарищей). По качеству где-то уровня GPT-4o 0513 и Claude-3.5-Sonnet-1022 и выше LLaMA-3.1 405B.

Есть разные оценки, сколько стоило обучение Ламы 3.1 405B. В самой работе (https://arxiv.org/abs/2407.21783) сказано, что использовалось до 16,384 H100 и упоминается предобучение в 54 дня (но там и другие этапы обучения были). Одна из не самых высоких оценок говорит, что стоить должно было порядка $60M (https://x.com/_LouiePeters/status/1816443587053092917?lang=en).

Про DeepSeek-V3 известно чуть конкретнее. Они использовали H800, урезанный для Китая экспортный вариант H100, и они сами пишут, что для полного обучения потребовалось 2.788M H800 GPU-часов, что соответствует $5.576M при цене аренды H800 в $2 за час.

Ну типа на десятичный порядок меньше. При сравнении с OpenAI наверное разница ещё больше.

Это как с Индией, которая отправляла аппараты на Марс и Луну дешевле, чем в Голливуде фильмы про космос делаются: марсианский Mangalyaan за $74M и лунный Chandrayaan-3 за $75M против фильма “Гравитация” за $100M (https://www.business-standard.com/india-news/what-makes-india-s-space-missions-cost-less-than-hollywood-sci-fi-movies-124110400430_1.html).

Во-вторых, DeepSeek-R1 (https://github.com/deepseek-ai/DeepSeek-R1), модели с ризонингом по типу OpenAI o1 или Google Gemini Thinking. В семействе две модели: DeepSeek-R1-Zero и DeepSeek-R1, обе построены на базе DeepSeek-V3-Base и такого же большого размера.

DeepSeek-R1-Zero (по аналогии с AlphaZero) обучена чистым RL (Group Relative Policy Optimization, GRPO — вариант PPO из другой их статьи, https://arxiv.org/abs/2402.03300), без SFT. Я думаю это очень значимый результат, как в Го оказалось, что можно без человеческих партий, так и здесь постепенно оказывается. Из интересного, во время обучения у модели случился “aha moment”, когда в цепочке рассуждений модель выдала “Wait, wait. Wait. That’s an aha moment I can flag here.” и пересмотрела изначальный подход к решению задачи.

Zero хороша, но иногда уходит в повторы, смешивает языки, не очень читабельна. DeepSeek-R1 перед RL обучена на небольшом (тысячи) количестве CoT примеров, они это называют Cold start data, чтобы дать более качественную начальную точку для RL. Далее тот же Reasoning-oriented RL, что и у Zero. Далее SFT на ризонинг (600k) и не-ризонинг (200k) данных. И потом ещё дополнительный этап RL. Эта модель сравнима с OpenAI-o1-1217.

Из того, что не привело к успеху: Process Reward Model (PRM) и Monte Carlo Tree Search (MCTS).

Также выпущена куча dense дистиллятов (1.5B, 7B, 8B, 14B, 32B, 70B) из R1 на базе Qwen и Llama. Эти сопоставимы с OpenAI-o1-mini.

HuggingFace взялся за Open R1 (https://github.com/huggingface/open-r1), полностью открытое воспроизведение DeepSeek R1. В кои-то веки не Китайские исследователи догоняют западных, а наоборот!

Но и этого DeepSeek показалось мало, и сегодня они выпустили ещё и Janus-Pro, развитие предыдущего Janus (https://github.com/deepseek-ai/Janus) с улучшенным обучением, данными и большим размером. Это мультимодальная моделька на 1B и 7B, умеет принимать на вход текст и картинки и на выходе тоже выдавать текст и картинки. На генерации вроде как бьют Dalle-3, SDXL, SD3-Medium.
И ещё у них, кстати, есть DeepSeek-VL2 (https://github.com/deepseek-ai/DeepSeek-VL2), llava-style VLM с MoE. На вход текст и картинки, выход текст. Семейство из трёх моделей: DeepSeek-VL2-Tiny, DeepSeek-VL2-Small, DeepSeek-VL2 с 1.0B, 2.8B и 4.5B активными параметрами соответственно.

Следующим, наверное, должна быть генерация видео 🙂

На всё открытая MIT лицензия.


Ажиотаж сегодня как с Pokemon Go в своё время. Котировки NVIDIA и ко быстро просели, хотя не думаю, что это радикально что-то меняет, ещё отыграют. Не знаю, что творится внутри команд OpenAI, Gemini/Gemma, Llama, но наверное не самое простое время. Economist разродился статьями про китайский ИИ (https://www.economist.com/leaders/2025/01/23/chinese-ai-is-catching-up-posing-a-dilemma-for-donald-trump и https://www.economist.com/briefing/2025/01/23/chinas-ai-industry-has-almost-caught-up-with-americas), и конечно интересно, как это всё отразится на Stargate.

В весёлое время живём.
Кстати, сейчас в bay area проходит mooc курс Advanced LLM agents
с лекциями на youtube, которые могут смотреть все (как мы любим, без регистрации и смс).

Сегодня как раз одна такая лекция "Learning to Self-Improve & Reason with LLMs", 4pm SF time, но посмотреть можно и потом. Они часто начинают позднее.

Перепосчу.
Our 2nd lecture will be happening today @4:00pm PST! You can find the livestream here: https://www.youtube.com/live/_MNlLhU33H0

Today, our amazing guest speaker Jason Weston will be presenting, "Learning to Self-Improve & Reason with LLMs."

We describe some recent methods for LLMs whereby they can self-learn how to perform better at tasks relevant to human users, from reasoning or math tasks to creative tasks. In particular we describe the methods of Iterative DPO (https://arxiv.org/abs/2312.16682), Self-Rewarding LLMs (https://arxiv.org/abs/2401.10020), Iterative Reasoning Preference Optimization (https://arxiv.org/abs/2404.19733),  Thinking LLMs (https://arxiv.org/abs/2410.10630), Meta-Rewarding LLMs (https://arxiv.org/abs/2407.19594), and more! 
2025/02/14 20:11:23
Back to Top
HTML Embed Code: