epsiloncorrect 196 Telegram Group

Telegram Group Search

epsilon correct

life update: втиснулся в серединку 👥

👥

👥

спасибо, что обновили статью, а то пацаны во дворе не верили на слово

Please open Telegram to view this post

VIEW IN TELEGRAM

4.2K viewsedited 12:10

epsilon correct

STOC – ACM Symposium on Theory of Computing – одна из моих любимых конференций по теоретическому компьютерсаенсу, чтобы позалипать на результаты. В этом году помимо сборника работ авторов обязали выкладывать видео с разбором на ~20 минут. Час назад выложили плейлист на ютьюбе. Смотрим! 🧐

Please open Telegram to view this post

VIEW IN TELEGRAM

3.8K views21:09

epsilon correct

#book_review "Не конец света" / "Not the End of the World"
– Ханна Ричи, 2024

Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально. 🤓

Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.

В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха 🦠 и изменение климата 😎) написаны бодренько, но потом поезд потихоньку начинает сходить с рельс на главах про еду (вырубка леса, производство еды 🥁, потеря биоразнообразия 👥) и в конце скатывается в полное фиаско на главах про загрязнение пластиком и чрезмерный вылов рыбы.

Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям. 📈

В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной. 0️⃣

На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад. 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

3.5K views11:09

epsilon correct

Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B.

Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

3.7K views13:28

epsilon correct

Подъехал официальный блогпост и заодно ссылки на хаггингфейс спейс с модельками. Целых два часа тупили после моего анонса. 🤦‍♂️

Please open Telegram to view this post

VIEW IN TELEGRAM

Gemma 2 is now available to researchers and developers

Gemma 2, our next generation of open models, is now available globally for researchers and developers.

3.6K views15:24

epsilon correct

The Unaccountability Machine: Why Big Systems Make Terrible Decisions - and How The World Lost its Mind
Dan Davies, 2024. Amazon.
#book_review

Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами. 📉

В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер 💥. Никто не был виноват – авиакомпания и аэропорт следовали процедурам импорта, документы на белок были оформлены неправильно, отправителя груза отследить не смогли. Никто не хотел, чтобы так вышло, но инфоповод попал в новости, и авиакомпании KLM с аэропортом пришлось извиняться.

Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента. 🤓

Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму 🤤). Дэвис бодро критикует доктрину Милтона Фридмана, связывая с ней деградацию способностей публичных акционерных компаний заниматься долгосрочным планированием – и действительно, ведь нужно оптимизировать отчётность на следующий квартал. 🤓

Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации! 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

4.5K views11:43

epsilon correct

Please open Telegram to view this post

VIEW IN TELEGRAM

4.3K views11:15

epsilon correct

Сегодня DeepMind анонсировал, что автоматическая система смогла завоевать серебрянную медаль (и чуток не дотянула до золота) на IMO – самой известной международной математической олимпиаде. ☺️

Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.

Please open Telegram to view this post

VIEW IN TELEGRAM

4.3K views15:47

epsilon correct

Как вкатиться на хорошую Ph.D. программу? Вопрос, на который мне так или иначе приходится отвечать довольно часто, так что давайте я попробую написать какой-то околоуниверсальный праймер, который можно будет потом использовать как базу для обсуждения конкретных случаев. Кстати, в канале я уже рассказывал про "базовую" математику для машинного обучения и про самую важную черту хорошего рисёрчера, тут я постараюсь не повторяться и сконцентрируюсь на "зачем" и "как". Сегодня будет только "зачем", а именно я постараюсь отговорить вас поступать в аспирантуру.

Для начала давайте поговорим "зачем". Мне кажется, большинство людей, которые идут на Ph.D., сами не особенно знают, зачем они это делают, и это – одна из основных причин высокой доли людей, которые не заканчивают аспирантуру. В текущих реалиях, институт Ph.D. обладает двумя главными задачами: во-первых, производство профессоров для самоподдержания системы, и, во-вторых, погружение в специфическое "научное" мировоззрение, которое происходит в процессе проведения исследований. Первая часть должна быть довольно понятной – если хочется иметь карьеру в академической науке, нужно получить степень; со второй частью я бы ожидал больше непонимания и несогласия. Тут нам нонадобится "Против Метода" Фейерабенда, или хотя бы краткое содержание, хоть его и не стоит воспринимать слишком близко к сердцу. Я не верю, что в аспирантуре учат "научному методу" – для этого можно было бы прочитать Поппера, Куна и Лакатоса и идти заниматься наукой. Тем не менее, этого не происходит, и молодые аспиранты тратят годы на то, чтобы научиться читать и писать на общем для своей научной области языке. Именно погружение в научно-исследовательскую программу и интернализация основополагающих предпосылок ("жёсткое ядро") программы и занимает столько времени.

Из-за того, что в разных областях жёсткое ядро существенно отличается (биологи до сих пор анализируют картинки из UMAP), свежеиспечённому аспиранту трудно разговаривать на одном языке с людьми из других областей, а уж тем более с простыми смертными. В результате, доктора, которые в профессуру не пошли или не дошли зачастую кучкуются в научно-исследовательских институтах или более прикладных организациях по вкусу. Отсюда же, думаю, и ощущения снобизма в разговорах с аспирантами и докторами – их годами отучали от общения на человеческом языке, пожалейте болезных. В карьерном плане, эта несостыковка в языках существенно уменьшает спрос на таких специалистов – а, как мы знаем из базовой экономики, маленький спрос с относительно большим предложением означает относительно небольшие зарплаты. Если хочется власти и богатства, после бакалавриата стоит идти не откладывая это на 5-7 лет.

Более того, есть немаленькая вероятность, что хороших статей написать не получится по любым, иногда даже не зависящим от вас, причинам. Тяжёлый переезд, неудачный выбор темы, баги в коде, конфликт с научником или сокамерниками – почти всё, что угодно может убить личинку рисёрчера. В отличие от индустрии, где для найма достаточно просто показать, что ты умеешь работать, в академии результатом, по крайней мере у нас, в токсичном CS/ML, считаются процитированные, лучше всего опубликованные, статьи. С учётом того, что примерно 50% решений даже на лучших конференциях – это случайность, можно прикинуть шанс чистого невезения. Из-за жёсткой конкуренции за места также поднимаются стандарты на количество статей для найма. Из-за этого люди начинают писать статьи более крупными группами, ведь циферка в ашиндекс засчитывается каждому автору. В результате идеалистичным сычам-одиночкам, которые пришли заниматься наукой, в современных реалиях пробиться куда-то становится ещё сложнее.

С другой стороны, может быть весело и интересно, да!

9.6K viewsedited 13:56

epsilon correct

epsilon correct

Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B. Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌

Сегодня выпустили версию на 2.6 миллиарда параметров

https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f

1126 на арене - чуть выше GPT-3.5

Также обновили статью – можно гордиться, что я – один из ~25 core contributors. 😛

Please open Telegram to view this post

VIEW IN TELEGRAM

Gemma 2 2B Release - a google Collection

The 2.6B parameter version of Gemma 2.

12.4K viewsedited 16:08

epsilon correct

Nicholas Carlini, исследователь безопасности машинного обучения, широко известный в узких кругах тем, что со стилем ломает (и опять и ещё) защиты от adversarial attacks, выпустил большой блогпост 💪 про то, как он пользуется языковыми моделями в программировании и других повседневных задачах. В целом – вполне понятные задачи написания простого и одноразового кода, объяснение ошибок и тому подобное. Но всё-таки мне очень нравится то, что в посте нет как пустой критики, так и THIS IS HUGE – такой вот хороший use-case driven development.

Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML. 😩

Please open Telegram to view this post

VIEW IN TELEGRAM

Nicholas Carlini

Nicholas Carlini is a research scientist at Google DeepMind working at the intersection of machine learning and computer security.

4.4K views17:23

epsilon correct

После того, как у всех немного отлегло от поста о том, почему PhD в ML делать не надо, пора всё-таки написать о том, кому, как мне кажется, PhD стоит попробовать сделать. Тут стоит оговориться, что однородного опыта нет и быть не может – люди получают абсолютно разные знания и уроки, ваш опыт будет отличаться от моего – любые две картошинки в макдональдсе уникальны, you know the drill. Я бы хотел выделить несколько тем, которые, как мне кажется, делает PhD стоящим опытом, даже со всеми негативными сторонами.

Во-первых, погружение до дна в какую-то тему. Любишь поиск связных компонент в графах? Пожалуйста, перед тобой – сотня статей про именно эту задачу в десятке различных режимов – параллельном, распределённом, с графом на диске, с дифференциальной приватностью; можно заинженерить практическую систему или сделать теоретический анализ – как придумаешь, the world is your oyster. Свобода крышесносная (до первых пяти реджектов твоей статьи подряд), потихоньку учишься видеть огромное количество пробелов в нашем мире и потихоньку их заполнять. Это – максимально приятно.

Во-вторых, доступ к передовой скорлупке науки. Конечно, читать статью по (особенно невычислительной) биологии может быть больновато, но просмотреть анализ и иметь возможность самому делать выводы о качестве исследований, а не получать информацию от журналистов, изнасилованных учёными – превосходно. 👌

В-третьих, по крайней мере в нашей с вами машинке, написание статей – это не только томные думы да ~~руко~~словоблудие. На одну хорошую статью нужна целая команда из писателя, редактора, пары разных программистов, системного администратора, прикладного математика, эсэмэмщика и Бог знает кого ещё. Но их нет – придётся выкручиваться самому. Как в стартапе, только без шанса заработать. 📈

В результате даже без продолжения карьеры в науке получается не так плохо – опыт всё равно чаще всего оказывается полезен. А если получится заниматься наукой в кайф и дальше – мои поздравления! Дальше будет только сложнее. ✨

Please open Telegram to view this post

VIEW IN TELEGRAM

7.8K viewsedited 11:15

epsilon correct

Наткнулся тут в твиттере на тред, описывающий результаты статьи про моделирование “форм историй”, прямо по Воннегуту. У статьи как раз юбилей – 500 цитирований, да и тред такой радостный – должно быть что-то достойное.✨

Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер. 🏃‍♂️

Ни о какой универсальности найденных нарратианых арок по результатам данного анализа речи быть не может – PCA, применённый к траекториям броуновского движения, сходится к гармоникам Фурье. Кстати, в своё время университет Чикаго эту идею Воннегута не принял как магистрский тезис. Что-то, получается, знали.

Для пущей наглядности этот эффект для дорогих подпищеков проиллюстрируем при помощи

следующего колаба

.

Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью. 👆

P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.

Please open Telegram to view this post

VIEW IN TELEGRAM

10.8K views11:16

epsilon correct

Сегодня хочется порассуждать вслух, куда инвестировать свои силы в контексте этих ваших больших языковых моделей. В больших компаниях типа гугла всегда есть много точек входа в базовый продукт, и всегда можно поработать над тем, что важно лично тебе в текущий момент. 😛

Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера. 🤤

Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше. 👥 Из последних релизов наши друзья из Alibaba выпустили Qwen 2 в размерах 0.5B и 1.5B – достаточно, чтобы запускать на не самых продвинутых телефонах. Ещё интересно, кто сможет первым выкатить приватную тренировку LoRA-адаптеров прямо на устройстве – это должно сильно поднять качество для текстинга.

Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы 🥹 – то, что нужно для этих ваших бизнесов.

Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet. 📈

При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго 🥁, вау-эффекта от моделей поменьше ждать пока не приходится. На всякий случай – мой пост – это не анонс анонса и не слив, как любят делать наши открытые ИИ-друзья 🪖. Результаты работы, особенно в претрейне, видны публично через месяцы. Так что запасаемся терпением вместе. 😮‍💨

Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное. 🤑

Please open Telegram to view this post

VIEW IN TELEGRAM

4.0K viewsedited 11:26

epsilon correct

epsilon correct

Правильный HPO: Vizier Сегодня коллеги наканецта заопенсорсили тулсет для оптимизации гиперпараметров Vizier, который, в отличие от множества альтернатив, адекватно работает. Вот тут можно почитать блогпост о нем, вот тут можно сразу прыгнуть в гитхаб. Надеюсь…

Прошло полтора года, и наконец-то про Vizier выпустили статью!
Для тех, кто почему-то не следил за проектом полтора года 🤷‍♂️, Vizier – это внутренний сервис гугла для оптимизации гиперпараметров (и не только их) на основе гауссовских бандитов. Его кишки переписали на Jax, поэтому он быстро работает на GPU.

В опенсорсе я пользовался Nevergrad от Meta, тоже отлично работает. В статье, к сожалению, нет прямых сравнений.

Please open Telegram to view this post

VIEW IN TELEGRAM

4.2K views13:28

epsilon correct

Вчера на KDD в Барселоне наша команда провела Tutorial on Graph Reasoning with LLMs. У меня доехать не получилось, так что обойдётесь без фоточек Sagrada Familia. 😭

В туториале две практические части, для которых мы соорудили по колабу:
1. Простое запихивание графа в LLMку – подгружаем ваш граф соавторства из DBLP и спрашиваем о нём простенькие вопросы;
2. То же самое, только с дифференцируемыми софт-токенами (статья) на основе Gemma 2. Тренируется на бесплатном публичном колабе!

Слайды, как обычно, закину в комментарии. 👉

Please open Telegram to view this post

VIEW IN TELEGRAM

4.1K views13:16

epsilon correct

А сегодня на том же самом KDD представили Test of Time award за самый значительный вклад статьи десятилетней давности – её получил по совместительству мой менеджер Брайан за первую работу по нейросетевым графовым эмбеддингам DeepWalk: Online Learning of Social Representations.

🤴

Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.

Самое удивительное, что за 10 лет метод по качеству не был побит. 👌

Please open Telegram to view this post

VIEW IN TELEGRAM

9.8K viewsedited 11:26

epsilon correct

Почему собаки такие разные на вид?

В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер 🥁. Поведенчески – тоже огромное разнообразние: лабрадоры добрые, колли пасут всё, что движется, а в чихуа-хуа живёт инкарнация дьявола. 😈

На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.

На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой. 😮‍💨

C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?

Please open Telegram to view this post

VIEW IN TELEGRAM

21.7K views03:15

epsilon correct

Почему почти у всех полезных матриц маленький ранг?

В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом. 🧐

Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.

При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим. 🤪

Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.

Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да. 👍

Please open Telegram to view this post

VIEW IN TELEGRAM

13.4K viewsedited 10:44

epsilon correct

Из-за прошлого поста задался вопросом, у какого же флага самый высокий ранг. Скачал SVG флагов отсюда, сконвертировал при помощи imagemagick в png, посчитал два варианта "мягкого" ранга из нашей статьи на чёрно-белой версии флагов. Получилось интересно: stable rank явно предпочитает кресты, а RankMe, который двигает ЛеКун – сложные изображения. В общем зачёте победила Намибия, с чем её и поздравим. 💐

Please open Telegram to view this post

VIEW IN TELEGRAM

5.6K views11:23

2025/06/16 16:14:15
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>