life update: втиснулся в серединку 👥 👥 👥
спасибо, что обновили статью, а то пацаны во дворе не верили на слово
спасибо, что обновили статью, а то пацаны во дворе не верили на слово
Please open Telegram to view this post
VIEW IN TELEGRAM
STOC – ACM Symposium on Theory of Computing – одна из моих любимых конференций по теоретическому компьютерсаенсу, чтобы позалипать на результаты. В этом году помимо сборника работ авторов обязали выкладывать видео с разбором на ~20 минут. Час назад выложили плейлист на ютьюбе. Смотрим! 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
#book_review "Не конец света" / "Not the End of the World"
– Ханна Ричи, 2024
Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально.🤓
Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.
В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха🦠 и изменение климата 😎 ) написаны бодренько, но потом поезд потихоньку начинает сходить с рельс на главах про еду (вырубка леса, производство еды 🥁 , потеря биоразнообразия 👥 ) и в конце скатывается в полное фиаско на главах про загрязнение пластиком и чрезмерный вылов рыбы.
Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям.📈
В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной.0️⃣
На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад.👌
– Ханна Ричи, 2024
Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально.
Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.
В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха
Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям.
В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной.
На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Подъехал официальный блогпост и заодно ссылки на хаггингфейс спейс с модельками. Целых два часа тупили после моего анонса. 🤦♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
Gemma 2 is now available to researchers and developers
Gemma 2, our next generation of open models, is now available globally for researchers and developers.
The Unaccountability Machine: Why Big Systems Make Terrible Decisions - and How The World Lost its Mind
Dan Davies, 2024. Amazon.
#book_review
Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами.📉
В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер💥 . Никто не был виноват – авиакомпания и аэропорт следовали процедурам импорта, документы на белок были оформлены неправильно, отправителя груза отследить не смогли. Никто не хотел, чтобы так вышло, но инфоповод попал в новости, и авиакомпании KLM с аэропортом пришлось извиняться.
Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента.🤓
Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму🤤 ). Дэвис бодро критикует доктрину Милтона Фридмана, связывая с ней деградацию способностей публичных акционерных компаний заниматься долгосрочным планированием – и действительно, ведь нужно оптимизировать отчётность на следующий квартал. 🤓
Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации!👌
Dan Davies, 2024. Amazon.
#book_review
Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами.
В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер
Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента.
Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму
Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации!
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня DeepMind анонсировал, что автоматическая система смогла завоевать серебрянную медаль (и чуток не дотянула до золота) на IMO – самой известной международной математической олимпиаде. ☺️
Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.
Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.
Please open Telegram to view this post
VIEW IN TELEGRAM
Как вкатиться на хорошую Ph.D. программу? Вопрос, на который мне так или иначе приходится отвечать довольно часто, так что давайте я попробую написать какой-то околоуниверсальный праймер, который можно будет потом использовать как базу для обсуждения конкретных случаев. Кстати, в канале я уже рассказывал про "базовую" математику для машинного обучения и про самую важную черту хорошего рисёрчера, тут я постараюсь не повторяться и сконцентрируюсь на "зачем" и "как". Сегодня будет только "зачем", а именно я постараюсь отговорить вас поступать в аспирантуру.
Для начала давайте поговорим "зачем". Мне кажется, большинство людей, которые идут на Ph.D., сами не особенно знают, зачем они это делают, и это – одна из основных причин высокой доли людей, которые не заканчивают аспирантуру. В текущих реалиях, институт Ph.D. обладает двумя главными задачами: во-первых, производство профессоров для самоподдержания системы, и, во-вторых, погружение в специфическое "научное" мировоззрение, которое происходит в процессе проведения исследований. Первая часть должна быть довольно понятной – если хочется иметь карьеру в академической науке, нужно получить степень; со второй частью я бы ожидал больше непонимания и несогласия. Тут нам нонадобится "Против Метода" Фейерабенда, или хотя бы краткое содержание, хоть его и не стоит воспринимать слишком близко к сердцу. Я не верю, что в аспирантуре учат "научному методу" – для этого можно было бы прочитать Поппера, Куна и Лакатоса и идти заниматься наукой. Тем не менее, этого не происходит, и молодые аспиранты тратят годы на то, чтобы научиться читать и писать на общем для своей научной области языке. Именно погружение в научно-исследовательскую программу и интернализация основополагающих предпосылок ("жёсткое ядро") программы и занимает столько времени.
Из-за того, что в разных областях жёсткое ядро существенно отличается (биологи до сих пор анализируют картинки из UMAP), свежеиспечённому аспиранту трудно разговаривать на одном языке с людьми из других областей, а уж тем более с простыми смертными. В результате, доктора, которые в профессуру не пошли или не дошли зачастую кучкуются в научно-исследовательских институтах или более прикладных организациях по вкусу. Отсюда же, думаю, и ощущения снобизма в разговорах с аспирантами и докторами – их годами отучали от общения на человеческом языке, пожалейте болезных. В карьерном плане, эта несостыковка в языках существенно уменьшает спрос на таких специалистов – а, как мы знаем из базовой экономики, маленький спрос с относительно большим предложением означает относительно небольшие зарплаты. Если хочется власти и богатства, после бакалавриата стоит идти не откладывая это на 5-7 лет.
Более того, есть немаленькая вероятность, что хороших статей написать не получится по любым, иногда даже не зависящим от вас, причинам. Тяжёлый переезд, неудачный выбор темы, баги в коде, конфликт с научником или сокамерниками – почти всё, что угодно может убить личинку рисёрчера. В отличие от индустрии, где для найма достаточно просто показать, что ты умеешь работать, в академии результатом, по крайней мере у нас, в токсичном CS/ML, считаются процитированные, лучше всего опубликованные, статьи. С учётом того, что примерно 50% решений даже на лучших конференциях – это случайность, можно прикинуть шанс чистого невезения. Из-за жёсткой конкуренции за места также поднимаются стандарты на количество статей для найма. Из-за этого люди начинают писать статьи более крупными группами, ведь циферка в ашиндекс засчитывается каждому автору. В результате идеалистичным сычам-одиночкам, которые пришли заниматься наукой, в современных реалиях пробиться куда-то становится ещё сложнее.
С другой стороны, может быть весело и интересно, да!
Для начала давайте поговорим "зачем". Мне кажется, большинство людей, которые идут на Ph.D., сами не особенно знают, зачем они это делают, и это – одна из основных причин высокой доли людей, которые не заканчивают аспирантуру. В текущих реалиях, институт Ph.D. обладает двумя главными задачами: во-первых, производство профессоров для самоподдержания системы, и, во-вторых, погружение в специфическое "научное" мировоззрение, которое происходит в процессе проведения исследований. Первая часть должна быть довольно понятной – если хочется иметь карьеру в академической науке, нужно получить степень; со второй частью я бы ожидал больше непонимания и несогласия. Тут нам нонадобится "Против Метода" Фейерабенда, или хотя бы краткое содержание, хоть его и не стоит воспринимать слишком близко к сердцу. Я не верю, что в аспирантуре учат "научному методу" – для этого можно было бы прочитать Поппера, Куна и Лакатоса и идти заниматься наукой. Тем не менее, этого не происходит, и молодые аспиранты тратят годы на то, чтобы научиться читать и писать на общем для своей научной области языке. Именно погружение в научно-исследовательскую программу и интернализация основополагающих предпосылок ("жёсткое ядро") программы и занимает столько времени.
Из-за того, что в разных областях жёсткое ядро существенно отличается (биологи до сих пор анализируют картинки из UMAP), свежеиспечённому аспиранту трудно разговаривать на одном языке с людьми из других областей, а уж тем более с простыми смертными. В результате, доктора, которые в профессуру не пошли или не дошли зачастую кучкуются в научно-исследовательских институтах или более прикладных организациях по вкусу. Отсюда же, думаю, и ощущения снобизма в разговорах с аспирантами и докторами – их годами отучали от общения на человеческом языке, пожалейте болезных. В карьерном плане, эта несостыковка в языках существенно уменьшает спрос на таких специалистов – а, как мы знаем из базовой экономики, маленький спрос с относительно большим предложением означает относительно небольшие зарплаты. Если хочется власти и богатства, после бакалавриата стоит идти не откладывая это на 5-7 лет.
Более того, есть немаленькая вероятность, что хороших статей написать не получится по любым, иногда даже не зависящим от вас, причинам. Тяжёлый переезд, неудачный выбор темы, баги в коде, конфликт с научником или сокамерниками – почти всё, что угодно может убить личинку рисёрчера. В отличие от индустрии, где для найма достаточно просто показать, что ты умеешь работать, в академии результатом, по крайней мере у нас, в токсичном CS/ML, считаются процитированные, лучше всего опубликованные, статьи. С учётом того, что примерно 50% решений даже на лучших конференциях – это случайность, можно прикинуть шанс чистого невезения. Из-за жёсткой конкуренции за места также поднимаются стандарты на количество статей для найма. Из-за этого люди начинают писать статьи более крупными группами, ведь циферка в ашиндекс засчитывается каждому автору. В результате идеалистичным сычам-одиночкам, которые пришли заниматься наукой, в современных реалиях пробиться куда-то становится ещё сложнее.
С другой стороны, может быть весело и интересно, да!
epsilon correct
Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B. Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌
Сегодня выпустили версию на 2.6 миллиарда параметров
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors.😛
https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796a2ff2a7c76f98f
1126 на арене - чуть выше GPT-3.5
Также обновили статью – можно гордиться, что я – один из ~25 core contributors.
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
Gemma 2 2B Release - a google Collection
The 2.6B parameter version of Gemma 2.
Nicholas Carlini, исследователь безопасности машинного обучения, широко известный в узких кругах тем, что со стилем ломает (и опять и ещё) защиты от adversarial attacks, выпустил большой блогпост 💪 про то, как он пользуется языковыми моделями в программировании и других повседневных задачах. В целом – вполне понятные задачи написания простого и одноразового кода, объяснение ошибок и тому подобное. Но всё-таки мне очень нравится то, что в посте нет как пустой критики, так и THIS IS HUGE – такой вот хороший use-case driven development.
Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML.😩
Кстати, (1) у него на ICML этого года вышел часовой туториал про то, как он думает про безопасность LLMок и (2) у него в 2024 году сразу две (1, 2) лучших стати на ICML.
Please open Telegram to view this post
VIEW IN TELEGRAM
Carlini
Nicholas Carlini
Nicholas Carlini is a research scientist at Google DeepMind working at the intersection of machine learning and computer security.
После того, как у всех немного отлегло от поста о том, почему PhD в ML делать не надо, пора всё-таки написать о том, кому, как мне кажется, PhD стоит попробовать сделать. Тут стоит оговориться, что однородного опыта нет и быть не может – люди получают абсолютно разные знания и уроки, ваш опыт будет отличаться от моего – любые две картошинки в макдональдсе уникальны, you know the drill. Я бы хотел выделить несколько тем, которые, как мне кажется, делает PhD стоящим опытом, даже со всеми негативными сторонами.
Во-первых, погружение до дна в какую-то тему. Любишь поиск связных компонент в графах? Пожалуйста, перед тобой – сотня статей про именно эту задачу в десятке различных режимов – параллельном, распределённом, с графом на диске, с дифференциальной приватностью; можно заинженерить практическую систему или сделать теоретический анализ – как придумаешь, the world is your oyster. Свобода крышесносная (до первых пяти реджектов твоей статьи подряд), потихоньку учишься видеть огромное количество пробелов в нашем мире и потихоньку их заполнять. Это – максимально приятно.
Во-вторых, доступ к передовой скорлупке науки. Конечно, читать статью по (особенно невычислительной) биологии может быть больновато, но просмотреть анализ и иметь возможность самому делать выводы о качестве исследований, а не получать информацию от журналистов, изнасилованных учёными – превосходно.👌
В-третьих, по крайней мере в нашей с вами машинке, написание статей – это не только томные думы дарукословоблудие. На одну хорошую статью нужна целая команда из писателя, редактора, пары разных программистов, системного администратора, прикладного математика, эсэмэмщика и Бог знает кого ещё. Но их нет – придётся выкручиваться самому. Как в стартапе, только без шанса заработать. 📈
В результате даже без продолжения карьеры в науке получается не так плохо – опыт всё равно чаще всего оказывается полезен. А если получится заниматься наукой в кайф и дальше – мои поздравления! Дальше будет только сложнее.✨
Во-первых, погружение до дна в какую-то тему. Любишь поиск связных компонент в графах? Пожалуйста, перед тобой – сотня статей про именно эту задачу в десятке различных режимов – параллельном, распределённом, с графом на диске, с дифференциальной приватностью; можно заинженерить практическую систему или сделать теоретический анализ – как придумаешь, the world is your oyster. Свобода крышесносная (до первых пяти реджектов твоей статьи подряд), потихоньку учишься видеть огромное количество пробелов в нашем мире и потихоньку их заполнять. Это – максимально приятно.
Во-вторых, доступ к передовой скорлупке науки. Конечно, читать статью по (особенно невычислительной) биологии может быть больновато, но просмотреть анализ и иметь возможность самому делать выводы о качестве исследований, а не получать информацию от журналистов, изнасилованных учёными – превосходно.
В-третьих, по крайней мере в нашей с вами машинке, написание статей – это не только томные думы да
В результате даже без продолжения карьеры в науке получается не так плохо – опыт всё равно чаще всего оказывается полезен. А если получится заниматься наукой в кайф и дальше – мои поздравления! Дальше будет только сложнее.
Please open Telegram to view this post
VIEW IN TELEGRAM
Наткнулся тут в твиттере на тред, описывающий результаты статьи про моделирование “форм историй”, прямо по Воннегуту. У статьи как раз юбилей – 500 цитирований, да и тред такой радостный – должно быть что-то достойное.✨
Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер.🏃♂️
Ни о какой универсальности найденных нарратианых арок по результатам данного анализа речи быть не может – PCA, применённый к траекториям броуновского движения, сходится к гармоникам Фурье. Кстати, в своё время университет Чикаго эту идею Воннегута не принял как магистрский тезис. Что-то, получается, знали. Для пущей наглядности этот эффект для дорогих подпищеков проиллюстрируем при помощи следующего колаба .
Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью.👆
P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.
Учоные делают следующее – берут первую попвашуюся тулзу для анализа тональности текста и натравливают на известные книги постранично. Получают временной ряд и берут от него PCA. Получаются вот такие красивые фигуры как на иллюстрации к посту – посмотрте, полное подтверждение теории! К сожалению для всех – так делать категорически нельзя. Почему? Попробуйте подумать сами, а нетерпеливых приглащаю сразу к себе под спойлер.
Так что, дорогие подпищеки, интерпретировать результаты даже железобетонно-проверенных методов стоит с большой осторожностью.
P.S. Услышать форму барабана тоже нельзя. Как говорила мама, спектральный анализ вообще до добра не доводит.
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня хочется порассуждать вслух, куда инвестировать свои силы в контексте этих ваших больших языковых моделей. В больших компаниях типа гугла всегда есть много точек входа в базовый продукт, и всегда можно поработать над тем, что важно лично тебе в текущий момент. 😛
Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера.🤤
Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше.👥 Из последних релизов наши друзья из Alibaba выпустили Qwen 2 в размерах 0.5B и 1.5B – достаточно, чтобы запускать на не самых продвинутых телефонах. Ещё интересно, кто сможет первым выкатить приватную тренировку LoRA-адаптеров прямо на устройстве – это должно сильно поднять качество для текстинга.
Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы🥹 – то, что нужно для этих ваших бизнесов.
Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet.📈
При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго🥁 , вау-эффекта от моделей поменьше ждать пока не приходится. На всякий случай – мой пост – это не анонс анонса и не слив, как любят делать наши открытые ИИ-друзья 🪖 . Результаты работы, особенно в претрейне, видны публично через месяцы. Так что запасаемся терпением вместе. 😮💨
Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное.🤑
Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера.
Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше.
Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы
Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet.
При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго
Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное.
Please open Telegram to view this post
VIEW IN TELEGRAM
epsilon correct
Правильный HPO: Vizier Сегодня коллеги наканецта заопенсорсили тулсет для оптимизации гиперпараметров Vizier, который, в отличие от множества альтернатив, адекватно работает. Вот тут можно почитать блогпост о нем, вот тут можно сразу прыгнуть в гитхаб. Надеюсь…
Прошло полтора года, и наконец-то про Vizier выпустили статью!
Для тех, кто почему-то не следил за проектом полтора года🤷♂️ , Vizier – это внутренний сервис гугла для оптимизации гиперпараметров (и не только их) на основе гауссовских бандитов. Его кишки переписали на Jax, поэтому он быстро работает на GPU.
В опенсорсе я пользовался Nevergrad от Meta, тоже отлично работает. В статье, к сожалению, нет прямых сравнений.
Для тех, кто почему-то не следил за проектом полтора года
В опенсорсе я пользовался Nevergrad от Meta, тоже отлично работает. В статье, к сожалению, нет прямых сравнений.
Please open Telegram to view this post
VIEW IN TELEGRAM
Вчера на KDD в Барселоне наша команда провела Tutorial on Graph Reasoning with LLMs. У меня доехать не получилось, так что обойдётесь без фоточек Sagrada Familia. 😭
В туториале две практические части, для которых мы соорудили по колабу:
1. Простое запихивание графа в LLMку – подгружаем ваш граф соавторства из DBLP и спрашиваем о нём простенькие вопросы;
2. То же самое, только с дифференцируемыми софт-токенами (статья) на основе Gemma 2. Тренируется на бесплатном публичном колабе!
Слайды, как обычно, закину в комментарии.👉
В туториале две практические части, для которых мы соорудили по колабу:
1. Простое запихивание графа в LLMку – подгружаем ваш граф соавторства из DBLP и спрашиваем о нём простенькие вопросы;
2. То же самое, только с дифференцируемыми софт-токенами (статья) на основе Gemma 2. Тренируется на бесплатном публичном колабе!
Слайды, как обычно, закину в комментарии.
Please open Telegram to view this post
VIEW IN TELEGRAM
А сегодня на том же самом KDD представили Test of Time award за самый значительный вклад статьи десятилетней давности – её получил по совместительству мой менеджер Брайан за первую работу по нейросетевым графовым эмбеддингам DeepWalk: Online Learning of Social Representations. 🤴
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит.👌
Треть моей Ph.D. диссертации посвящена как раз эмбеддингам графов, так что эта награда – некоторая легитимизация нашего общего направления исследований. За всё время с Брайаном у нас написано ~15 статей и несколько патентов, многие из них – про эмбеддинги графов. Кстати, у меня не было кодинг-интервью в гугл как раз из-за того, что в моём гитхабе была довольно популярная имплементация этого метода на C++.
Самое удивительное, что за 10 лет метод по качеству не был побит.
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему собаки такие разные на вид?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер🥁 . Поведенчески – тоже огромное разнообразние: лабрадоры добрые, колли пасут всё, что движется, а в чихуа-хуа живёт инкарнация дьявола. 😈
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой.😮💨
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
В сравнении с другими видами собаки максимально разнообразны в формах, размерах и окрасах: от лысых немного тсясущихся крыс до статных спокойных коров весом в центнер
На этот вопрос отвечает исследование группы учёных, которые изучили ДНК 900+ псов. Оказывается, семью генетическими регионами можно объяснить примерно 80% всего разнообразия в формах и размерах наших любимцев. Это случилось из-за того, как эффективно начинающие Дарвины занимались искусственным отбором желаемых черт у наших домашних любимцев.
На картинке выше (интерпретация исследования от National Geographic) породы разделены на четыре кластера: волкоподобные собаки, пастушьи, охотничьи, и мастифоподобные. Интересно, что некоторые собаки, прикидывающиеся древними породами, например фараоновы собаки, по результатам генетического анализа на поверку оказались современной породой.
C более подробное интервью с авторами можно ознакомиться вот тут. Интересно, как результаты подобных исследований переносят на людей?
Please open Telegram to view this post
VIEW IN TELEGRAM
Почему почти у всех полезных матриц маленький ранг?
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом.🧐
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим.🤪
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да.👍
В нашей с вами жизни матрицы малого ранга встречаются на каждом шагу, например, в моделировании физических свойств физических систем (анализ теплопроводности или модальный анализ вибраций), в рекомендательных системах, сжатие изображений – везде, если поискать , можно найти матрицы с небольшим рангом.
Это невероятно удобно: с матрицами малого ранга можно делать абсолютно неприличные вещи – например, для матрицы n × n ранга d можно восстановить все её элементы из случайно выбрав C*n^{1.2}*r*log n значений. Понятное дело, все операции – матвеки, подсчёт нормы и всяких разложений тоже существенно ускоряются. В наших любимых LLMках матрицы малого ранга используются для тюнинга и создания адаптеров для решения разнообразных задач.
При этом, случайные Гауссовские матрицы имеют (с огромной вероятностью) полный ранг. Каким-то образом получается, что для матриц "из жизни" ранг оказывается небольшим.
Самое, наверное, известное – наш мир образуют гладкие функции (скалярные и векторные), а они порождают матрицы маленького ранга. На днях я набрёл на альтернативное объяснение (откуда украл картинку для поста): матрицы в реальном мире похожи на результат матричных уравнений Сильвестра. У таких матриц будет маленький displacement rank – он свойственен системам, где можно выбрать разные точки отсчёта. Оценки у ребят получаются довольно некрасивые (кому нравится считать числа Золотарёва?), но зато точные. Кстати, в этом нашем диплёрнинге low displacement rank matrices уже успели поприменять. Широко известные в узких кругах Albert Gu и Tri Dao тоже отметились.
Всем подписчикам желаем низкого ранга по жизни – ну, чтобы гладко всё было, да.
Please open Telegram to view this post
VIEW IN TELEGRAM
Из-за прошлого поста задался вопросом, у какого же флага самый высокий ранг. Скачал SVG флагов отсюда, сконвертировал при помощи imagemagick в png, посчитал два варианта "мягкого" ранга из нашей статьи на чёрно-белой версии флагов. Получилось интересно: stable rank явно предпочитает кресты, а RankMe, который двигает ЛеКун – сложные изображения. В общем зачёте победила Намибия, с чем её и поздравим. 💐
Please open Telegram to view this post
VIEW IN TELEGRAM