Telegram Group Search
Без громких анонсов 🚨 команда Google Scholar пару дней назад выпустила расширение, которое существенно упрощает чтение статей, не отвлекаясь на поиск референсов. Я на нём сижу уже пару месяцев, очень удобно, что такое доступно в хроме, без отдельного громоздкого приложения. Скачать можно тут. 👍
Please open Telegram to view this post
VIEW IN TELEGRAM
Дизайн собственной раскладки: метрики
Предыдущие части: экскурс в историю, общий подход, данные.

Сколько людей, столько и метрик. Я, на свой вкус, собрал лучшее 🤴 из этого мира. На картинке к посту – интерактивный анализатор от cyanophage, как по мне, один из самых достойных. Из других интересных ресурсов есть мега-документ на 180 страниц 🥁. Всего получилось ~10 комплементарных метрик. Я опишу 6 главных из них и покажу одно из слов, которые её максимизируют (в QWERTY-раскладке). Поехали! 🏄‍♂️

1. Same Finger Bigrams (SFB) – последовательное нажатие клавиш одним пальцем, особенно, когда ему приходится перескакивать через две строки. Примеры: unfunny, aluminum.

2. Pinkie / ring scissors – количество неудобных движений мизинцем и безымянным пальцами, когда мизинцу приходится тянуться вниз или наверх. Примеры: example, throwaway.

3. Skip bigram ratio – количество перескакиваний через две строки. Одна из важных метрик, потому что движение кистей рук в основном зависит от количества таких перескакиваний. Чтобы прочувствовать, попробуйте набрать service или recently.

4. Lateral stretch bigrams – количество перескакиваний для указательных и средних пальцев. Хотя указательный палец – самый мобильный, перегружать его тоже не стоит. Примеры: beginning, thinking.

5. Redirects – количество перенаправлений набора триграмм. Например, asd печатать на QWERTY очень удобно, а вот ads – нет. Примеры неприятных слов: starcraft, interstate.

6. Rolls – упрощённо, количество наборов клавиш-соседей, например, re или as. В отличие от предыдущих метрик, набор соседей – дело довольно приятное, так что его мы будем максимизировать. Примеры удобных слов: powered, remastered.

Я добавил ещё пару простых метрик вроде около-равномерной нагрузки на пальцы, чтобы решения сходились к удобным лично мне конфигурациям. В следующий раз расскажу про то, как подходил к оптимизации, а пока, ребята, не забудьте обновить liblzma. 👆
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Показалось, что в предыдущем посте я недостаточно раскрыл тему того, что вообще делает из человека хорошего рисёрчера.

На эту тему написано множество книг (и ещё больше телегам-постов), но, надеюсь, моя точка зрения кому-то приглянется. Нижеприведённые качества обычно вырабатываются у людей за Ph.D., но, как мне кажется, их можно осознанно тренировать. Как? Записывайтесь на мои курсы осознанности.

Во-первых, (этот пойнт был и в предыдущем посте, но кто ж меня читает) у всех отличных исследователей, кого я знаю, есть неутолимая тяга разбираться в предмете. Где в модели не текут градиенты? Откуда берутся артефакты на картинках? На каких примерах происходят ошибки? Сходится ли модель на игрушечных данных? Последний вопрос – мой любимый; хочется уделить ему особое внимание. Дело в том, что в машинном обучении чаще всего вот эти вот все "настоящие данные" с "ground truth"ом – это всё дикий шумный лес, за которым порой бывает сложно разглядеть, куда, собственно, надо улучшать метод. 🤔

Приведу пример из одной из моих статей. Писал я её в ковидном заточении , когда я увидел на архиве статью под названием "Mincut pooling in Graph Neural Networks" (почему-то после публикации моей статьи её переименовали в куда более модное "Spectral Clustering with Graph Neural Networks for Graph Pooling" 🤔). Я начал играться с их лоссом, но на некоторых графах он у меня не сходился. Для дебага я написал простенький генератор синтетических данных – две гауссианы и k-NN граф на их основе – такой должен хорошо кластеризоваться. Потыкав с генератором, я заметил, что на нецентрированных данных MinCut лосс из статьи не работает. После этого достаточно было разделить лосс на две компоненты и посмотреть, как они оптимизируются в процессе обучения, чтобы понять, что в их статье (шок) никакой кластеризации графа не происходит – происходит только ортогонализация фичей вершин. Это позволило мне понять, куда копать, и написать неплохую статью, которую после трёх лет страданий всё же опубликовали в JMLR. Эти эксперименты, конечно, в финальную версию статьи не прошли.

Во-вторых, это умение отделять зёрна от плевел (pop quiz: кто помнит, кто такие плевелы?) в чужих статьях. Такое вот умение читать между строк и сквозь них 🤔 – вот это утвеждение сделано потому что авторам нужно было что-то сказать или они и правда проверили все остальные альтернативы? Правда ли в этом месте нужен вот этот компонент или его ввернули ради красивой теоремы в аппендиксе? Звучит довольно очевидно, но слишком часто мне приходится разубеждать инженеров, которые вычитывают в литературе какую-нибудь неподтверждённую дрянь и кидаются её реализовывать.

Перефразируя Камю, рисёрчера делает рисёрчером в большей степени то, о чём он умалчивает, нежели то, что он пишет в статьях. Вместе с подписчиками надеемся на то, что меня отпустит с пацанскими цитатами. 🐺
Please open Telegram to view this post
VIEW IN TELEGRAM
Horace He (блог) – товарищ из команды питорча, который очень любит неожиданные микробенчмарки. На картинке – обычное матричное умножение на обычных A100, вот только почему-то для более "простых" данных вроде разных констант или нулей производительность существенно быстрее, почти на треть. Для любителей подумать 🤪 перед ответом – код для воспроизведения, а ответ – под спойлером ниже.

По заветам Данилы Багрова, правда в силе (тока). В смысле, в энергопотреблении. ⚡️ Дело в том, что транзисторы в GPU потребляют существенно больше электричества, если они меняют своё состояние. Если мы используем весь GPU на полную, с такой мощностью источник питания видеокарты не справляется, и частота снижается (троттлится), снижая скорость вычислений. Если мы забиваем матрицы нулями, это позволяет большему количеству транзисторов не менять своё состояние, увеличивая производительность. Больше деталей – в блогпосте автора.

Железо порой интереснее, чем все эти ваши новомодные нейроархитектуры. 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
#book_review "Праведный разум" – Джонатан Хайдт, 2012.
[на английском]

Почему мы не можем аргументированно спорить на политически заряженные темы? Как мы принимаем суждения о моральности тех или иных вещей?

Хайдт – профессор, хоть и этики бизнеса 🤑, но с ашиндексом, которому позавидуют светила машинного обучения. К сожалению, он – автор нескольких книг, написанных в типично-американском научпоп-стиле. Кто-то когда-то придумал, что каждую идею надо заворачивать в метафору, а потом повторять на десяти-пятнадцати примерах в течение книги – и вот тогда уж люди поймут и запомнят! "Праведный разум" – из этой серии, хоть и начинается с увлекательной истории о том, как белый привилегированный автор 🏳️‍🌈 в своё бытиё студентом узнаёт, что вообще-то есть общества с другими системами ценностей. 🧐

При этом я не могу сказать, что книга настолько плоха. Скорее, даже наоборот – беглым поиском мне не удалось найти ни одной негативной рецении! Но что-то – возможно, повторения, возможно – чрезмерные упрощения – всё-таки не даёт расслабиться и получать удовольствие ☺️. Чтобы не быть голосоловным, зафиксирую конкретную критику. Теории, представленные в книге – дескриптивные, предсказания по ним делать сложно, а вот консалтерских слайдов (или статей, тут по вкусу) наклепать – пожалуйста. Во-вторых, Хайдт выделяет несколько моральных столпов, на которых зиждется интерсубъективное понятие морали (тут всё очень по Дюркгейму, графы так и просятся). Только вот откуда они берутся? Ах, это мы объясняем в статье, а методология там – "как в лучших домах ЛондОна". Ну и считать читателей за дураков, которым надо повторять всё по нескольку раз, я повторю, неуважительно.

Короче, 3/5, дорогие подписчики, можно найти много занятий лучше. Всем поменьше повторяться. 🦯
Please open Telegram to view this post
VIEW IN TELEGRAM
Долго не получалось ничего писать, так что начинаем исправляться начиная с сейчас!

За последний месяц много чего произошло:
👉. Вчера выложили на arXiv работу про улучшение RAG с помощью миниатюрных графов знаний, которые мы считаем на лету из данных.

🚨. Сегодня выложили работу по теории трансформеров, где мы доказываем, какие (графовые, конечно) алгоритмы могут выучить трансформеры. В отличие от других статей, у нас все теоремки работают в реалистичных режимах параметров – немного слоёв небольшой ширины.

🏳️‍🌈. Нашу работу над способностями Gemini в математике показали на Google I/O. Про 91% на Hendrycks MATH порадовался даже Сундар – три года назад модели выбивали на этом бенчмарке всего 6%.

🎩. Канал зафичерили в sci_career, так что дорогим подписчикам теперь придётся иногда слушать про карьеру.

Разборы статей вас ждут на неделе. Про джеминай не получится травить анекдоты помимо официальных, а то Сундар даст по жопе. 🚨
Please open Telegram to view this post
VIEW IN TELEGRAM
Классы алгоритмической сложности для трансформеров

Сначала расскажу про более объёмную статью, которую мы выпустили на этой неделе. Мы пытаемся дать теоретические оценки того, как эффективно трансформеры решают те или иные алгоритмические задачи. Алгоритмы – это такой ключик к пониманию способностей моделей рассуждать.

Про трансформерные модели мы знаем довольно много: они Тюринг-полные – правда, при polylog-числе слоёв, а при константной глубине они ограничены классом TC0. Это всё, конечно, очень интересно 😐, но хочется изучать трансформеры в более реалистичных сценариях.

Вот тут на сцену выходим мы🤴! В статье мы анализируем девять графовых алгоритмов 👥, которые трансформеры решают в трёх разных режимах параметров. Под параметрами в статье понимаем ширину слоя m, глубину сети L, и аналог chain-of-though токенов, которые позволяют модели покряхтеть над задачкой подольше. 🤔

Внимательный подпищеки заметили 🧐, что алгоритмы мы рассматриваем только графовые. Не серчайте – это всё ради науки! Сложность графовых задач легко варьировать, к тому же, существует сильно больше классов задач, чем для операций с символьными манипуляцями.

Совсем простые задачи 😛, например, как подсчет узлов или рёбер, могут быть решены трансформерами глубины один с шириной log 𝐍. Трансформеры также могут выполнять параллельные алгоритмы - мы нашли три задачи, которые могут быть эффективно решены с помощью трансформеров глубины log 𝐍.

А ещё на графах мы можем сравнить трансформеры с графовыми нейросетями. Теоретически мы показываем случаи, где трансформерам нужно меньше вычислений для решения разных задач, и на практике показываем, как с некоторыми алгоритмическими задачами трансформеры справляются лучше GNNок. Да, практическая часть в статье тоже весёлая – мы попробовали посравнивать трансформеры, натренированные для конкретной задачи с файнтьюненными LLMками! А получилось – читать продолжение в источнике…

Статья получилась жирная 🥁 на теоремы и эмпирику, но, надеюсь, кому-нибудь да понравится.
Please open Telegram to view this post
VIEW IN TELEGRAM
G-RAG: готовим графы знаний правильно

Вторая статья, вышедшая на той неделе – про retrieval-augmented generation (RAG). Конечно же, со вкусом графов – куда ж без них?

RAG – это такой лейкопластырь, которым мы залепливаем проблему контекста в языковых моделях. Поиск мы умеем делать довольно неплохо, поэтому давайте-ка прикрутим поиск к LLMкам и будем всем счастье – ну, то есть релевантные ответы, актуальная информация, вот это вот всё.

При этом всём, information retrieval (IR), заточенный на людей, для LLMок подойдёт как минимум неидеально: люди читают первые пару заголовков, а LLMки могут прожевать десяток-другой статей (если не Gemini 1.5 с миллионой длиной контекста, конечно).

В IR популярен подход с реранкингом, когда мы простой моделью достаём какое-то количество наиболее релевантных документов, и потом более сложной моделью их ранжируем заново. В нашем случае, хочется, чтобы LLMка увидела разнообразные факты про запрос юзера в наиболее релевантных документах. С этим нам помогут графы знаний.

Тут нужно лирическое отступление на тему графов знаний. Я эту дедовскую 👴 идею про идеально точное и полное описание сущностей отрицаю всей душой и сердцем. Ни у кого в мире не получилось построить корректно работающий граф знаний, и полагаться на одну статическую структуру для такой динамической задачи, как вопросы в свободной форме – тотальный харам. Поэтому вместо статического графа у нас динамический, который мы на этапе запроса строим по документам, которые наш ретривер вытащил на первом этапе. Это можно делать очень быстро, потому что графы по каждому документу мы можем посчитать заранее, а на этапе запроса их слепить вместе. ☺️

Этот граф мы преобразуем в граф над документами, и уже на этом графе делаем быстрый инференс графовой сетки, которая и выберет финальные документы для LLMки. Получился такой прототип для LLM-поисковика. Получившийся пайплайн выбивает существенно выше по бенчмаркам, чем существующие решения, особенно плохи чистые LLMки без RAGов. Главное в этих делах – не переесть камней.
Please open Telegram to view this post
VIEW IN TELEGRAM
Гугл сколар не прислал мне поздравительного письма, как другим людям, но тыща человек, которым понравился мой ресёрч – это всё-таки приятно. Отдельно приятно, что довольно много цитирований "по сути" – когда сравниваются с твоим методом, крутят ручками и всё такое. Смотреть такое можно в семантиксколаре. Ну и да, всё ещё много чего делаю своими ручками, пока без статей с залётом в последние авторы, хотя и это когда-нибудь изменится.

Надо сделать тортик. 🥁
Please open Telegram to view this post
VIEW IN TELEGRAM
Test of Time: A Benchmark for Evaluating LLMs on Temporal Reasoning

Новый день, новая статья. На этот раз – бенчмарк. Те, кто трогал руками ЛЛМки знают, что со временем у них большие проблемы – всё-таки, модели текстовые, и не очень понимают, как это наше время вообще работает. 🤤

Существует несколько работ, которые меряют способности ЛЛМок рассуждать во времени на каких-нибудь реальных фактах (чаще всего из Wikidata), но так мы не можем понять, откуда пришёл правильный ответ – из памяти или при помощи рассуждений. Пример на картинке выше – ЛЛМка корректно отвечает про футбольного тренера, но с треском проваливается, если в той же задаче заменить сущности на анонимизированные айдишники.

На нашем бенчмарке Gemini 1.5 Pro обошёл GPT-4 почти во всех категориях. Может, модель всё-таки хорошая? 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
life update: втиснулся в серединку 👥👥👥

спасибо, что обновили статью, а то пацаны во дворе не верили на слово
Please open Telegram to view this post
VIEW IN TELEGRAM
STOC – ACM Symposium on Theory of Computing – одна из моих любимых конференций по теоретическому компьютерсаенсу, чтобы позалипать на результаты. В этом году помимо сборника работ авторов обязали выкладывать видео с разбором на ~20 минут. Час назад выложили плейлист на ютьюбе. Смотрим! 🧐
Please open Telegram to view this post
VIEW IN TELEGRAM
#book_review "Не конец света" / "Not the End of the World"
– Ханна Ричи, 2024

Что-то потянуло меня на энваерменталистику; пора заканчивать. И так нормально. 🤓

Я начал читать эту книгу из-за упоминания у Билла Гейтса – обычно рекомендации там достойные. Как оказалось, не всегда. Ханна Ричи – лид-датасаентист в небезызвестном портале Our World In Data, который публикует красивые графики по разнообразным вопросам от качества воздуха до количества людей с депрессией. OWiD занимается таким дата-журнализмом, сводя и красиво рисуя данные из чужих исследований.

В книге автор презентует 7 ключевых экологических проблем и пытается подсветить при помощи анализа популярных газетных фактоидов, что, вообще говоря, в мире с экологией не всё так уж и плохо. В чём-то, конечно, плохо, но вообще неплохо. Или как-то так. Первые три главы (sustainability, загрязнение воздуха 🦠 и изменение климата 😎) написаны бодренько, но потом поезд потихоньку начинает сходить с рельс на главах про еду (вырубка леса, производство еды 🥁, потеря биоразнообразия 👥) и в конце скатывается в полное фиаско на главах про загрязнение пластиком и чрезмерный вылов рыбы.

Попытаюсь объяснить свою претензию, которую лучше всего видно на контрасте с книгой Вацлава Смила, о которой я писал на канале. Если Смил – это такой учёный товарищ, (кто-то бы сказал, аутистично) увлечённый технической стороной вопроса, то для Ричи экология – это какая-то тема для самопиара. Посыл книги в отношении политической экологии можно описать как "ну в целом всё норм, делайте что-нибудь как-нибудь, всё будет классно, главное делайте". Очень удобная позиция, чтобы продавать свои выступления компаниям-загрязнителям. 📈

В конце автор меня таки добила своими рекомендациями эффективного альтруизма. Так что из довольно бестолковой книги повышу её оценку до активно-вредоносной. 0️⃣

На радостях от того, что она закончилась, бахнул треть следующей в очереди книги. Кстати, если у вас есть какие-то рекомендации, скидывайте в комментарии – я всегда буду рад. 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
Поработал тут на днях над Gemma 2 27B, должно было получиться на уровне LLaMA 3 70B.

Ссылки на техрепорт и кэггл прилагаю. Бенчмарки в треде. 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
Подъехал официальный блогпост и заодно ссылки на хаггингфейс спейс с модельками. Целых два часа тупили после моего анонса. 🤦‍♂️
Please open Telegram to view this post
VIEW IN TELEGRAM
The Unaccountability Machine: Why Big Systems Make Terrible Decisions - and How The World Lost its Mind
Dan Davies, 2024. Amazon.
#book_review

Все знают отупляющее чувство беспомощности, когда пытаешься обратиться в техподдержку или пообщаться с агентами колл-центра. В большинстве случаев, они ничего не решают; по сути, говоришь ты с методичкой компании, и в любой непонятной ситуации – "простите, мы не можем вам больше помочь". Эта книга разбирает, как мы докатились до такого количества "провалов ответственности" (accountability sink) во взаимодействии с корпорацими и государственными структурами. 📉

В апреле 1999 года сотрудники аэропорта Схипхол в Амстердаме пропустили 440 белок через индустриальный шредер 💥. Никто не был виноват – авиакомпания и аэропорт следовали процедурам импорта, документы на белок были оформлены неправильно, отправителя груза отследить не смогли. Никто не хотел, чтобы так вышло, но инфоповод попал в новости, и авиакомпании KLM с аэропортом пришлось извиняться.

Как получилось так, что у решения измельчить четверть тонны белок не было ответственого человека? Решение по политике уничножения животных было принято в министерстве сельского хозяйства – подразумевалось, что уничтожение животных будет чрезвычайно редкой процедурой. При этом у работников авиакомпании не было механизма обжалования решения государственного органа. Так и случилось Схипхолское беличье фиаско, которое вошло в анналы менеджмента. 🤓

Дэн Дэвис пишет про провалы ответственности с точки зрения управленческой кибернетики, придуманной Стаффордом Биром. В книге переплетаются биографический анализ жизни Бира с введением в модель жизнеспособной системы (viable system model, вы только посмотрите на эту диаграмму 🤤). Дэвис бодро критикует доктрину Милтона Фридмана, связывая с ней деградацию способностей публичных акционерных компаний заниматься долгосрочным планированием – и действительно, ведь нужно оптимизировать отчётность на следующий квартал. 🤓

Мне тяжело описать всё, о чём пишет Дэвис на протяжении почти трёхсот страниц книги – да и не нужно. Если вы незнакомы с управленческой кибернетикой, интересуетесь, почему популисты стабильно приходят к власти по всему миру последний десяток лет, забыли, как экономическая теория объясняет расходы на рекламу, или просто переживаете за белок – книгу прочитать однозначно стоит. Помимо всего этого разнообразия, к нашему с вами любимому машинному обучению кибернетика отлично подходит – не стоит делать систему классификации белок без возможности эскалации решений. Мои глубочайшие рекомендации! 👌
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Сегодня DeepMind анонсировал, что автоматическая система смогла завоевать серебрянную медаль (и чуток не дотянула до золота) на IMO – самой известной международной математической олимпиаде. ☺️

Я помогал ребятам с данными на Lean и с базовой математической моделью, базирующейся на Gemini 1.5.
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/03/10 20:48:26
Back to Top
HTML Embed Code: