Telegram Group Search
​​OpenAI: Reasoning best practices

У OpenAI столько моделей, что они публикуют уже не первый гайд о том, какие модели для каких случаев использовать. На этот раз речь об использовании reasoning (o1, o3-mini) vs GPT. Кстати, интересно, что они протипопоставляют o1 и GPT архитектуру, будто у o1 другой подход.

https://platform.openai.com/docs/guides/reasoning-best-practices

Если по сути:
• Если нужно быстрее/дешевле или задачи чётко сформулированы - GPT
• Если нужно качество и достоверность или умение решать сложные проблемы - o1

В целом это довольно очевидно, но дальше показывают красивую картинку того, как чат-бот техподдержки использует микс подходов:
• o1 обрабатывает базу данных компании для общего понимания
• GPT подготавливает конкретные действия по запросу пользователей
• o3-mini валидирует эти предложенные действия

Ну и ещё ряд примеров, когда лучше использовать o1: постановка задачи нечёткая, найти конкретную информацию в большом объёме данных, выстроить причинно-следственные связи и обнаружить зависимости, планирование шагов выполнения задачи, более качественный анализ информации на изображениях (графики, схемы и прочее), ревью кода, оценка качества работы других моделей.

#datascience
​​GitTok – TikTok but for interesting GitHub repos

Если вам хочется прокрастинировать, но при этом иметь красивую отмазку, вот вам идея: Gittok

https://gittok.dev/
​​В топовых AI-компаниях около половины сотрудников работает меньше 4 лет до смены работы

https://x.com/swyx/status/1892684773891375125/photo/1

На днях Anthropic делал презентацию и я нашёл один интересный слайд: какова доля сотрудников, продолжающих работать в компаниях через N лет.

Видно, что уже за 3 года большинство из этих компаний теряет треть-половину людей. Наверное это и неудивительно - уже давно айтишникам рекомендуется менять работу каждые 2-3 года для повышения зарплаты (особенно, если речь идёт не про лидов/менеджеров). Наверняка всем работающих в этих компаниях постоянно приходят щедрые предложения.
​​SigLIP 2: Multilingual Vision-Language Encoders with Improved Semantic Understanding, Localization, and Dense Features

Появилась новая версия SigLIP, multilingual vision-language encoders, с кучей улучшений: captioning-based pretraining, self-supervised learning (self-distillation, masked prediction) и online data curation. Получили улучшения везде где только можно: zero-shot classification, image-text retrieval задачи локализации и dense prediction. Плюс, модели поддерживают разные разрешения (а не одно фиксированное).

Доступны веса моделей четырёх разных размеров - на любой вкус.

Paper
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Длинный контекст vs RAG"

Я часто вижу обсуждения того, в чём разница между моделью с большим контекстом и использованием RAG. И вот на днях я увидел пост на reddit с отличным примером.

Автор поста взял "Alice in Wonderland" и добавил в текст рандомные ошибки. Потом загрузил в ChatGPT и в Claude с просьбой найти что не так.

У Claude контекст 200к токенов - модель успешно нашла косяки.

У ChatGPT Plus (o3-mini-high) контекст 32к токенов - модель не нашла ошибок. Автор поста считает, что дело в том, что RAG ищет релевантные куски текста по схожести между промптом и куском текста. Поскольку в самом промпте не было примеров ошибок и кейвордов, ничего и не нашлось. В итоге модель просто выдала довольно общий ответ.

#datascience
​​Claude 3.7 Sonnet and Claude Code

https://www.anthropic.com/news/claude-3-7-sonnet

Теперь и Claude обзавелась reasoning. Метрики очень приятные. Sonnet и раньше казался лучше всех конкурентов в плане написания кода, а теперь новый прогресс.

Плюс появился Claude Code - новый продукт для написания кода, но желающих оказалось столько, что надо в waitlist записываться. Жду доступа.

Состояние индустрии выглядит примерно так:
Ужасы поиска работы от Mimansa Jaiswal

Сегодня в твиттере я увидел весьма интересный тред об опыте поиска работы прошлой осенью от Mimansa Jaiswal. У неё есть PhD в Computer Science, опыт работы стажёром в Facebook AI, Allen и год опыта работы в ещё одной компании. Плюс 10+ опубликованных статей (часть во времена BERT, часто в настоящее время).

И вот она рассказывает, как осенью 2024 искала работу - подавалась в 200 компаний, было ~100 собеседований. Текст очень интересный - про подходы к поиску работы, про различия между стартапами и BigTech и многое другое.

Вот некоторые интересные моменты:

Общее:
• Искала работу связанную с ресерчем - общие применения LLM или работа над SOTA. Чисто инженерные позиции или разработка продуктов типа чат-ботов её не интересовали. Хотелось work-life balance и работа в Seattle или сравнимой локации.
• Основные способы поиска работы: подаваться через сайты компаний напрямую, писать рекрутёрам и hiring manager в LinkedIn, добывать рефералы
• Полно мини хоррор-историй о том, какие бывают общения с компаниями

Стартапы:
• Процессы собеседований сильно разнятся между компаниями. Из необычного: некоторые хотели проводить собеседования при личной стрече (не по созвону), некоторые хотели, чтобы кандидат несколько дней проработал у них (за оплату, конечно) как мини-триал вместо собеседований.
• Даже в таких молодых стартапах обычно было 5-6 раундов собеседований.
• Как можно ожидать, многие стартапы сразу озвучивали ожидания работать 6/7 дней в неделю или 12 часов в день.
• Нередко название позиции намекает на ресерч, а по факту оказывается, что нужна инженерная работа.
• Часто компании прекращают общение между этапами собеседований и перестают отвечать
• Стартапы обычно предлагают 150-250k$ gross в год и 0.2%–0.5% equity.

Unicorns (Anthropic, OpenAI, Scale):
• Дикое количество раундов у Anthropic - 10
• Не было раундов leetcode, часто можно было использовать дополнительные материалы (но без чат-ботов)

BigTech:
• Обычно процесс собеседований идёт 1.5-2.5 месяцев
• В Apple было... 12 раундов, у остальных компаний обычно около 6 +/- 2
• Процессы собесов были прозрачные, интервьюверы были профессиональными
• Некоторые компании всё-таки пропадали посередине общения
• В среднем компании предлагают 350-430k$ gross в год с учётом всех бонусов

Материалы для подготовки

#datascience
Claude Plays Pokemon

Если вам хочется как AI захватывает мир, то есть как Claude пытается играть в Pokemon - на Twitch идёт постоянная трансляция https://www.twitch.tv/claudeplayspokemon

На это бывает больно смотреть. Например, я увидел прекрасный момент, когда модель посреди боя сменила полуздорового покемона, на покемона с очень низким здоровьем... которого противник, конечно, сразу добил.

Дополнительный плюс - возможность "наблюдать за наблюдающими". В комментах идёт активное обсуждение происходящего :)
​​Firefox и приватность

В последние дни в интернете идёт бурное обсуждение изменённых политик приватности от Firefox.

https://blog.mozilla.org/en/products/firefox/firefox-news/firefox-terms-of-use/

Среди общих споров есть несколько моментов, которые сложно интепретировать позитивно.

В коде bedrock было следующее изменение:

В FAQ был вопрос "Does Firefox sell your personal data?" с ответом "Nope. Never have, never will. And we protect you from many of the advertisers who do. Firefox products are designed to protect your privacy. That’s a promise. ". Это было удалено из FAQ.
Справедливости ради, в некоторых других местах эта фраза осталась.

Они опубликовали обновление политики privacy.
Среди самого странного:
> You give Mozilla the rights necessary to operate Firefox. This includes processing your data as we describe in the Firefox Privacy Notice. It also includes a nonexclusive, royalty-free, worldwide license for the purpose of doing as you request with the content you input in Firefox. This does not give Mozilla any ownership in that content.
То есть браузер получает полный доступ ко всему, что вы вводите в него - тексты, пароли и прочее.

А здесь написано "You may not use any of Mozilla’s services to Upload, download, transmit, display, or grant access to content that includes graphic depictions of sexuality or violence", что, например, по сути запрещает смотреть порно 😁 К этому же можно отнести любые видео с насилием, типа съёмок войн, задержания преступников и так далее.

Здесь и тут идут бурные обсуждения.

На фоне этого скандала, Mozilla попыталась оправдаться:
> We’ve seen a little confusion about the language regarding licenses, so we want to clear that up. We need a license to allow us to make some of the basic functionality of Firefox possible. Without it, we couldn’t use information typed into Firefox, for example. It does NOT give us ownership of your data or a right to use it for anything other than what is described in the Privacy Notice.

Но это всё равно неубедительно. Плюс, они по факту подтверждают, что будут использовать всю введённую информацию.
​​NeoBERT: A Next-Generation BERT

Ещё недавно я писал обзор на ModernBert, а теперь есть новое улучшение BERT - NeoBERT. Насыпали больше данных (600B токенов в датасете), увеличили размер модели, докинули кучу годных улучшений архитектуры и тренировки, получили хорошие результаты на GLUE, но, что более интересно, отличные результаты на MTEB. Понятно, что в топ лидерборда не вошли, но обгоняют многие модели, которые больше по размерам. Выглядит интересно.

Paper
Code

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Два года изучения иностранных языков

Пару лет назад я публиковал блогпост о том, как изучаю иностранные языки. Теперь я решил написать новую версию. Частично о прогрессе я уже писал в этом канале, теперь будет более полная картина.

Испанский.
Языковые встречи - это было самое интересное и полезное. Общался с людьми из самых разных стран, приобрёл несколько знакомых, с которыми поддерживали общение пару лет.
Играл в RPG на испанском, перевод делал через screenshot + DeepL OCR, работает отлично.
Как я уже писал, я люблю использовать подход Listening-Reading: слушать аудио-книгу на изучаемом языке и одновременно читать на известном. Так я проработал одну фентези книгу на 46 часов аудио.
Потом я читал много книг, в сумме набралось на 4.5-5млн слов :) Включая один бесконечный фанфик по покемонам на 2.2млн.

Немецкий.
В целом я делал подобные же вещи. С помощью Listening-Reading прослушал книги на 250 часов. Прочитал уже где-то 12 книг.

Японский.
Долго и упорно учил слова, грамматику и иероглифы. Прочитал несколько учебных новелл на сайте с подробным разбором грамматики. И с большим трудом одолел первый том "Волчица и пряности".

Подробности можно прочитать в блогпосте:
Блог
Medium

#languages
​​Trimodal Nature of Tech Compensation in the US, UK and India

Pragmatic Engineer уже несколько раз постил вариции своего знаменитого поста The Trimodal Nature of Software Engineering Salaries in the Netherlands and Europe

В этот раз пост написан вместе с levels.fyi, что придаёт ему дополнительный вес.

В целом интересно, вот только мне кажется (и не только мне, на реддите тоже заметили), что основная мысль (про тримодальность) притянута за уши: ну нет там тримодальности на графиках, только бимодальность. Ещё одна проблема - в статистику попали раздутые зарплаты 2022 года (когда компании активно нанимали, платили много, стоки росли). Но с этим ничего не поделать.

В остальном неплохо. Можно смотреть на графики и завидовать, ну или знать к чему можно стремиться.

Сам блогпост.

#datascience
​​Я поверю в AGI не тогда, когда LLM будут с первого раза писать идеальный код, а когда они будут в страданиях писать ужасный код и добавлять такие комментарии, ибо другого выхода не было
​​Large Language Diffusion Models

LLaDA – это альтернатива autoregressive models для large LLMs, основанная на diffusion model. Вместо последовательного предсказания токенов модель использует маскирование и восстановление текста (как диффузионные модели). Учится в два этапа: pre-training и SFT.

Показывает приличные метрики на разных задачах и успешно справляется с reversal curse (когда модель натренированная на "а - это б", не понимает, что "б - это а").

Это довольно интересный эксперимент, который показывает, что diffusion models могут быть жизнеспособной альтернативой ARMs для будущих LLMs.

Paper
Code
Project

Мои обзоры:
Personal blog
Medium
Linkedin Pulse

#paperreview
​​Alternative AGI timeline
​​Baidu: ERNIE 4.5 & X1. Веса в открытом доступе в июне

Когда-то давно, в 2019 года (прям седая древность по меркам современного NLP, ага) вышла первая версия ERNIE.

А теперь китайцы заявили о самой новой версии. Ernie 4.5 работает на уровне ChatGPT 4.5. Причём в чате бесплатно, а по API в 100 раз дешевле, чем chatgpt 🙈

А самое главное - к 30 июня обещают выложить веса в открытый доступ.

#datascience
​​Чувствуешь себя старым, когда видишь новое поколение "AI-щиков", которые не знают о модели BERT 🙈👴

https://www.reddit.com/r/singularity/comments/1jcbpnk/baidu_releases_ernie_45_x1_half_the_price_of/
Audio Flamingo 2: An Audio-Language Model with Long-Audio Understanding and Expert Reasoning Abilities

Audio Flamingo 2 - статья от NVIDIA о новой SOTA Audio-Language модели. Сделали свою архитектуру с кастомным CLAP, тренировку в 3 этапа и натренировали на специально собранном большом датасете. Моделька работает прям значительно лучше, чем предыдущие топовые модели. И всего на размере в 3B. Выглядит как годная работа. Особенно интересно то, что по образу и подобию R1, o1 и прочих reasoning моделей, датасет как раз собран так, чтобы заставить модель думать - похоже это первое такое для audio-language моделей.

Из грустного - на одном из графиков видно, что разницы в качестве между 3B и 7B практически нет. Похоже, что скейлинг для такого подхода не работает. Или нужно что-то другое.

Paper
Code
Project

Мои обзоры:
Personal blog: https://andlukyane.com/blog/paper-review-audio-flamingo-2
Medium
Linkedin Pulse

#paperreview
OpenAI vs the gorilla dataset

Какие только "издевательства" над чат-ботами я не видел. И вот подвезли ещё одно.

Есть один интересный датасет с данными по полу, BMI и количеству пройденных шагов в день. Этот датасет показали двум группам студентов. Одним предложили подумать о данных и дали три вопроса для затравки, другим просто предложили подумать о данных. Оказалось, что вторая группа со значительной вероятностью находила изюминку в данных... то, что график данных представлял из себя гориллу!

Так вот, один любопытный человек попробовал повторить эксперимент с ChatGPT. Дал ему данные и попросил проанализировать. Бот даже выдал график с гориллой, но не осознал, что с графиком что-то необычное.
Наводящие вопросы немного помогли, но не совсем.

Забавный эксперимент.
У меня лишь два вопроса: какой датасет использовал автор блогпоста (ибо про датасет есть статья, но сам датасет не опубликован) и какую версию ChatGPT он пробовал (вполне возможно, что o1/4.5 уже могут всё понять).

https://koaning.io/posts/openai-vs-the-gorilla-dataset/

#datascience
2025/06/26 07:42:18
Back to Top
HTML Embed Code: