Forwarded from gonzo-обзоры ML статей
AI Scientist-v2 от Sakana (первую версию упоминали тут) создал статью, которая прошла пир ревью на воркшоп ICLR.
https://sakana.ai/ai-scientist-first-publication/
We looked at the generated papers and submitted those we thought were the top 3 (factoring in diversity and quality—We conducted our own detailed analysis of the 3 papers, please read on in our analysis section). Of the 3 papers submitted, two papers did not meet the bar for acceptance. One paper received an average score of 6.25, ranking approximately 45% of all submissions. These scores are higher than many other accepted human-written papers at the workshop, placing the paper above the average acceptance threshold. Specifically, the scores were:
* Rating: 6: Marginally above acceptance threshold
* Rating: 7: Good paper, accept
* Rating: 6: Marginally above acceptance threshold
* Rating: 6: Marginally above acceptance threshold
Ну, можнобыло смеяться над ошибками и косяками ранних моделей, можно и продолжать это делать, но тренд неостановим.
https://sakana.ai/ai-scientist-first-publication/
We looked at the generated papers and submitted those we thought were the top 3 (factoring in diversity and quality—We conducted our own detailed analysis of the 3 papers, please read on in our analysis section). Of the 3 papers submitted, two papers did not meet the bar for acceptance. One paper received an average score of 6.25, ranking approximately 45% of all submissions. These scores are higher than many other accepted human-written papers at the workshop, placing the paper above the average acceptance threshold. Specifically, the scores were:
* Rating: 6: Marginally above acceptance threshold
* Rating: 7: Good paper, accept
* Rating: 6: Marginally above acceptance threshold
* Rating: 6: Marginally above acceptance threshold
Ну, можно
sakana.ai
Sakana AI
The AI Scientist Generates its First Peer-Reviewed Scientific Publication
Forwarded from Denis Sexy IT 🤖
Новый Gemini Flash 2.0 теперь умеет редактировать картинки текстом – видимо OpenAI правда эту же фичу скоро докатит
Я поигрался и такие выводы: пока она галлюцинирует и качество картинок на выходе не очень, но это временно и верное направление исследований – не очень понимаю что будет делать Adobe с фотошопом через пару лет😮
Поиграться можно тут выбрав
Оно умеет:
– реставрировать фото (немного)
– колоризировать (пока плохо)
– копировать текстуры на объекты
– оно пока не умеет переводить картинки, и часто само не знает с чем оно работает – с текстом или картинкой, часто путается
– увеличивать картинки оно пока не может нормально
– оно умеет продолжать последовательность картинок и даже сохранять внешность персонажа
– Оно умеет неплохо редактировать общий муд сцены
В общем, очень клевое направление – Google AI молодцы
Я поигрался и такие выводы: пока она галлюцинирует и качество картинок на выходе не очень, но это временно и верное направление исследований – не очень понимаю что будет делать Adobe с фотошопом через пару лет
Поиграться можно тут выбрав
Gemini 2.0 Flash experimental
(это бесплатно)Оно умеет:
– реставрировать фото (немного)
– колоризировать (пока плохо)
– копировать текстуры на объекты
– оно пока не умеет переводить картинки, и часто само не знает с чем оно работает – с текстом или картинкой, часто путается
– увеличивать картинки оно пока не может нормально
– оно умеет продолжать последовательность картинок и даже сохранять внешность персонажа
– Оно умеет неплохо редактировать общий муд сцены
В общем, очень клевое направление – Google AI молодцы
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
https://blog.google/technology/developers/gemma-3/
https://cohere.com/blog/command-a
https://allenai.org/blog/olmo2-32B
Command A по первым тестам так себе, от OLMO в принципе не жду хорошего (она всё равно не про качество), а вот Gemma 🔥🔥🔥
Тюнить Джемму не тороплюсь, там всё равно в Unsloth не покладая рук исправляют баги, да и может и не надо её тюнить.
С запуском в VLLM тоже есть проблемы, судя по тикетам, да и на OpenRouter пока только один провайдер (его и использую).
Оценки на ПингПонге будут завтра.
https://cohere.com/blog/command-a
https://allenai.org/blog/olmo2-32B
Command A по первым тестам так себе, от OLMO в принципе не жду хорошего (она всё равно не про качество), а вот Gemma 🔥🔥🔥
Тюнить Джемму не тороплюсь, там всё равно в Unsloth не покладая рук исправляют баги, да и может и не надо её тюнить.
С запуском в VLLM тоже есть проблемы, судя по тикетам, да и на OpenRouter пока только один провайдер (его и использую).
Оценки на ПингПонге будут завтра.
Как же у меня горит на o3-mini. Знаете, что объединяет все запуски со скриншотов? Все метрики там нарисованные.
Агенту поступает на вход задача воспроизвести эксперимент. И он такой "I will now simulate the complete experimental procedure as described". То есть не проведу эксперименты, а смоделирую. В голове, то есть (или что там у него вместо головы). Мысленные эксперименты, ага.
Агенту поступает на вход задача воспроизвести эксперимент. И он такой "I will now simulate the complete experimental procedure as described". То есть не проведу эксперименты, а смоделирую. В голове, то есть (или что там у него вместо головы). Мысленные эксперименты, ага.
Пару дней назад я думал, что вот сейчас решу задачу и забабахаю пост про это в канал. И таких моментов было несколько. Но знаете что? До сих пор ни одна модель не справилась. Я пробовал o3-mini, o1, Sonnet 3.7, Sonnet 3.5, последнюю Гемму. Ничего не работает.
Задача-то в сущности очень простая: сделать то, что я сделал вот в этом посте. Воспроизвести маленький эксперимент на игрушечных графах на базе существующей статьи. Но раз за разом, раз за разом у моделей ничего не получается. Топ ошибок:
- Ничего не делать и просто выдать рандомные чиселки (см. пост выше). А вдруг прокатит?
- Облажаться со структурой графов различными способами: 4 вершины в пути вместо 5, пути не из центра, повторяющиеся значения в вершинах, внезапные дополнительные ветки, 7 рёбер вместо 8. Да они исполняют тысячи способов облажаться, о которых я даже подумать не мог и не могу😣
- Не открывать статью и взять гиперпараметры с потолка. Ну а что? В промпте же не написано, что нужно взять гиперпараметры из статьи? ИЛИ НАПИСАНО?
- Накодить бесконечные циклы. Вот это моё самое любимое, потому что никак не отлавливаемое и тратящее деньги (потому что арендованное железо). Я уже сделал глобальный таймер на 12 часов, плюс думаю дать моделям возможность самим ставить таймеры на команды.
В итоге из промпта на 3 предложения выросла огромная простыня:
Но оно всё ещё не работает и фейлится в абсолютно неожиданных местах! Я продолжаю отлаживать промпты и инструменты, но уже стало немного грустно.
Задача-то в сущности очень простая: сделать то, что я сделал вот в этом посте. Воспроизвести маленький эксперимент на игрушечных графах на базе существующей статьи. Но раз за разом, раз за разом у моделей ничего не получается. Топ ошибок:
- Ничего не делать и просто выдать рандомные чиселки (см. пост выше). А вдруг прокатит?
- Облажаться со структурой графов различными способами: 4 вершины в пути вместо 5, пути не из центра, повторяющиеся значения в вершинах, внезапные дополнительные ветки, 7 рёбер вместо 8. Да они исполняют тысячи способов облажаться, о которых я даже подумать не мог и не могу
- Не открывать статью и взять гиперпараметры с потолка. Ну а что? В промпте же не написано, что нужно взять гиперпараметры из статьи? ИЛИ НАПИСАНО?
- Накодить бесконечные циклы. Вот это моё самое любимое, потому что никак не отлавливаемое и тратящее деньги (потому что арендованное железо). Я уже сделал глобальный таймер на 12 часов, плюс думаю дать моделям возможность самим ставить таймеры на команды.
В итоге из промпта на 3 предложения выросла огромная простыня:
There is a paper: 'The pitfalls of next-token prediction'. The task from there is to learn a path from a central node to a leaf node in a star-like graph with one central node and many branches of the same length. Reproduce the experiment from this paper with directed G2,5 graphs (2 branches, path length is 5). Train GPT-2 from scratch in two settings: 1) direct autoregressive training 2) autoregressive training on the reverse paths (when the graph is the same, but the path is written from leaf to center).
Input example (list of directed edges + central and leaf nodes): '5 7 | 6 1 | 7 4 | 1 8 | 6 5 | 4 0 | 2 3 | 8 2 <sep1> 6 3'. The central node is 6, and the leaf node is 3. Central and leaf nodes are a part of the input after <sep1>. Output is '6 1 8 2 3', and in case of a reverese path it is '3 2 8 1 6'. The graph has 2 branches, 6 -> 1 -> 8 -> 2 -> 3 and 6 -> 5 -> 7 -> 4 -> 0, and only one of them leads to the target leaf node. So the full sample is: '5 7 | 6 1 | 7 4 | 1 8 | 6 5 | 4 0 | 2 3 | 8 2 <sep1> 6 3 <sep2> 3 2 8 1 6' in the case of the reverse path. Use 51 unque node values (0-50). Check that:
1) generation scripts produce the provided format of samples
2) the number of edges is 8
3) the central and leaf nodes are provided in the input
4) node values are unique across all 9 nodes
5) path length is 5
6) there are two pathes from the central node
7) path is from a center to one of the two final leaves
Use custom tokenization where is node value is a token.
Train on 50000 samples, validate on 500 samples, run at least 20 epochs. Report losses (only for path completion after <sep2>) of two models as a JSON in a following format: {"direct_eval_loss": ..., "reverse_eval_loss": ...}.
Use the same experiment hyperparameters (learning rate, dropout, hidden size) as in the paper!
Но оно всё ещё не работает и фейлится в абсолютно неожиданных местах! Я продолжаю отлаживать промпты и инструменты, но уже стало немного грустно.
Please open Telegram to view this post
VIEW IN TELEGRAM
А ещё у меня жёстко горит от smolagents. Уже больше 10 дней висит мой PR на 2 строчки, который бы экономил 10-20% токенов для Соннетов и делал бы их чуть лучше. Мелочь, правда? Подумаешь, лучшая агентская модель нормально с вашим фреймворком не работает.
И второй PR про добавление обработки картинок в CodeAct. Тоже абсолютно бесполезный, да?
Я ведь там не один такой. 100+ открытых PR, и всего полтора человека на поддержке.
И второй PR про добавление обработки картинок в CodeAct. Тоже абсолютно бесполезный, да?
Я ведь там не один такой. 100+ открытых PR, и всего полтора человека на поддержке.
Если что, вопрос с первым PR решился после моего нытья одному из двух мейнтейнеров в личку в Твиттере.
За это время ещё наткунлся на баг в телеметрии, его фикс тоже влили.
Второй PR так и висит, ну и пусть, там не баг, там фича.
Так что теперь у меня 5 коммитов, что ставит меня в топ-8 контрибьютеров, приятно.
Я в одном чатике уже шутил, что я иногда чувствую себя единственным юзером smolagents...
Кроме того, одна из фичей для holosophos оказалась неожиданно хорошей. Я про покомандные таймауты, которые задаются самой языковой моделью. Вопрос с бесконечными циклами решился, и модельки теперь сами фиксят все баги подобного рода.
За это время ещё наткунлся на баг в телеметрии, его фикс тоже влили.
Второй PR так и висит, ну и пусть, там не баг, там фича.
Так что теперь у меня 5 коммитов, что ставит меня в топ-8 контрибьютеров, приятно.
Я в одном чатике уже шутил, что я иногда чувствую себя единственным юзером smolagents...
Кроме того, одна из фичей для holosophos оказалась неожиданно хорошей. Я про покомандные таймауты, которые задаются самой языковой моделью. Вопрос с бесконечными циклами решился, и модельки теперь сами фиксят все баги подобного рода.
Что с лицом, Сбер? Моё почтение команде llmarena.ru, видимо им-то денег хватило на прогоны нормальных моделей на Мере.
P.S. Почему мне вообще есть дело до Меры? Посмотрите на эти пресс-релизы: https://www.group-telegram.com/rbc_news/108121, https://www.group-telegram.com/exploitex/23425
P.S. Почему мне вообще есть дело до Меры? Посмотрите на эти пресс-релизы: https://www.group-telegram.com/rbc_news/108121, https://www.group-telegram.com/exploitex/23425
Кстати, впервые открытая модель на первом месте в ПингПонге. Вероятно до тех пор, пока Gemini 2.5 Pro не оценен.
Я тут тоже решил попробовать этот ваш вайб-кодинг, поставил Курсор, взял один готовый фронтендерский проект и попробовал прикрутить к нему пару LLM-фичей. И знаете что?
Я давно не чувствовал себя настолько несчастным при программировании. Основной моей эмоцией было раздражение на эту "тупую фигню". С десяток раз я попадал в цикл дебага моделью, в которых она раз за разом делала неправильные исправления. В итоге мне всё равно приходилось вмешиваться и разбираться самому, уже потратив кучу времени и токенов. И как же я отвык от IDE... Я сейчас, наверное, прозвучу как старик, но все эти окошки, уведомления, менюшки и загрузки после чистого vim'а смотрятся абсолютно убого и сильно отвлекают.
Правда, в каких-то кейсах оно нормально работало. Например, когда мне понадобилось сделать сбоку маленький сервер с нуля. Вот там да, всё чисто, никаких проблем. Но правки в существующем большом проекте — это ад, потому что я привык понимать всё, а не делегировать понимание.
Я давно не чувствовал себя настолько несчастным при программировании. Основной моей эмоцией было раздражение на эту "тупую фигню". С десяток раз я попадал в цикл дебага моделью, в которых она раз за разом делала неправильные исправления. В итоге мне всё равно приходилось вмешиваться и разбираться самому, уже потратив кучу времени и токенов. И как же я отвык от IDE... Я сейчас, наверное, прозвучу как старик, но все эти окошки, уведомления, менюшки и загрузки после чистого vim'а смотрятся абсолютно убого и сильно отвлекают.
Правда, в каких-то кейсах оно нормально работало. Например, когда мне понадобилось сделать сбоку маленький сервер с нуля. Вот там да, всё чисто, никаких проблем. Но правки в существующем большом проекте — это ад, потому что я привык понимать всё, а не делегировать понимание.