Forwarded from Старший Авгур
AgentRxiv: Towards Collaborative Autonomous Research
Статья: ссылка
Лендинг: https://agentrxiv.github.io/
Очень смешная идея от создателя AgentLaboratory. AgentRxiv — специальный сервер, на который агенты могут складывать написанные статьи и переиспользовать их между запусками.
Замечу, что это не для того, чтобы их читали люди. Для этого есть уже есть viXra, то есть arXiv для статей, написанных с помощью языковых моделей.
А эта идея про то, что можно совместно запускать несколько автоматических исследователей, которые могли бы переиспользовать результаты друг друга. Один из описанных экспериментов как раз про запуск 3 параллельных "лабораторий".
В качестве тестовой задачи авторы используют разработку техник промптинга для решения MATH-500 (сомнительно, ну и ладно). Итоговые найденные техники якобы обобщаются на другие датасеты и задачи: GPQA, MMLU-Pro, MedQA.
С точки зрения реализации всё как в обычном ArXiv'е: сервер, API для поиска, чтения и загрузки статей, сайт для просмотра кожаными мешками. Поиск нормальный, то есть семантический.
Эксперименты:
1) Запуск по умолчанию с доступом к AgentRxiv (78.2% на MATH-500)
2) Обязательное учитывание 5 статей с AgentRxiv против отсутствия доступа к AgentRxiv (78.2% vs 73.8%)
3) Запуск 3 параллельных "лабораторий" (79.8%)
Что по цене? Модели: o1-mini и o1-preview. 280$ за 120 статей в 3 эксперименте (по 40 на каждую "лабораторию"). И примерно 3 дня реального времени🤔
Из кеков:
- Модуль про написание кода часто генерировал питоновский exit(), что убивало весь пайплайн.
- Значительная часть экспериментов содержала критичные баги, из-за которых точность была примерно 0%😂
- Ну и с latex'ом моделям было очень сложно (понимаемо).
Очень крутая механика, но по-моему всё ещё не хватает нормального интерфейса взаимодействия с людьми. Первый автор недавно был на стриме AI4Science сообщества alphaXiv, как раз рассказывал про AgentLaboratory и эту статью, я там был, мёд, пиво пил. Следующая статья от него будет про генерацию идей для исследований.
Статья: ссылка
Лендинг: https://agentrxiv.github.io/
Очень смешная идея от создателя AgentLaboratory. AgentRxiv — специальный сервер, на который агенты могут складывать написанные статьи и переиспользовать их между запусками.
Замечу, что это не для того, чтобы их читали люди. Для этого есть уже есть viXra, то есть arXiv для статей, написанных с помощью языковых моделей.
А эта идея про то, что можно совместно запускать несколько автоматических исследователей, которые могли бы переиспользовать результаты друг друга. Один из описанных экспериментов как раз про запуск 3 параллельных "лабораторий".
В качестве тестовой задачи авторы используют разработку техник промптинга для решения MATH-500 (сомнительно, ну и ладно). Итоговые найденные техники якобы обобщаются на другие датасеты и задачи: GPQA, MMLU-Pro, MedQA.
С точки зрения реализации всё как в обычном ArXiv'е: сервер, API для поиска, чтения и загрузки статей, сайт для просмотра кожаными мешками. Поиск нормальный, то есть семантический.
Эксперименты:
1) Запуск по умолчанию с доступом к AgentRxiv (78.2% на MATH-500)
2) Обязательное учитывание 5 статей с AgentRxiv против отсутствия доступа к AgentRxiv (78.2% vs 73.8%)
3) Запуск 3 параллельных "лабораторий" (79.8%)
Что по цене? Модели: o1-mini и o1-preview. 280$ за 120 статей в 3 эксперименте (по 40 на каждую "лабораторию"). И примерно 3 дня реального времени
Из кеков:
- Модуль про написание кода часто генерировал питоновский exit(), что убивало весь пайплайн.
- Значительная часть экспериментов содержала критичные баги, из-за которых точность была примерно 0%
- Ну и с latex'ом моделям было очень сложно (понимаемо).
Очень крутая механика, но по-моему всё ещё не хватает нормального интерфейса взаимодействия с людьми. Первый автор недавно был на стриме AI4Science сообщества alphaXiv, как раз рассказывал про AgentLaboratory и эту статью, я там был, мёд, пиво пил. Следующая статья от него будет про генерацию идей для исследований.
Please open Telegram to view this post
VIEW IN TELEGRAM
Kali Novskaya
AgentRxiv: Towards Collaborative Autonomous Research Статья: ссылка Лендинг: https://agentrxiv.github.io/ Очень смешная идея от создателя AgentLaboratory. AgentRxiv — специальный сервер, на который агенты могут складывать написанные статьи и переиспользовать…
Отличный шаг вперед к машиночитаемой науке и автоматизации экспериментов.
Я про это уже писала, в целом https://ai.vixra.org/ супер инициатива, чтобы отделить ИИ-статьи от человеческих пока что.
Если далее их качество будет выше, то отделять статьи, написанные агентами, и не понадобится, зато архиву понадобится API, потому что основными читателями будут уже не люди.
ИИ-статей по теории чисел уже 38, а то лингвистике только одна, хаха! Кого теперь сократят первым?
🟣 https://agentrxiv.github.io/
🟣 Github -- все под MIT License
Я про это уже писала, в целом https://ai.vixra.org/ супер инициатива, чтобы отделить ИИ-статьи от человеческих пока что.
Если далее их качество будет выше, то отделять статьи, написанные агентами, и не понадобится, зато архиву понадобится API, потому что основными читателями будут уже не люди.
ИИ-статей по теории чисел уже 38, а то лингвистике только одна, хаха! Кого теперь сократят первым?
Please open Telegram to view this post
VIEW IN TELEGRAM
ai.vixra.org
ai.viXra.org open archive of AI assisted e-prints
🌸Антикопирайт и LLM победили (пока)🌸
#nlp #про_nlp
Эта неделя довольно важная для прецедентных судебных разбирательств по ИИ и копирайту. Я уже писала раньше про продолжающиеся судебные разбирательства Интернет-архива, проблемы теневых библиотек, суды над Midjourney и Stability AI.
🌸 Для LLM и агентов наиболее важными являлись 2 разбирательства: копирайтные иски к Anthropic и к Meta.
Суды вынесли оба решения на этой неделе:
🟣 Anthropic: Fair use. Обучение LLM на копирайтном материале без согласия авторов — это официально FAIR use. Так, Калифорнийский суд посчитал, что получаемый в результате обучения артефакт (LLM) — новое произведение, а значит, это подходит под определение Fair Use.
🟣 Meta: Ллама не виноватая! 13 авторов, подавших копирайтный иск против обучения опенсорса на их книгах, иск проиграли. Они не смогли доказать в суде, что обучение опенсорсной модели на их материале как-то уменьшило продажи их книг и повредило им.
Эти прецеденты проводят очень важную новую границу в делах об интеллектуальной собственности и ИИ.
Конечно, это не значит, что использование скоммунизженнего подкопирайтного материала стало законным. Да и другие авторы могут все равно подать в суд и выбрать другую стратегию. А в Российском правовом поле понятия Fair use нет совсем.
Но если очень хочется обучать модели — то можно. 😈
🟣 Посмотрите наш старый стрим КОПИЛЕФТ с Мишей Вербицким про Антикопирайт
#nlp #про_nlp
Эта неделя довольно важная для прецедентных судебных разбирательств по ИИ и копирайту. Я уже писала раньше про продолжающиеся судебные разбирательства Интернет-архива, проблемы теневых библиотек, суды над Midjourney и Stability AI.
🌸 Для LLM и агентов наиболее важными являлись 2 разбирательства: копирайтные иски к Anthropic и к Meta.
Суды вынесли оба решения на этой неделе:
Эти прецеденты проводят очень важную новую границу в делах об интеллектуальной собственности и ИИ.
Конечно, это не значит, что использование скоммунизженнего подкопирайтного материала стало законным. Да и другие авторы могут все равно подать в суд и выбрать другую стратегию. А в Российском правовом поле понятия Fair use нет совсем.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Kali Novskaya
🌸Открытость интернет-данных под конец 2024🌸
#nlp #про_nlp
Краткий итог под конец 2024:
🟣Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.
🟣Google Cache как фичу убрали, больше нельзя посмотреть сохраненную…
#nlp #про_nlp
Краткий итог под конец 2024:
🟣Интернет-архив работает в режиме ридонли и не архивирует новые страницы с 8 октября после атаки.
🟣Google Cache как фичу убрали, больше нельзя посмотреть сохраненную…
Мемотред в честь пятницы и в честь того, что у меня появился Shrurby! (Первое фото) #шитпост
🌸Deep Research Agents: обзор 🌸
#nlp #про_nlp #nlp_papers
Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.
Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.
Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить
Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).
Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL
Нашу статью MLGym процитировали, опять же!🥹
🟣 Статья
🟣 GitHub
#nlp #про_nlp #nlp_papers
Вышла неплохая обзорная статья про пересечение Deep Research и агентов — Deep Research Agents: A Systematic Examination And Roadmap.
Авторы определяют Deep Research агентов как AI-агенты на базе LLM, объединяющие динамически адаптивные рассуждения, способность к планированию, многошаговый внешний поиск и извлечение знаний и использование инструментов (tools, function calling), а также генерацию комплексных аналитических отчетов для информационно-исследовательских задач.
Приводится подробный анализ работ по теме
— Chain-of-thought, Reasoning
— Tool use, MCP
— Планирование в LLM
— GPRO, PPO, Reinforce++ и как их готовить
Отдельно способность к Deep Research сравнивают на примере бенчмарка GAIA (на нем оцениваются практически все работы).
Открытые вопросы и задачи, которые стоят перед исследователями в 2025:
— Расширение источников информации — когда информации хватит для отчета? Когда и где искать, когда ее недостаточно?
— Fact Checking и информация, меняющаяся во времени
— Асинхронность в выполнении задач и этапов плана у агентов
— Адекватная интеграция reasoning и вывода из внешних тулзов
— Мультиагентные архитектуры и автономное развитие систем с онлайн-RL
Нашу статью MLGym процитировали, опять же!
Please open Telegram to view this post
VIEW IN TELEGRAM
🌸Вакансия: PhD по креативности LLM 🌸
#nlp #про_nlp
TL;DR
Открыта позиция PhD-студента в UMass Lowell у Анны Румшиски (Anna Rumshisky) в Text Machine Lab.
Детали:
Позиция PhD-студента с широким спектром тем в LLM: можно будет заниматься разными методами работы с языковыми моделями, от interpretability и prompt-инжиниринга до методов alignment'а, мультимодального тюнинга, low-rank training и PEFT. Основное направление — усиление креативности у LLM.
Глава лаборатории (Text Machine Lab): Prof. Anna Rumshisky, professor of computer science в UMass Lowell, MIT и Amazon AGI; в частности, один из соавторов Amazon Nova и первой статьи по бертологии.
Требования: релевантный бакалавриат + магистратура/специалитет, хорошее понимание линейной алгебры, мат анализа и теории вероятности, базовые знания deep learning и NLP. Публикации (включая воркшопы) приветствуются, но не являются обязательным требованием.
Позиция fully funded: обучение полностью покрывается, также выплачивается стипендия, достаточная для проживания в Массачусетсе.
🟣 Для подписчиков этого канала: для подачи отправьте CV и короткое cover letter сюда: https://forms.gle/YYUhLcPtUNdjvJsY7
Дедлайн — 15 июля!
(От себя: чем раньше вы напишете, тем лучше. Я сама когда-то подавалась к Анне, но потом решила в США не ехать и осталась работать в Сбере. Для кавера можно сразу написать свои идеи, но лучше хорошо показать свой релевантный бэкграунд, опыт экспериментов, статьи)
🟣 Сайт лаборатории https://text-machine.cs.uml.edu/lab2/
🟣 Форма для подачи https://forms.gle/YYUhLcPtUNdjvJsY7
#nlp #про_nlp
TL;DR
Открыта позиция PhD-студента в UMass Lowell у Анны Румшиски (Anna Rumshisky) в Text Machine Lab.
Детали:
Позиция PhD-студента с широким спектром тем в LLM: можно будет заниматься разными методами работы с языковыми моделями, от interpretability и prompt-инжиниринга до методов alignment'а, мультимодального тюнинга, low-rank training и PEFT. Основное направление — усиление креативности у LLM.
Глава лаборатории (Text Machine Lab): Prof. Anna Rumshisky, professor of computer science в UMass Lowell, MIT и Amazon AGI; в частности, один из соавторов Amazon Nova и первой статьи по бертологии.
Требования: релевантный бакалавриат + магистратура/специалитет, хорошее понимание линейной алгебры, мат анализа и теории вероятности, базовые знания deep learning и NLP. Публикации (включая воркшопы) приветствуются, но не являются обязательным требованием.
Позиция fully funded: обучение полностью покрывается, также выплачивается стипендия, достаточная для проживания в Массачусетсе.
Дедлайн — 15 июля!
(От себя: чем раньше вы напишете, тем лучше. Я сама когда-то подавалась к Анне, но потом решила в США не ехать и осталась работать в Сбере. Для кавера можно сразу написать свои идеи, но лучше хорошо показать свой релевантный бэкграунд, опыт экспериментов, статьи)
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
Anna Rumshisky
UMass Lowell / Amazon AGI Foundations - Cited by 7,942 - Natural Language Processing - Artificial Intelligence - Deep Learning - Machine Learning
Чтобы все оставшиеся сотрудники успели пройти интервью к нам 😈
#шитпост
https://futurism.com/openai-shutting-down-week
#шитпост
https://futurism.com/openai-shutting-down-week
Please open Telegram to view this post
VIEW IN TELEGRAM
Futurism
OpenAI Is Shutting Down for a Week
In a bid to retain its staffers amid a Meta poaching spree, OpenAI is giving them a mandatory week-long vacation.