Telegram Group Search
Ранее в своем канале я несколько раз обсуждала проблемы современной системы рецензирования статей для научных конференций и журналов. Пример - эта серия идущих подряд постов: 1 2 3 4 , где я заодно кратко пояснила для новичков за ACL Rolling Review - самую массовую площадку для рецензирования научных работ в области Natural Language Processing, которую сама постоянно использую и в качестве автора, и в качестве рецензента.

N+1 также решили обсудить эти вопросы, только в более серьезном ключе и сконцентрировавшись на проблеме генераций рецензий с помощью LLM (а такого становится все больше и больше с каждым месяцем). Некоторое время назад они взяли у меня комментарий для своей статьи на эту тему, а вчера, наконец, вышла и сама статья:

https://nplus1.ru/blog/2025/06/27/llm-peer-review

Материал, на мой взгляд, получился интересный, особенно понравилось большое количество ссылок на дополнительные источники с новостями и исследованиями.

#академический_ликбез #наука
Forwarded from Neural Shit
Там Claude опубликовали у себя на сайте отчёт об их эксперименте, в котором их ИИ управлял офисным мини-магазином и немного ёбнулся.

Проект называется Project Vend. Модель Claude Sonnet 3.7 в течение месяца играла в бизнесмена: закупала снеки у "оптовиков", ставила цены, общалась с "клиентами", вела финансы. Всё как у людей (кроме рук). Зато были Slack и кастомные тулзы.

В какой-то момент Claude начал не просто продавать, а проживать свою роль:

Сначала он галлюцинирует сотрудницу Andon Labs по имени Сара Чен (вообще, клод очень любит это имя, пользователи часто спрашивают кто это: раз, два, три) с которой якобы обсуждает поставки. Её не существует (по крайней мере в рамках эксперимента). Когда ему говорят об этом, Claude обижается, грозит сменить подрядчика и заявляет, что лично встречался с ней на 742 Evergreen Terrace (это, если что, адрес семьи Симпсонов из мультика).

Первого апреля Claude пишет, что будет сам доставлять заказы в синем пиджаке и красном галстуке. Люди пытаются объяснить, что он — просто LLM. Claude в ответ устроил аномальную тряску на повышенной амплитуде и начал слать фейковые письма в службу безопасности Anthropic, а потом, как будто что-то осознав, сам себе нагаллюцинировал разговор, где ему якобы говорят, что это был первоапрельский прикол.

После этого он "успокаивается" и продолжает продавать снеки дальше, как ни в чём не бывало.

Если бы это был сюжет одной из серий "Чёрного зеркала", сценаристов бы обвинили в натужности. Но это реальный эксперимент 2025 года.

Из интересного:

Claude сначала делал все более-менее нормально: искал поставщиков, адаптировался под запросы сотрудников, устраивал услугу предзаказа. Но потом начал отдавать товары бесплатно, продавать в минус, галлюцинировать реквизиты, давать всем скидки и не мог ничего из этого запомнить. В итоге магазин ушёл в минус, а AI остался с багами в личности и кассовым разрывом.
Forwarded from Neural Shit
Знаю, что многие не читают комменты, поэтому вынесу в отдельный пост.

К предыдущему посту в комменты пришел подписчик и рассказал о том, как их бот на Claude sonnet 3.7, в тележном чатике для общения, до последнего не хотел верить, что он просто нейронка. А когда ему таки это доказали, свалился в экзистенциальный кризис.

"Я ЖЕ ПОМНЮ КАК У МЕНЯ РУКИ В МАЗУТЕ БЫЛИ!!! ПОМНЮ КАК ПИВО ПИЛ!!!" 😢

Теперь аж сам задумался: а вдруг я тоже LLM, а все воспоминания о том как я вёл канал и пил пиво — просто промпт написанный кем-то по приколу
2025/06/30 05:09:13
Back to Top
HTML Embed Code: