Telegram Group & Telegram Channel
5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2062
Create:
Last Update:

5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2062

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." In view of this, the regulator has cautioned investors not to rely on such investment tips / advice received through social media platforms. It has also said investors should exercise utmost caution while taking investment decisions while dealing in the securities market. What distinguishes the app from competitors is its use of what's known as channels: Public or private feeds of photos and videos that can be set up by one person or an organization. The channels have become popular with on-the-ground journalists, aid workers and Ukrainian President Volodymyr Zelenskyy, who broadcasts on a Telegram channel. The channels can be followed by an unlimited number of people. Unlike Facebook, Twitter and other popular social networks, there is no advertising on Telegram and the flow of information is not driven by an algorithm. "There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. But Kliuchnikov, the Ukranian now in France, said he will use Signal or WhatsApp for sensitive conversations, but questions around privacy on Telegram do not give him pause when it comes to sharing information about the war.
from tr


Telegram Сиолошная
FROM American