Telegram Group & Telegram Channel
5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2062
Create:
Last Update:

5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2062

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. As a result, the pandemic saw many newcomers to Telegram, including prominent anti-vaccine activists who used the app's hands-off approach to share false information on shots, a study from the Institute for Strategic Dialogue shows. That hurt tech stocks. For the past few weeks, the 10-year yield has traded between 1.72% and 2%, as traders moved into the bond for safety when Russia headlines were ugly—and out of it when headlines improved. Now, the yield is touching its pandemic-era high. If the yield breaks above that level, that could signal that it’s on a sustainable path higher. Higher long-dated bond yields make future profits less valuable—and many tech companies are valued on the basis of profits forecast for many years in the future. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels.
from ms


Telegram Сиолошная
FROM American