Telegram Group & Telegram Channel
5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2062
Create:
Last Update:

5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2062

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website.
from in


Telegram Сиолошная
FROM American