Notice: file_put_contents(): Write of 4185 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50

Warning: file_put_contents(): Only 8192 of 12377 bytes written, possibly out of free disk space in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2062 -
Telegram Group & Telegram Channel
5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2062
Create:
Last Update:

5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2062

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. Artem Kliuchnikov and his family fled Ukraine just days before the Russian invasion. Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. Soloviev also promoted the channel in a post he shared on his own Telegram, which has 580,000 followers. The post recommended his viewers subscribe to "War on Fakes" in a time of fake news. Andrey, a Russian entrepreneur living in Brazil who, fearing retaliation, asked that NPR not use his last name, said Telegram has become one of the few places Russians can access independent news about the war.
from ar


Telegram Сиолошная
FROM American