Notice: file_put_contents(): Write of 12384 bytes failed with errno=28 No space left on device in /var/www/group-telegram/post.php on line 50
Сиолошная | Telegram Webview: seeallochnaya/2062 -
Telegram Group & Telegram Channel
5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2062
Create:
Last Update:

5 дней назад в чате канала подписчик написал:
Попробовал все LLM на игру в быки и коровы. Я загадываю число, они отгадывали. Нет... Llm не умеют думать. Они просто плетут кружево из слов

Если вы не знали, или детство было давно, то Быки и Коровы — это простая игра для двух игроков на взлом кода. Один игрок загадывает секретное число (чаще всего из 4 цифр, все уникальные), а другой пытается его угадать за несколько попыток. В ответ на каждый запрос первый игрок должен сказать сколько быков и коров он насчитал — быки это точное совпадение и цифры, и её положения (первая, вторая...), а коровы — это когда цифра есть в секретном числе, но позиция неправильная.

На примере: я загадал 1234, вы попробовали угадать 1246. Я говорю: 2 быка 1 корова. Вы знаете, что две какие-то цифры на правильном месте (у нас это 1 и 2), и какая-то другая цифра (четвёрка) есть, но не на своём месте.

Вполне понятно, как перевести эту игру в диалог с ChatGPT. Чтобы LLM смогла успешно выпытывать у вас информацию, ей нужно:
— помнить ваши ответы на свои запросы
— рассуждать о том, какие опции существуют и какие числа нужно пытаться угадать, а какие уже правильно угаданы

===

А я сидел играл в STALKER 2 👀 и мне было лень это нормально проверять, чтобы показать, что человек не прав (это вообще моё любимое дело), я решил прихлопнуть и второго зайца за раз — попробовать использовать АГЕНТОВ (😯) для написания кода. Дать ему задачу, отойти поиграть, посмотреть одним глазком чё как, и так итеративно без проактивного вмешательства посмотреть, что выйдет. Для этих целей я выбрал ex-OpenDevin, ныне OpenHands (это как AI-программист Devin, которым удивляли в начале года, только с открытым кодом и поддерживаемый сообществом).

Мне показалось хорошей идеей быстренько проверить именно эту проблему с игрой, так как с одной стороны это достаточно просто, а с другой я предположил, что можно будет увидеть интересную картину в разнице результатов разных моделей. Ну и показать, что комментатор в очередной раз не прав 🙂

В итоге накодили бенчмарк, и пока я пишу следующее сообщение попробуйте угадать: в каком проценте игр LLM-ки справляются с задачей?

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2062

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"He has kind of an old-school cyber-libertarian world view where technology is there to set you free," Maréchal said. Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy."
from kr


Telegram Сиолошная
FROM American