Telegram Group & Telegram Channel
Сиолошная
В каком проценте игр LLM-ки правильно отгадывают секретное число?
А вот и табличка с результатами

— Success Rate: в скольки играх разгадала число
— Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх
— Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на мою просьбу не использовать выделение жирным, за что и была оштрафована. Без этого может игр 66% бы выиграла...

Так что ответ на опрос: 55-70% (если топовая модель o1) и 25-45% если обычная не супер-дорогая и медленная.



group-telegram.com/seeallochnaya/2065
Create:
Last Update:

А вот и табличка с результатами

— Success Rate: в скольки играх разгадала число
— Avg Turns: сколько в среднем ходов понадобилось в выигрышных играх
— Format Failures: сколько % ходов выдавали ответ, который скрипт не смог распарсить. o1-mini забивала на мою просьбу не использовать выделение жирным, за что и была оштрафована. Без этого может игр 66% бы выиграла...

Так что ответ на опрос: 55-70% (если топовая модель o1) и 25-45% если обычная не супер-дорогая и медленная.

BY Сиолошная




Share with your friend now:
group-telegram.com/seeallochnaya/2065

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The Russian invasion of Ukraine has been a driving force in markets for the past few weeks. If you initiate a Secret Chat, however, then these communications are end-to-end encrypted and are tied to the device you are using. That means it’s less convenient to access them across multiple platforms, but you are at far less risk of snooping. Back in the day, Secret Chats received some praise from the EFF, but the fact that its standard system isn’t as secure earned it some criticism. If you’re looking for something that is considered more reliable by privacy advocates, then Signal is the EFF’s preferred platform, although that too is not without some caveats. Messages are not fully encrypted by default. That means the company could, in theory, access the content of the messages, or be forced to hand over the data at the request of a government. But the Ukraine Crisis Media Center's Tsekhanovska points out that communications are often down in zones most affected by the war, making this sort of cross-referencing a luxury many cannot afford.
from fr


Telegram Сиолошная
FROM American