Telegram Group & Telegram Channel
Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2103
Create:
Last Update:

Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.

BY Сиолошная







Share with your friend now:
group-telegram.com/seeallochnaya/2103

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Pavel Durov, Telegram's CEO, is known as "the Russian Mark Zuckerberg," for co-founding VKontakte, which is Russian for "in touch," a Facebook imitator that became the country's most popular social networking site. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." The account, "War on Fakes," was created on February 24, the same day Russian President Vladimir Putin announced a "special military operation" and troops began invading Ukraine. The page is rife with disinformation, according to The Atlantic Council's Digital Forensic Research Lab, which studies digital extremism and published a report examining the channel. "Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world.
from ar


Telegram Сиолошная
FROM American