Telegram Group & Telegram Channel
Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2103
Create:
Last Update:

Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.

BY Сиолошная







Share with your friend now:
group-telegram.com/seeallochnaya/2103

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram Messenger Blocks Navalny Bot During Russian Election Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Under the Sebi Act, the regulator has the power to carry out search and seizure of books, registers, documents including electronics and digital devices from any person associated with the securities market. On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events."
from jp


Telegram Сиолошная
FROM American