Telegram Group & Telegram Channel
Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2103
Create:
Last Update:

Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.

BY Сиолошная







Share with your friend now:
group-telegram.com/seeallochnaya/2103

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

On Feb. 27, however, he admitted from his Russian-language account that "Telegram channels are increasingly becoming a source of unverified information related to Ukrainian events." The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. "Your messages about the movement of the enemy through the official chatbot … bring new trophies every day," the government agency tweeted. Emerson Brooking, a disinformation expert at the Atlantic Council's Digital Forensic Research Lab, said: "Back in the Wild West period of content moderation, like 2014 or 2015, maybe they could have gotten away with it, but it stands in marked contrast with how other companies run themselves today." In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai.
from us


Telegram Сиолошная
FROM American