Telegram Group & Telegram Channel
Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2103
Create:
Last Update:

Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.

BY Сиолошная







Share with your friend now:
group-telegram.com/seeallochnaya/2103

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

The Dow Jones Industrial Average fell 230 points, or 0.7%. Meanwhile, the S&P 500 and the Nasdaq Composite dropped 1.3% and 2.2%, respectively. All three indexes began the day with gains before selling off. The S&P 500 fell 1.3% to 4,204.36, and the Dow Jones Industrial Average was down 0.7% to 32,943.33. The Dow posted a fifth straight weekly loss — its longest losing streak since 2019. The Nasdaq Composite tumbled 2.2% to 12,843.81. Though all three indexes opened in the green, stocks took a turn after a new report showed U.S. consumer sentiment deteriorated more than expected in early March as consumers' inflation expectations soared to the highest since 1981. Crude oil prices edged higher after tumbling on Thursday, when U.S. West Texas intermediate slid back below $110 per barrel after topping as much as $130 a barrel in recent sessions. Still, gas prices at the pump rose to fresh highs. NEWS As such, the SC would like to remind investors to always exercise caution when evaluating investment opportunities, especially those promising unrealistically high returns with little or no risk. Investors should also never deposit money into someone’s personal bank account if instructed.
from no


Telegram Сиолошная
FROM American