Telegram Group & Telegram Channel
Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/seeallochnaya/2103
Create:
Last Update:

Последние пару дней мучал свежую o1 вопросами по программированию с использованием относительно редкого и в то же время свежего фреймворка, который к тому же за 3 года существования существенно менял интерфейсы пару раз. То есть актуального кода, написанного с его использованием, не так-то и много. И о1 прям очень хорошо работала. o1-mini тоже иногда помогала, но чувствуется что знаний не хватает. Sonnet 3.6 пробовал совсем немного, первые впечатления не очень, но думаю рано делать выводы.

А вот вместе с этим попробовал Gemini Exp 1206 свежую, и она так уверенно пишет длинные сркипты...которые сначала выдают 4-5 ошибок, итеративное исправление которых приводит к пониманию, что код работает не так как надо 🎃 тогда я плюнул, сделал запрос в o1 и С ПЕРВОГО РАЗА ПОЛУЧИЛ ЧТО ХОТЕЛ. 😭 правда запросы очень быстро кончились, если так и дальше пойдёт — придется покупать подписку за $200, чтобы и более умный o1 pro режим был, и в обычную o1 можно было ходить как к себе домой, а не по 50 раз в неделю 😭

Вместе с этим рассказом принёс вам 4 примера работы o1 (и pro) от Riley Goodside, одного из самых известных промпт-инженеров (AI yapper).

1) ChatGPT o1 (не pro) посчитала значение выражения (x - 14)^10, где x - количество гласных в ответе. Подумайте, как бы вы подошли к такой задаче, как бы перебирали опции, и можно ли было бы это назвать рассуждением
1.1) в комменты пришёл чел, которому модель выдала другой ответ, и он написал «моя модель недотянула». Но на поверку оказалось... что ответ тоже правильнй. o1 > твиттерянин, получается
2) Считает (a + 2914)^2 + (b + 21)^2 + 75, где a и b это количество букв из первой и второй половин алфавита в его окончательном ответе (не просто в алфавите!)
3) создает квадратную рамку из семибуквенных слов, склеенных в цепочку и читаемых по часовой стрелке по кругу (см. картинку), каждое из которых может являться правдоподобным прозвищем для члена Фантастической четверки (существительные в единственном числе)
4) (o1, не pro) какой-то ЧГКшный вопрос буквально, «назови представителя некоторой формы развлечения, аббревиатура которой могла бы также обозначать первые буквы группы, посетившей страну, будущий лидер которой женился на итальянке» 😑

По мне так безумно сложные задачки, требующие именно рассуждений, в которых ты точно делаешь ошибку/предположение, и после этого отталкиваешься в правильном направлении. Думаю, вопрос требования интеллекта для их решения открыт, тут можно дискутировать, но вот наличие рассуждений 100% требуется. И модель разносит.

Думаю, любые другие модели, кроме быть может o1-like, в принципе будут иметь околонулевые метрики качества на таких примерах.

BY Сиолошная







Share with your friend now:
group-telegram.com/seeallochnaya/2103

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

There was another possible development: Reuters also reported that Ukraine said that Belarus could soon join the invasion of Ukraine. However, the AFP, citing a Pentagon official, said the U.S. hasn’t yet seen evidence that Belarusian troops are in Ukraine. On December 23rd, 2020, Pavel Durov posted to his channel that the company would need to start generating revenue. In early 2021, he added that any advertising on the platform would not use user data for targeting, and that it would be focused on “large one-to-many channels.” He pledged that ads would be “non-intrusive” and that most users would simply not notice any change. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. "There is a significant risk of insider threat or hacking of Telegram systems that could expose all of these chats to the Russian government," said Eva Galperin with the Electronic Frontier Foundation, which has called for Telegram to improve its privacy practices.
from us


Telegram Сиолошная
FROM American