Telegram Group Search
Gemini 2.0 Flash Thinking Experimental - новая модель-аналог o1 от Google, которая умеет в процесс размышлений.

Модель имеет актуальные знания до августа 2024.

Самое любопытное, что доступ сейчас бесплатный, в Google AI Studio.

Модель поддерживает мультимодальный ввод, бесплатный доступ имеет лимит в 1500 запросов в день, а также контекст в 32 000 токенов.

#gemini #o1 #llm
Forwarded from Denis Sexy IT 🤖
Показали новые o3 и o3-mini модели (o2 уже занятый бренд):

— Модели пока выпустили в Public Safety Tests, то есть ученые смогут помочь их тестировать, а мы не сможем помочь их ломать

— o3 работает на уровне доктора наук и иногда даже лучше в разных бенчмарках

— o3 прошла ARC-бенчмарк на 87.5%, сложный бенчмарк на котором тестируют потенциальные AGI, там много вопросов и некоторые похожие на IQ-тесты или на загадки; кожаные в этом тесте набирают ~85%, прошлый лучший результат был ~50%. То есть ARC-бенчмарк — пал.

— o3 работает также как и o1 в разных режимах: дольше думает, лучше ответ, но при этом и дороже. Пользователь может выбрать один из «думательных» пресетов сам.
🎄 12 дней релизов OpenAI: главное за адвент-календарь

Всего за 12 рабочих дней OpenAI представила множество новинок: от моделей до функций для разработчиков. Вот основные моменты по каждому дню:

День 1: Старт с o1 Pro🔄
Полная версия модели o1 теперь поддерживает работу с изображениями и стала на 30% быстрее своих предшественников. Pro Mode предлагает увеличенную производительность и доступен по подписке за $200 в месяц. Тесты показали, что модель иногда ошибается в сложных моральных ситуациях.

День 2: Тонкая настройка с RFT
Введён новый подход к настройке моделей – Reinforcement Fine-Tuning (RFT). Он позволяет обучать модели узкоспециализированным задачам с минимальным количеством данных. Пока доступен университетам и бизнесу.

День 3: Генератор видео SORA
Обновлённая версия SORA Turbo теперь поддерживает создание видео длиной до 20 секунд (в будущем – до минуты). Возможности: text-to-video, text+image-to-video, text+video-to-video, а также создание кастомного сториборда для редактирования кадров. Поддерживается качество до 1080p.

День 4: Canvas для всех пользователей
Теперь Canvas доступен даже бесплатным пользователям! Этот инструмент позволяет работать с текстом и кодом в отдельном окне, запускать интерпретатор кода и оставлять комментарии, как в Google Docs. Canvas можно интегрировать в пользовательские GPT.

День 5: Интеграция в экосистему Apple

ChatGPT стал частью Siri и Apple Intelligence. Теперь можно анализировать видео, текст и данные прямо на устройствах iPhone и Mac. Поддержка работает на уровне Finder и встроенных приложений.

День 6: Advanced Voice Mode
Голосовой режим теперь поддерживает взаимодействие с видео и экраном в реальном времени. Модель запоминает информацию с экрана и отвечает на её основе. Поддерживается работа на русском языке.

День 7: Организация чатов в папки
Добавлена возможность группировать чаты по проектам, добавлять к ним файлы и общие инструкции. Это обновление, которого пользователи давно ждали, значительно упрощает работу.

День 8: Обновления SearchGPT
Встроенный поисковик стал быстрее и умнее. Теперь он доступен в голосовом режиме, а ссылки и карты можно просматривать прямо в чате. GPT можно настроить как поисковик по умолчанию.

День 9: Новшества в API
Добавлена работа с изображениями, структурированный вывод в формате JSON, тонкая настройка инструкций, а также новые типы fine-tuning: preference и reasoning efforts. Реалтайм API стал быстрее и дешевле.

День 10: Интеграция с WhatsApp
Теперь пользователи могут общаться с ChatGPT через WhatsApp или звонить на специальный номер. Эта функция доступна почти по всему миру, кроме России.

День 11: Работа с приложениями в реальном времени
Теперь данные из приложений можно стримить прямо в чат и сразу работать с ними. Например, генерировать графики или исправлять код без необходимости копировать его в чат.

День 12: Финал – модель o3
Самая мощная модель OpenAI с выдающимися показателями: 88% на тесте ARC AGI (ранее максимум был 50%). Доступ к o3 планируется открыть в январе, пока же доступна только демо-версия.

#openai #chatgpt #o1 #o2 #sora
FaceFusion 3.2.0 Beta Uncensored Portable | Nvidia | DeepFake, LipSync

Что нового:

- Обновлены библиотеки CuDNN до версии 9.7.0 и TensorRT до версии 10.7
- Заменена модель оклюдера по умолчанию, теперь используется xseg, с возможностью выбора нескольких вариантов.
- CUDA ускорение включено по умолчанию.
- При работе с DFM моделями, появился большой список моделей знаменитостей, доступных для загрузки из программы.
- Возвращена поддержка работы с вебкамерой.
- Мелкие улучшения и дополнения

На данный момент FaceFusion и все его будущие обновления доступны для загрузки только для подписчиков моего приватного Telegram канала, на Boosty, к сожалению, сборок FaceFusion больше не будет из-за правил площадки.

FaceFusion - это некий "комбайн" из различных нейросетевых моделей для работы с видео и фото. Программа включает в себя:

- Возможность замены лица на фото или видео (DeepFake)
- Синхронизацию губ в видео по аудиодорожке (LipSync)
- Колоризацию старых черно-белых видео и фото (Frame Colorizer)
- Улучшение качества лица на фото или видео (Face enhancer)
- Увеличение разрешения видео или фото (Upscale)
- Возможность изменения возраста лица (Age Modifier)
- Редактор эмоций и выражения лица (expression restorer и face editor)

Видеообзор прошлых версий программы: Видео 1, Видео 2

Скачать FaceFusion Portable

#facefusion #deepfake #lipsync #portable
RopeMod Portable by Neurogen v 2.7.1 - Русскоязычная версия

Rope - полноценная DeepFake видеостудия, позволяющая очень тонко работать с процессом замены лица на фото, видео и live потоке с камеры.
Программа поддерживает одновременную замену нескольких лиц в кадре, работу с DFM моделями, а также, что самое важное, все изменения отображаются в режиме реального времени, что делает работу с программой более комфортной.

В данном же случае, за основу был взят последний RopeMod, но при этом была проведена локализация интерфейса.

Лично я не являюсь сторонником локализации подобных программ, так как в любом случае, остается огромное количество терминов, только теперь записанных транслитом, да и обучение я провожу на англоязычных версиях, но если вы только только начинаете работать с Rope, перевод основных элементов, особенно подсказок, будет крайне полезен.

Обзор одной из прошлых версий Rope

Сборка доступна для подписчиков Boosty или приватного Телеграм канала

Скачать с Boosty | Скачать с Telegram

#rope #deepfake #portable
This media is not supported in your browser
VIEW IN TELEGRAM
Новогодняя подборка нейросетей для генерации видео и анимации изображений

Друзья, вот и подходит к концу 2024 год!
Самое время подвести итоги и вспомнить самые интересные релизы в мире нейросетей. Если прошлый год был год генерации изображений, то этот год отличился в области генерации видео: вышло огромное количество интересных проектов, которые, в большинстве случаев можно попробовать бесплатно.

Май 2024: Vidu
В мае была представлена Vidu — модель, генерирующая видео с разрешением 1080p и продолжительностью до 16 секунд за одну генерацию.
🔹 Особенности: высокая динамичность и понимание профессиональных фотографических техник.

Попробовать Vidu. В месяц бесплатно дается 80 кредитов, на генерацию одно видео уходит минимум 4.
---

Июнь 2024: Runway Gen-3 Alpha
Летом компания Runway выпустила Gen-3 Alpha, инструмент для профессионального видеопроизводства.
🔹 Особенности: простота создания высококачественных видеороликов на основе текстовых описаний, что особенно полезно для режиссёров и продюсеров.

Попробовать Runway можно бесплатно, на это дается 125 кредитов, но лишь единоразово, дальше только подписка.

---

Июнь 2024: Luma Dream Machine и Kling AI
- Luma Dream Machine: инструмент для создания анимированных видео с разнообразными эффектами, который особенно понравился пользователям соцсетей.

Попробовать Dream Machine. Также есть бесплатный доступ.

- Kling AI: быстро завоевала популярность благодаря доступности и качеству анимации, открывая новые горизонты для творцов.

Попробовать Kling. Выдают бесплатные кредиты для генерации, иногда зачисляют бонусные кредиты в рамках акций.
---

Сентябрь 2024: MiniMax Hailuo AI Video-01
Осенью китайская компания MiniMax выпустила Hailuo AI Video-01 — модель, способную генерировать высококачественные видеоролики на основе текстовых или графических описаний.
🔹 Особенности: простой интерфейс и высокая скорость работы.

Попробовать Hailuo. Как мне показалось, наиболее интересная модель из всех, отличное понимание промпта, но к сожалению хоть и есть бесплатные кредиты - безумные очереди.

---

Октябрь 2024: Pika Labs 1.5
В октябре Pika Labs обновила свою платформу до версии 1.5, добавив больше эффектов и возможностей для создания креативного контента.
🔹 Особенности: идеально подходит для пользователей социальных сетей.

Попробовать Pika Labs.

---

Декабрь 2024: Sora от OpenAI
В конце года OpenAI представила Sora — нейросеть для генерации видео по текстовым описаниям.
🔹 Особенности: высокая точность и качество создаваемого контента, мощный инструмент для креативных индустрий.

В отличие от всех прошлых моделей, Sora доступна только в рамках подписки ChatGPT Plus или Pro.

---

💡 Открытые модели генерации видео:
Помимо коммерческих решений, 2024 год ознаменовался выходом нескольких open-source моделей:

- LTX-Video:
🔹 Разработчик: Lightricks
🔹 Характеристики: по словам разработчиков генерирует 5-секундные видеоролики с разрешением 768×512 пикселей всего за 4 секунды, что быстрее реального времени.

- Mochi 1:
🔹 Разработчик: Genmo
🔹 Характеристики: высокопроизводительная модель на архитектуре AsymmDiT с 10 миллиардами параметров. Поддерживает видео 480p с частотой 30 кадров/сек.

- HunyuanVideo:
🔹 Разработчик: Tencent
🔹 Характеристики: модель на базе архитектуры MoE с 13 миллиардами параметров, обеспечивает временную согласованность и подходит для длинных видеопоследовательностей.

Все эти модели доступны в свободном доступе, и ограничением для работы является лишь видеопамять вашей GPU - должно быть не менее 24 гигабайт для комфортной работы.



Но все это было в 24 году. Я еще не перечислил гигантский прогресс в области LLM, не упомянул про Flux и множество других релизов.

Думаю, что 2025 год будет еще более насыщенным на удивительные релизы и открытия, которые изменят нашу жизнь к лучшему.

С наступающим 2025 годом! ☕️
Please open Telegram to view this post
VIEW IN TELEGRAM
🎮 NVIDIA представила серию видеокарт GeForce RTX 50 🎮

На выставке CES 2025 компания NVIDIA анонсировала новую линейку игровых видеокарт GeForce RTX 50 на архитектуре Blackwell.

Модели и характеристики:

- GeForce RTX 5090
- 💰 Цена: $1999
- 🧠 CUDA-ядер: 21 760
- 💾 Память: 32 ГБ GDDR7
- 🔌 TDP: 575 Вт
- 📅 Доступность: с 30 января 2025 года

- GeForce RTX 5080
- 💰 Цена: $999
- 🧠 CUDA-ядер: 10 752
- 💾 Память: 16 ГБ GDDR7
- 🔌 TDP: 360 Вт
- 📅 Доступность: с 30 января 2025 года

- GeForce RTX 5070 Ti
- 💰 Цена: $749
- 🧠 CUDA-ядер: 8 960
- 💾 Память: 16 ГБ GDDR7
- 🔌 TDP: 300 Вт
- 📅 Доступность: в феврале 2025 года

- GeForce RTX 5070
- 💰 Цена: $549
- 🧠 CUDA-ядер: 6 144
- 💾 Память: 12 ГБ GDDR7
- 🔌 TDP: 250 Вт
- 📅 Доступность: в феврале 2025 года

Особенности:

- 🚀 DLSS 4: новая версия технологии суперсэмплинга с использованием ИИ для повышения производительности и качества изображения.
- 🔗 Интерфейсы: поддержка DisplayPort 2.1b, HDMI 2.1a и PCIe 5.0.
- ⚡️ Питание: 16-контактные разъёмы дополнительного питания.

Что касаемо нейронок, компания заявляет о двухкратном приросте при работе с моделью Flux.dev у RTX 5090 по сравнению с 4090, правда нюанс в том, что Flux.dev тестировался в режиме FP8 на 40 серии, в то время как на 50 серии тесты проводились в FP4.

#nvidia #rtx
🎙 Fish Speech 1.5 portable by Neurogen
Fish Speech 1.5 – это модель преобразования текста в речь, созданная для генерации естественного и качественного голоса. Она идеально подходит для разработчиков, создателей контента и всех, кто ищет продвинутую TTS-технологию.

🔥 Ключевые особенности:
- Поддержка клонирования голоса – добавь уникальность, просто загрузив референсный аудио-файл.
- Высокое качество генерации – реалистичная речь с интонациями.
- Гибкая настройка – параметры Top-P, Temperature и Seed позволяют контролировать стиль и выразительность голоса.
- Поддержка мультиязычности – используйте модель для различных языков: английский, китайский, японский, немецкий, французский, испанский, корейский, арабский, русский, нидерландский, итальянский, польский и португальский.
- Простой интерфейс – минималистичный и понятный UI через Gradio.

💡 Для кого подходит?
Создатели подкастов, разработчики приложений, голосовые ассистенты, генераторы контента для видео, образовательные платформы.

---

Пошаговый гайд:

1. Ввод текста:
- В поле Input Text напишите текст на любом поддерживаемом языке.

2. Референсное аудио (опционально):
- Для клонирования голоса переключитесь на вкладку Reference Audio и загрузите образец голоса. Без образца голоса будут использоваться рандомные синтезированные голоса.

3. Настройка параметров:
- Используйте Advanced Config, чтобы настроить параметры синтеза под свои нужды.

Расширенные настройки:
- Iterative Prompt Length – определяет длину итерации текста (0 отключает эту функцию).
- Top-P – отвечает за разнообразие текста, чем выше значение, тем более свободной будет речь.
- Temperature – регулирует степень "творчества" в синтезе речи.
- Repetition Penalty – снижает повторяемость слов для более естественного результата.
- Seed – задаёт случайность генерации, 0 для случайного результата, любое число – для детерминированного.

4. Генерация:
- Нажмите Generate. После генерации аудио появится в правой части интерфейса. Вы можете прослушать результат или скачать его.

5. Эксперименты:
- Изменяйте параметры, такие как Top-P и Temperature, чтобы добиться нужного стиля речи.

Программа достаточно неприхотлива к видеопамяти и использует всего несколько гигабайт видеопамяти.

Скачать портативный Fish Speech 1.5 можно:

С моего хранилища | С зеркала (Yandex Disk)

Поддержать финансово: Boosty

#voicecloning #txt2audio #fishspeech
2025/01/10 14:54:34
Back to Top
HTML Embed Code: