Telegram Group Search
📱 TL;DR анонсов с OpenAI DevDay

- Advanced Voice Mode стал доступен в публичном API
- Появилась возможность выполнять тонкую настройку GPT-4o на изображениях
- Включили кэширование промптов

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Суровая щедрость от IT-компаний в России
📱 Экспериментирую с Advanced Voice Mode в ChatGPT

В этом режиме языковая модель GPT-4o генерирует не только текст, но и голос. Благодаря этому модель может имитировать различные интонации, эмоции, повышать/понижать голос напрямую.

Кроме того, если ее правильно попросить, она может вздыхать, кашлять и даже шмыгать носом!

В одном случае удалось заставить её издать странный звук, не похожий на человеческий голос, - очень тихое электронное дрожание, шипение.

Примеры вы можете послушать в следующем посте.

Интересно, какие ещё звуки получится извлечь из нейросети.

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
📹 LTX-Video: DiT-модель для генерации видео в реальном времени

Компания Lightricks представила модель для создания видео из текста и изображений. LTX-Video генерирует видео в HD-качестве с частотой 24 кадра в секунду.

Что умеет:
- Генерация видео по текстовому описанию
- Создание видео на основе изображения и текста
- Работа с видео длительностью до 257 кадров
- Поддержка разрешения до 720x1280

Особенности:
- Создание длинных видео с высокой стабильностью качества
- Сверхбыстрая обработка благодаря оптимизации под GPU и TPU
- Использование frame-to-frame learning для согласованности кадров
- Отсутствие мерцания и нестабильности между сценами
- Работает в реальном времени

Где попробовать:
- HuggingFace Space
- Fal.ai (text-to-video)
- Fal.ai (image-to-video)
- Или локально в ComfyUI

Для лучших результатов используйте подробные промпты на английском языке. Чем детальнее описание, тем качественнее результат.

👩‍💻 GitHub
🤗 HuggingFace

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
🎨 Играюсь с Recraft v3

Это лучшая нейросеть для генерации фотореалистичных изображений по результатам sbs сравнения. Особенно хорошо модель понимает русскую эстетику.

Сервис позволяет создать кастомный стиль изображения. Как образец можно загрузить до 5 фотографий.

Последние четыре фотографии в посте имитируют стиль лиминальных пространств.

@hikonon
🌸 PureMind — бот психологической поддержки с ИИ

Я разработал бота для быстрой психологической помощи людям, когда нет возможности обратиться к профессионалам. Базовая языковая модель - Claude 3.5 Sonnet с кастомной подсказкой. Нейронная сеть «думает» в специальном месте, прежде чем ответить пользователю (как в o1).
Кроме того, у бота есть долговременная память, то есть он записывает информацию о пользователе и считывает ее при необходимости.

Бесплатно доступно 20 сообщений, а затем их можно будет купить через команду /pay. Вы можете протестировать бота и написать мне отзыв, а я дам вам дополнительные сообщения 😁

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
📱 Phi-4: новая малая языковая модель от Microsoft для математики и рассуждений

Microsoft представила Phi-4 - компактную языковую модель с улучшенными способностями в математике и логических рассуждениях.

Что умеет:
— Улучшенное решение математических задач
— Логические рассуждения и обоснования
— Контекст в 128К токенов
— Конкурирует с GPT-4o mini и Claude 3.5 Haiku (train on test set???)

Особенности:
— Компактная архитектура (14 млрд параметров)
— Обучение на высококачественных синтетических данных
— Оптимизирована для research задач

Весов нет, можно попробовать на
🔬 Azure AI Foundry

@hikonon
💬 Институт технологических инноваций (TII) из Абу-Даби представил Falcon 3 — семейство языковых моделей, содержащих до 10 миллиардов параметров.

Falcon 3 — это продолжение предыдущих разработок, в котором внимание уделяется расширению возможностей моделей в области науки, математики и программирования.

В это семейство входят пять базовых моделей:
- Falcon3-1B-Base
- Falcon3-3B-Base
- Falcon3-Mamba-7B-Base
- Falcon3-7B-Base
- Falcon3-10B-Base

Как создали Falcon 3:

— Провели одно предварительное обучение модели 7B на 1024 GPU-чипах H100 с использованием 14 триллионов токенов (веб-данные, код, STEM-информацию, а также многоязычные данные).

— Модель 7B была масштабирована до модели с 10 миллиардами параметров путем дублирования слоев и продолжения предварительного обучения на 2 триллионах токенов. В результате была получена модель Falcon3-10B-Base, которая достигает state-of-the-art показателей zero-shot и few-shot для моделей с менее чем 13 миллиардами параметров.

— Созданы модели Falcon3-1B-Base и Falcon3-3B-Base с использованием методов прунинга и дистилляции знаний из больших моделей.

Все модели семейства Falcon 3 доступны в вариантах Instruct, GGUF, GPTQ-Int4, GPTQ-Int8, AWQ и 1.58-bit.

Instruct-версии моделей демонстрируют отличную производительность в различных тестах: Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят все instruct-модели с менее чем 13 миллиардами параметров в открытом рейтинге.

Показатель в тестах MMLU демонстрирует прогресс в специализированных знаниях, с результатами 67,4/39,2 (MMLU/MMLU-PRO) для Falcon3-7B-Base и 73,1/42,5 (MMLU/MMLU-PRO) для Falcon3-10B-Base соответственно.

В январе 2025 года будут выпущены другие модели семейства Falcon 3 с расширенными мультимодальными возможностями (поддержка изображений, видео и аудио) и полный технический отчет.

🤗 HuggingFace

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Кто-то подводит итоги года, делясь количеством трат в Сбере, часов прослушанной музыки в Яндексе...

Суровые ресёрчеры же подводят итоги по статистике W&B 😎

С наступающим!

@hikonon
Please open Telegram to view this post
VIEW IN TELEGRAM
2025/01/15 01:15:38
Back to Top
HTML Embed Code: