data_analysis_ml Telegram Group

Анализ данных (Data analysis)

🔥 Hugging Face только что выпустил Open R1 Math — крупномасштабный набор данных для математического ризонинга

> 220 тыс. математических задач
> На ровне DeepSeek R1 7B менее чем с 25% данных SFT по Math
> 800 тыс. необработанных трассировок рассуждений R1
> Собран на основе Numina Math 1.5
> Apache 2.0 лицензирован

https://huggingface.co/datasets/open-r1/OpenR1-Math-220k

@data_analysis_ml

4.4K viewsedited 18:14

Анализ данных (Data analysis)

1:22

This media is not supported in your browser

VIEW IN TELEGRAM

ZyphraAI только что выпустили - лицензированную Apache 2.0, многоязычную модель Zonos для преобразования текста в речь с МГНОВЕННЫМ клонированием голоса! 🔥

> TTS с нулевой скоростью задержки и клонированием голоса: введите текст и 10–30-секундный образец речи для создания высококачественной генерации текста в речь

> Качество звука и контроль эмоций: точная настройка скорости речи, высоты тона, частоты, качества звука и эмоций (например, счастья, гнева, грусти, страха)

> Позволяет реализовать такие фишки, как шепот, которые трудно реализовать с помощью одного лишь клонирования голоса.

> Многоязычная поддержка: поддерживает английский, японский, китайский, французский и немецкий языки.

> Высокая производительность: работает примерно в 2 раза быстрее реального времени на RTX 4090

> Доступно на Hugging Face Hub 🤗

apt install espeak-ng

https://huggingface.co/Zyphra/Zonos-v0.1-hybrid

#ai #ml #tts #opensource #ZyphraAI

4.1K views05:52

Анализ данных (Data analysis)

Forwarded from Machinelearning

🌟 Масштабирование вычислений LLM с использованием скрытых рассуждений: метод с рекуррентной глубиной.

Экспериментальная архитектура LLM, которая способна масштабировать вычисления за счет скрытых рассуждений в латентном пространстве путем итеративного применения рекуррентного блока, что дает возможность развернуть вычисления на произвольную глубину.

Этот метод отличается от традиционных, которые увеличивают вычислительные ресурсы за счет генерации большего количества токенов. Например, в отличие от CoT, предложенный подход не требует специализированных датасетов, работает с небольшими окнами контекста и способен захватывать типы рассуждений, которые сложно выразить словами. В дополнение, модели этой архитектуры требуют меньше памяти для обучения и инференса.

Тестовая модель Huginn-3.5B получила 3.5 млрд параметров и была обучена на 800 млрд. токенов (веб-страницы, научные публикации и программный код) с использованием случайного числа итераций рекуррентного блока для каждой входной последовательности. Чтобы сократить потребление памяти использовалось усеченное обратное распространение, при котором градиенты вычисляются только для последних итераций.

Модель состоит из 3 основных блоков: прелюдии, рекуррентного блока и коды. Прелюдия преобразует входные данные в латентное пространство, рекуррентный блок выполняет итеративные вычисления, а кода преобразует латентное состояние обратно в вероятности токенов. Рекуррентный блок может быть повторен произвольное количество раз, позволяя модели выполнять произвольное количество вычислений перед генерацией токена.

Результаты проведенных тестов на стандартных задачах ARC, HellaSwag, MMLU свидетельствуют, что Huginn-3.5B превосходит традиционные модели на задачах, требующих сложных рассуждений (математические задачи и программирование). Например, на задачах GSM8k и MATH модель показала значительное улучшение производительности при увеличении числа рекуррентных итераций.

⚠️ Модель не подвергалась файнтюну или посттренингу, но благодаря включению instruct-данных во время претрейна, она изначально понимает свой шаблон чата.

⚠️ Чекпоинт на HF обучался всего на 47000 шагах и является академическим проектом.

▶️ Локальный инференс:

# Load the model
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("tomg-group-umd/huginn-0125", torch_dtype=torch.bfloat16, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("tomg-group-umd/huginn-0125")


# Modifying the Model's Depth at Test Time
input_ids = tokenizer.encode("The capital of Westphalia is", return_tensors="pt", add_special_tokens=True).to(device)
model.eval()
model.to(device)

model(input_ids, num_steps=32)


# Model can be used like a normal HF model
# You can provide `num_steps` directly to the `generate` call
model.eval()
config = GenerationConfig(max_length=256, stop_strings=["<|end_text|>", "<|end_turn|>"], 
                          use_cache=True,
                          do_sample=False, temperature=None, top_k=None, top_p=None, min_p=None, 
                          return_dict_in_generate=True,
                          eos_token_id=65505,bos_token_id=65504,pad_token_id=65509)


input_ids = tokenizer.encode("The capital of Westphalia is", return_tensors="pt", add_special_tokens=True).to(device)
outputs = model.generate(input_ids, config, tokenizer=tokenizer, num_steps=16)

📌 Лицензирование: Apache 2.0 License.

🟡

Модель

🟡

Arxiv

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #LatentReasoning

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

3.5K views10:48

Анализ данных (Data analysis)

💥OpenAI только выпустили статью Competitive Programming with Large Reasoning Models

Примечательно, что o3 получил золотую медаль на IOI 2024 и рейтинг на Codeforces на уровне элитных программистов мира.

В целом, эти результаты указывают на то, что масштабирование обучения с подкреплением общего назначения, а не упор на специфичные для домена методы, предлагает надежный путь к современному ИИ в областях рассуждений, таких как олимпиадное программирование.

https://arxiv.org/abs/2502.06807

@data_analysis_ml

5.1K views05:16

Анализ данных (Data analysis)

STORM — LLM, которая позволяет писать статьи в стиле Википедии с нуля на основе результатов поиска в Интернете.

Имитирует разговоры между автором Википедии и экспертом по теме, опирающимся на интернет-источники. Это помогает системе обновлять свое понимание темы и задавать уточняющие вопросы.

→ Функция Co-STORM для совместного курирования знаний человеком и ИИ. Она использует протокол совместного дискурса для плавного взаимодействия между пользователями-людьми, экспертами Co-STORM LLM и агентом-модератором.

→ Поддерживает различные языковые модели через litellm и модули поиска, такие как YouRM, BingSearch и VectorRM. Он предлагает гибкость в выборе компонентов на основе стоимости и качества.

→ Содержит примеры скриптов для быстрого начала работы со STORM и Co-STORM, а также инструкции по настройке ключей API с помощью secrets.toml.

→ Предлагает датасеты FreshWiki и WildSeek для исследований в области автоматического сбора знаний и сложного поиска информации.

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

3.6K views10:26

Анализ данных (Data analysis)

🌟 GenBI AI Agent с открытым исходным кодом, который позволяет разработчикам, работающим с данными, использовать свои данные для создания текстовых SQL-преобразований, диаграмм, электронных таблиц, отчетов и бизнес-аналитики. 📊

Помогает вам взаимодействовать с данными для генерации SQL, диаграмм и отчетов, используя выбранный вами LLM. Он предоставляет решение GenBI с открытым исходным кодом для команд, работающих с данными и ищущих информацию без кода.

Что он предлагает:ц
→ Wren AI — это агент GenBI AI с открытым исходным кодом, который позволяет командам, работающим с данными, взаимодействовать со своими данными через промпты.

→ Он генерирует запросы Text-to-SQL, диаграммы, электронные таблицы, отчеты и аналитические данные BI.

→ Поддерживает несколько LLM, включая OpenAI, Azure OpenAI, DeepSeek, Google Gemini, Vertex AI, Bedrock, Anthropic, Groq, Ollama и Databricks.

→ Wren AI позволяет пользователям задавать вопросы о данных на нескольких языках и предоставляет созданные ИИ сводки и визуализации результатов запросов.

→ Он включает в себя исследование данных на основе искусственного интеллекта, семантическое индексирование для контекста и позволяет экспортировать данные в Excel и Google Таблицы.

 — curl -L https://github.com/Canner/WrenAI/releases/latest/download/wren-launcher-darwin.tar.gz | tar -xz && ./wren-launcher-darwin

⚡️

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

4.5K views12:03

Анализ данных (Data analysis)

0:22

This media is not supported in your browser

VIEW IN TELEGRAM

🧍 MDM: Human Motion Diffusion Model

Обновленная модель для реалистичной генерации человеческих движений.

🎯 Модель поддерживает технологию Text-to-motion, которая позволяет создавать управляемые движение на основе текстовых промптов.

Экспериментировать можно либо с готовыми моделями, либо тренируя собственные, используя готовые скрипты и данные из коллекции трёхмерных изображений людей HumanML3D.

✨ Сверхбыстрая генерация
♾ Создает реалистичные, динамичные движения
🔄 Плавное переключение движения на лету

▪Github: https://github.com/GuyTevet/motion-diffusion-model
▪Paper: https://arxiv.org/abs/2209.14916
▪Demo: https://replicate.com/arielreplicate/motion_diffusion_model

@data_analysis_ml

3.6K views09:00

Анализ данных (Data analysis)

🧠 OpenThinker-32B: похоже это лучшая модель рассуждений обученная на открытых данных, созданная на основе DeepSeek-R1.

Ммодель 32B превосходит все модели 32B, включая DeepSeek-R1-Distill-Qwen-32B (закрытую модель данных) в MATH500 и GPQA Diamond, и показывает схожую производительность на других бенчмарках.

Blog Post: https://open-thoughts.ai/blog/scale
Model Link: https://huggingface.co/open-thoughts/OpenThinker-32B
Dataset: https://huggingface.co/datasets/open-thoughts/OpenThoughts-114k
Data Curation Code: https://github.com/open-thoughts/open-thoughts
Evaluation Code: https://github.com/mlfoundations/evalchemy

@data_analysis_ml

3.6K views11:04

Анализ данных (Data analysis)

0:29

This media is not supported in your browser

VIEW IN TELEGRAM

🎥 Модель генерации видео Veo 2 теперь доступна в YouTube Shorts.

С помощью функции Dream Screen создатели контент могут:
✨ Создавать новые клипы, которые органично вписываются в повествование на видео, с помощью текстовых промптов.
✨ Использовать eo 2 для создания фонов к видео.

https://blog.youtube/news-and-events/veo-2-shorts/

@data_analysis_ml

#Veo #ml #youtube

3.2K viewsedited 19:19

Анализ данных (Data analysis)

✔ NanoSage — это продвинутый инструмент для рекурсивного поиска и генерации отчётов, который работает локально на вашем компьютере, используя небольшие языковые модели.

NanoSage представляет собой «глубокого исследовательского ассистента», который:

- Выполняет рекурсивный поиск: система разбивает исходный запрос на подзапросы, чтобы исследовать тему с разных сторон.
- Интегрирует данные из нескольких источников: объединяются результаты локальных документов и веб-поиска, что позволяет получить максимально полное представление по теме.
Генерирует структурированные отчёты: итоговый результат оформляется в виде подробного Markdown-отчёта с оглавлением, отражающим путь исследования.
(См. подробное описание в )

Как работает NanoSage
1. Подготовка и конфигурация
Настройка параметров: с помощью командной строки задаются основные параметры, такие как основной запрос (--query), глубина рекурсии (--max_depth), использование веб-поиска (--web_search) и выбор модели для поиска.

Конфигурация через YAML: дополнительные настройки, например, минимальный порог релевантности, ограничение на длину запроса и др., задаются в конфигурационном файле.
2. Рекурсивный поиск и построение дерева знаний
Расширение запроса: исходный запрос обогащается с помощью метода «chain-of-thought», что позволяет выявить скрытые аспекты темы.
Генерация подзапросов: система автоматически разбивает исходный запрос на несколько релевантных подзапросов, каждый из которых анализируется отдельно.
Фильтрация по релевантности: применяется алгоритм для оценки релевантности каждого подзапроса, что помогает избежать «провалов» и ненужных отклонений от темы.
Сбор данных: для каждого релевантного подзапроса NanoSage загружает веб-страницы, анализирует локальные файлы и суммирует полученную информацию.
3. Генерация финального отчёта
: итоговый отчёт составляется с использованием LLM модели (например, Gemma 2B), которая интегрирует все собранные данные в связное и подробное описание.

- Структурирование информации: результат оформляется в виде Markdown-документа, где оглавление представляет собой граф поискового процесса, а каждый раздел подробно описывает полученные результаты.
(Подробнее о внутренней архитектуре см. и )

- Интеграция разных источников данных:
Объединение информации из веб-ресурсов и локальных документов повышает полноту и точность исследования.

- Баланс глубины и широты поиска:
Использование метода Монте-Карло помогает находить баланс между детальным анализом отдельных аспектов и широким охватом темы.

Гибкость и настройка:
Параметры, такие как выбор модели для поиска, глубина рекурсии и порог релевантности, можно легко настроить под конкретные задачи.

Если вам важны приватность, гибкость и детальный анализ информации, NanoSage может стать отличным решением для ваших исследовательских задач.

▪Github

#cli #local #algorithms #python3 #knowledgebase #ollama

2.8K viewsedited 05:24

Анализ данных (Data analysis)

Профессия аналитика данных — одна из самых высокооплачиваемых и перспективных в сфере IT.
На курсе «Аналитик данных» от Нетологии вы с нуля освоите необходимые навыки за 7 месяцев под руководством опытных наставников-практиков.

Вы изучите SQL, Python, Power BI — ключевые инструменты для работы с данными.

Научитесь использовать статистические методы, строить и проверять гипотезы.

Создадите 4 полноценных проекта для своего портфолио и выполните более 20 практических заданий.

А по окончании курса получите диплом о профпереподготовке и сможете претендовать на должность junior-аналитика.

Начните свой путь в сфере аналитики данных — присоединяйтесь к программе. Промокод BIGDATA45 даст повышенную скидку 45% от цены курса.

Реклама. ООО "Нетология". ИНН 7726464125 Erid 2VSb5x7Td5z

2.7K views10:22

Анализ данных (Data analysis)

🔥

deep-research - открытая реализация нового агента Deep Research от OpenAI!

💡 Цель проекта — предоставить возможности глубокого обучениы без необходимости оплачивать платные сервисы, предлагая настраиваемые параметры для регулирования глубины и широты исследования. Пользователи могут запускать агента в течение разного времени — от 5 минут до нескольких часов — в зависимости от потребностей, при этом система автоматически адаптируется к заданным параметрам.

🔐 Лицензия: MIT

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

2.5K views12:34

Анализ данных (Data analysis)

Евгений Разинков – преподаватель ML в Казанском университете с многолетним стажем, руководитель собственной команды ML-инженеров и автор популярного канала по машинному обучению на YouTube

приглашает вас в свою AI-школу.

Особенности:
• теория и практика
• акцент на самостоятельную реализацию архитектур с нуля
• полное понимание того, что происходит внутри нейронной сети
• архитектуры от сверточных нейронных сетей до трансформеров и языковых моделей.

Регулярные живые QA-сессии, дружное комьюнити, а также компетишены, где можно будет посоревноваться (в командах и поодиночке) в решении ML задач.

От вас: владение Python и знание основ классического ML (регрессия, классификация, градиентный спуск).
Если классический ML не знаете - есть базовые курсы по ML.

7 месяцев, 4 курса:
• AI: от основ до языковых моделей
• Math for AI - необходимый математический бэкграунд
• MLOps - всё про жизненный цикл модели, логирование, версионирование, docker
• Decision making in AI - управление AI-проектом и стратегия

В рамках Capstone Project вы с нуля реализуете и обучите небольшую языковую модель для генерации простых историй, а также выведете ее в продакшн.

Полная стоимость за 7 месяцев (все 4 курса):
• 112 000 рублей (единоразово)
или
• 17 000 рублей в месяц
Если материалы вам не понравятся, мы вернем деньги за текущий оплаченный месяц (и последующие при единоразовой оплате)!

Старт уже 17 февраля, скорее регистрируйтесь здесь!

Еще больше подробностей о курсе ищите в видео и на странице с отзывами участников.

Кстати, теоретические видео курса AI: от основ до трансформеров находятся в открытом доступе на канале Евгения!

ООО «Лаборатория Евгения Разинкова», ИНН: 5043088023, erid: 2VtzqxKcuC1

YouTube

Евгений Разинков

Лекции по машинному обучению и компьютерному зрению от Евгения Разинкова.

Евгений Разинков -- к.ф.-м.н., ко-фаундер и директор по науке компании Pr3vision Technologies, доцент кафедры мат. статистики мехмата КФУ.

1.7K views17:20

Анализ данных (Data analysis)

🔥

RD-Agent — это инструмент с открытым исходным кодом, разработанный Microsoft для автоматизации процессов исследований и разработок (R&D), особенно в сфере искусственного интеллекта!

🌟 Он предназначен для повышения производительности в промышленности, фокусируясь на автоматизации высокоценных процессов, связанных с данными и моделями.

🔐 Лицензия: MIT

🖥

Github

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

1.2K views19:20

2025/02/14 21:19:46
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>