⭐️ Awesome-LLM-Synthetic-Data - курируемый список ресурсов, инструментов и исследований, связанных с использованием синтетических данных для больших языковых моделей (LLM).
Чем полезен:
- Централизованная база знаний:
Вместо того чтобы самостоятельно искать статьи, библиотеки и исследования по синтетическим данным, здесь собрана готовая, структурированная подборка материалов.
- Актуальные инструменты и методы:
Репозиторий включает ссылки на инструменты для генерации синтетических данных, методы оценки их качества и примеры интеграции в пайплайны обучения LLM. Для практикующего специалиста это может стать источником идей для оптимизации процессов обучения и экспериментов с новыми методами.
- Поддержка исследований и разработки:
Если ваша работа связана с решением проблем, где реальных данных не хватает или данные зашумлены, использование синтетически данных может значительно улучшить результаты. Этот репозиторий поможет изучить современные подходы к генерации и использованию синтетических данных, что особенно актуально при разработке и тестировании новых моделей.
▪ Github
@machinelearning_interview
Чем полезен:
- Централизованная база знаний:
Вместо того чтобы самостоятельно искать статьи, библиотеки и исследования по синтетическим данным, здесь собрана готовая, структурированная подборка материалов.
- Актуальные инструменты и методы:
Репозиторий включает ссылки на инструменты для генерации синтетических данных, методы оценки их качества и примеры интеграции в пайплайны обучения LLM. Для практикующего специалиста это может стать источником идей для оптимизации процессов обучения и экспериментов с новыми методами.
- Поддержка исследований и разработки:
Если ваша работа связана с решением проблем, где реальных данных не хватает или данные зашумлены, использование синтетически данных может значительно улучшить результаты. Этот репозиторий поможет изучить современные подходы к генерации и использованию синтетических данных, что особенно актуально при разработке и тестировании новых моделей.
▪ Github
@machinelearning_interview
⚡️ Разбор собеседования по машинному обучению в Озон 2025
https://uproger.com/razbor-sobesedovaniya-po-mashinnomu-obucheniyu-v-ozon-2025/
@machinelearning_interview
https://uproger.com/razbor-sobesedovaniya-po-mashinnomu-obucheniyu-v-ozon-2025/
@machinelearning_interview
Хочешь обучить нейронку, но не хватает локальных мощностей? На новую видеокарту не хватает денег? Зачем покупать, когда можно арендовать!
immers.cloud — это облачный сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.
💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут
📈 Гибкость и масштабирование до любой конфигурации: 11 видеокарт на выбор
🔧 Удобство:готовые образы для ML задач, чтобы не тратить время на настройку
🎁 Подготовили приятный бонус для тебя: +20% к пополнению баланса
immers.cloud — это облачный сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.
💰 Экономия: тарифы от 23 рублей/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут
📈 Гибкость и масштабирование до любой конфигурации: 11 видеокарт на выбор
🔧 Удобство:готовые образы для ML задач, чтобы не тратить время на настройку
🎁 Подготовили приятный бонус для тебя: +20% к пополнению баланса
This media is not supported in your browser
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Проект объединяет использование LLM, векторные базы данных для выполнения задач поиска, оценки, ризонинга на основе предоставленных данных (файлы, текст, источники).
Позиционируется разработчиками как инструмент для управления знаниями предприятия, интеллектуальных QA-систем и сценариев поиска информации.
DeepSearcher умеет использовать при необходимости информацию из интернета, совместим с векторными базами Milvus и их сервис-провайдером Zilliz Cloud, эмбедингами Pymilvus, OpenAI и VoyageAI. Есть возможность подключения LLM DeepSeek и OpenAI по API напрямую или через TogetherAI и SiliconFlow.
Поддерживается локальная загрузка файлов, подключение веб-краулеров FireCrawl, Crawl4AI и Jina Reader.
В ближайших планах - добавление возможности веб-клиппера, расширение списка поддерживаемых векторных баз, создание RESTful API интерфейса.
# Clone the repository
git clone https://github.com/zilliztech/deep-searcher.git
# Create a Python venv
python3 -m venv .venv
source .venv/bin/activate
# Install dependencies
cd deep-searcher
pip install -e .
# Quick start demo
from deepsearcher.configuration import Configuration, init_config
from deepsearcher.online_query import query
config = Configuration()
# Customize your config here
config.set_provider_config("llm", "OpenAI", {"model": "gpt-4o-mini"})
init_config(config = config)
# Load your local data
from deepsearcher.offline_loading import load_from_local_files
load_from_local_files(paths_or_directory=your_local_path)
# (Optional) Load from web crawling (`FIRECRAWL_API_KEY` env variable required)
from deepsearcher.offline_loading import load_from_website
load_from_website(urls=website_url)
# Query
result = query("Write a report about xxx.") # Your question here
@ai_machinelearning_big_data
#AI #ML #Agents #DeepSearcher
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
📊 Бесплатный вебинар для тех, кто хочет освоить машинное обучение с нуля!
Присоединяйтесь к практическому уроку «Задача регрессии в ML на пальцах» от OTUS. В прямом эфире обсудим один из ключевых методов машинного обучения — регрессионный анализ.
На вебинаре вы:
- познакомитесь с таким классом задач, как регрессия
- детально изучите один из базовых алгоритмов машинного обучения — линейную регрессию
- научитесь применять линейную регрессию на практике
- сможете задать вопросы по Data Science
📅 Занятие пройдет 26 февраля в 20:00 мск. Все участники вебинара получат скидку на курс «Специализация Machine Learning»: С нуля до Middle ML инженера (Data Scientist) за 11 месяцев.
Успейте занять место на бесплатном вебинаре: https://otus.pw/nOzP/?erid=2W5zFJ2m6Wk
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Присоединяйтесь к практическому уроку «Задача регрессии в ML на пальцах» от OTUS. В прямом эфире обсудим один из ключевых методов машинного обучения — регрессионный анализ.
На вебинаре вы:
- познакомитесь с таким классом задач, как регрессия
- детально изучите один из базовых алгоритмов машинного обучения — линейную регрессию
- научитесь применять линейную регрессию на практике
- сможете задать вопросы по Data Science
📅 Занятие пройдет 26 февраля в 20:00 мск. Все участники вебинара получат скидку на курс «Специализация Machine Learning»: С нуля до Middle ML инженера (Data Scientist) за 11 месяцев.
Успейте занять место на бесплатном вебинаре: https://otus.pw/nOzP/?erid=2W5zFJ2m6Wk
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Please open Telegram to view this post
VIEW IN TELEGRAM
🚀 Deep Seek представили NSA – инновационную Sparse Attention технологию для ультрабыстрого обучения и инференса с длинным контекстом!
Основные детали:
• Динамическая иерархическая разреженность – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.
Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.
Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089
@machinelearning_interview
Основные детали:
• Динамическая иерархическая разреженность – модель умело распределяет внимание, выделяя ключевые моменты в длинных последовательностях.
• Грубое сжатие токенов – снижает объём обрабатываемых данных без потери важной информации.
• Точный выбор токенов – сохраняет критически значимые детали для высокой точности.
Благодаря оптимизации под современное железо NSA не только ускоряет инференс, но и снижает затраты на предобучение, при этом демонстрируя результаты, сравнимые или превосходящие Full Attention модели на общих тестах, задачах с длинным контекстом и инструктивном рассуждении.
Подробности и технические детали в статье: https://arxiv.org/abs/2502.11089
@machinelearning_interview
✔ MoBA: Mixture of Block Attention for Long-Context LLMs представляет собой революционное решение для обработки длинных контекстов в языковых моделях. Вот что в нём интересно:
• Инновационная архитектура:
- Блочное разреженная внимание: Полный контекст делится на блоки, и каждый токен учится выбирать наиболее релевантные блоки, что позволяет эффективно обрабатывать длинные последовательности.
• Параметрически независимый механизм выбора: Внедрён механизм топ-k без дополнительных параметров, который автоматически переключается между полным и разреженным вниманием, что делает модель гибкой и адаптивной.
• Эффективность и масштабируемость:
MoBA обеспечивает значительное ускорение (например, 6.5x скорость при 1 млн входных токенов) без потери производительности, что особенно важно для задач с длинным контекстом.
• Практическое применение:
Модель уже доказала свою эффективность в продакшене и демонстрирует превосходное качество работы.
Проект MoBA будет полезен всем, работающим над масштабированием LLMs и задачами с длинным контекстом, предоставляя эффективный и гибкий механизм внимания, который можно легко интегрировать в существующие системы.
▪ Github
@machinelearning_interview
• Инновационная архитектура:
- Блочное разреженная внимание: Полный контекст делится на блоки, и каждый токен учится выбирать наиболее релевантные блоки, что позволяет эффективно обрабатывать длинные последовательности.
• Параметрически независимый механизм выбора: Внедрён механизм топ-k без дополнительных параметров, который автоматически переключается между полным и разреженным вниманием, что делает модель гибкой и адаптивной.
• Эффективность и масштабируемость:
MoBA обеспечивает значительное ускорение (например, 6.5x скорость при 1 млн входных токенов) без потери производительности, что особенно важно для задач с длинным контекстом.
• Практическое применение:
Модель уже доказала свою эффективность в продакшене и демонстрирует превосходное качество работы.
Проект MoBA будет полезен всем, работающим над масштабированием LLMs и задачами с длинным контекстом, предоставляя эффективный и гибкий механизм внимания, который можно легко интегрировать в существующие системы.
▪ Github
@machinelearning_interview
Media is too big
VIEW IN TELEGRAM
🧠 Современные методы статистической теории в машинном обучении
- Видео
- Colab
- Полный курс
@machinelearning_interview
- Видео
- Colab
- Полный курс
@machinelearning_interview
Суперзадача для профи в ML:
Разработайте курс вместе с Яндекс Практикумом!
Яндекс Практикум — сервис современного онлайн-образования, где обучают актуальным цифровым профессиям.
Сейчас мы обновляем курс «Инженер машинного обучения» и собираем команду, которая свежим взглядом сможет посмотреть на материал и сделать контент лучше.
Что делает автор курса?
Разрабатывает уроки, тесты, чек-листы, а если шире, то его задача так упаковать свой опыт, чтобы заинтересовать, объяснять и мотивировать.
Условия сотрудничества — комфортные:
▪︎дополнительный доход, удалёнка, нагрузка от 10 часов в неделю,
▪︎возможность строить программу по своему усмотрению,
▪︎команда, где ценятся как знания, так и мемы.
🔗 Узнать подробности и откликнуться
Разработайте курс вместе с Яндекс Практикумом!
Яндекс Практикум — сервис современного онлайн-образования, где обучают актуальным цифровым профессиям.
Сейчас мы обновляем курс «Инженер машинного обучения» и собираем команду, которая свежим взглядом сможет посмотреть на материал и сделать контент лучше.
Что делает автор курса?
Разрабатывает уроки, тесты, чек-листы, а если шире, то его задача так упаковать свой опыт, чтобы заинтересовать, объяснять и мотивировать.
Условия сотрудничества — комфортные:
▪︎дополнительный доход, удалёнка, нагрузка от 10 часов в неделю,
▪︎возможность строить программу по своему усмотрению,
▪︎команда, где ценятся как знания, так и мемы.
Please open Telegram to view this post
VIEW IN TELEGRAM
⭐️ База ресурсов для поиска удаленно работа
• Toptal — ИТ фриланс для разработчиков с опытом;
• Wellfound — различные вакансии для стартапов и фрилансеров;
• RemoteOK — база для разных профессий;
• Remotive — удалёнка для айти и маркетинга;
• Галилео.ру — для инженеров;
• FlexJobs — для поиска подработок;
• JustRemote — парт-тайм работа тут;
• PowerToFly — для женщин в ИТ и бизнесе;
• RemoteWoman — для женщин, ищущих удалёнку в разных областях;
• AI Jobs — вакансии в сфере ИИ;
• Working Nomads — для цифровых кочевников, вакансии в маркетинге и ИТ;
• Simply Hired — поиск вакансий по всему миру;
• Angel List — стартапы, удалёнка в технологиях и бизнесе;
• Virtual Vocations — удалённые вакансии в разных сферах (администрация, маркетинг, ИТ);
• Remote Work — общий сайт;
• LinkedIn — ищем удалёнку среди обычных вакансий в профиле;
• We Work Remotely — удалёнка для разработчиков, дизайнеров и маркетологов;
• Jobspresso — качественные удалённые вакансии для профессионалов;
• Jobgether — удалёнка в разных профессиях, от маркетинга до ИТ;
• Fiverr — фриланс-платформа для самых разных краткосрочных проектов;
• Daily Remote — база удалённых вакансий в ИТ, маркетинге и других сферах;
• Crossover — высококачественная удалёнка для разработчиков и менеджеров;
• Outsourcely — фриланс для разных профессий;
• Upwork — крупнейшая платформа для фрилансеров, включает ВСЕ профессии;
• Dribbble — для дизайнеров и креативщиков, в том числе удалённая работа;
• Monster.com — вакансии по всему миру, в том числе удалённые;
• Angel.co — стартапы, удалёнка в сфере технологий;
• Otta — вакансии в стартапах, в том числе удалённые.
@machinelearning_interview
• Toptal — ИТ фриланс для разработчиков с опытом;
• Wellfound — различные вакансии для стартапов и фрилансеров;
• RemoteOK — база для разных профессий;
• Remotive — удалёнка для айти и маркетинга;
• Галилео.ру — для инженеров;
• FlexJobs — для поиска подработок;
• JustRemote — парт-тайм работа тут;
• PowerToFly — для женщин в ИТ и бизнесе;
• RemoteWoman — для женщин, ищущих удалёнку в разных областях;
• AI Jobs — вакансии в сфере ИИ;
• Working Nomads — для цифровых кочевников, вакансии в маркетинге и ИТ;
• Simply Hired — поиск вакансий по всему миру;
• Angel List — стартапы, удалёнка в технологиях и бизнесе;
• Virtual Vocations — удалённые вакансии в разных сферах (администрация, маркетинг, ИТ);
• Remote Work — общий сайт;
• LinkedIn — ищем удалёнку среди обычных вакансий в профиле;
• We Work Remotely — удалёнка для разработчиков, дизайнеров и маркетологов;
• Jobspresso — качественные удалённые вакансии для профессионалов;
• Jobgether — удалёнка в разных профессиях, от маркетинга до ИТ;
• Fiverr — фриланс-платформа для самых разных краткосрочных проектов;
• Daily Remote — база удалённых вакансий в ИТ, маркетинге и других сферах;
• Crossover — высококачественная удалёнка для разработчиков и менеджеров;
• Outsourcely — фриланс для разных профессий;
• Upwork — крупнейшая платформа для фрилансеров, включает ВСЕ профессии;
• Dribbble — для дизайнеров и креативщиков, в том числе удалённая работа;
• Monster.com — вакансии по всему миру, в том числе удалённые;
• Angel.co — стартапы, удалёнка в сфере технологий;
• Otta — вакансии в стартапах, в том числе удалённые.
@machinelearning_interview
Станьте ML-Инженером за 8 месяцев
Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом.
Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом»
Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое.
С трудоустройством тоже помогут: 87% студентов находят работу в течение двух месяцев с момента начала поиска.
А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу.
Совсем скоро стартует новый поток
Узнать подробности
Основная проблема обучений – оторванность от задач реального бизнеса. На курсе учили строить простые модельки, а на работе – сделать по шаблону недостаточно, нужно сразу связать это с бизнесом.
Курс-симулятор от Simulative построен таким образом, что вы сразу погружаетесь в настоящую работу: работаете над 10+ проектами из реального бизнеса, учитесь не только писать код, но и понимать, что у алгоритмов «под капотом»
Вы изучите математику, Python, научитесь обучать ML-модели, нейронные сети и создавать рекомендательные системы. А также подготовитесь к любому собеседованию – в курс включены тестовые задания, пробные интервью (технические и с HR) и многое другое.
С трудоустройством тоже помогут: 87% студентов находят работу в течение двух месяцев с момента начала поиска.
А на VIP тарифе преподаватели и HR спроектируют вам персональный трек обучения и за руку доведут до оффера. Часть стоимости курса вы оплачиваете только, когда найдёте работу.
Совсем скоро стартует новый поток
Узнать подробности
Forwarded from Machinelearning
Открытый препринт книги Тарсиса Соуза (Tharsis Souza), PhD Лондонсого университета, в которой представлен критический анализ проблем и ограничений, возникающих у инженеров и руководителей технических проектов при разработке приложений на основе LLM.
Цель книги, по заявлению автора – помочь создавать надежные и безопасные системы на основе LLM, избегая распространенных ошибок.
Она ориентирована на разработчиков, технических менеджеров проектов и технических руководителей, стремящихся к углубленному пониманию и преодолению практических трудностей, связанных с внедрением LLM.
В отличие от преобладающего дискурса, акцентирующего возможности LLM, книга сосредоточена на практических сложностях и потенциальных ошибках реализации, предлагая подробное руководство по их преодолению.
В книге рассматриваются проблемы: структурной ненадежности, управления входными данными, тестирования, аспектов безопасности и элайнмента, зависимости от поставщиков и оптимизации затрат.
Книга сопровождается репозиторием с практическими примерами на Python, анализом реальных сценариев и решений.
@ai_machinelearning_big_data
#AI #ML #LLM #Book #Tutorial
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM