@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
GitHub Copilot для Xcode Chat стал доступен для публичного превью. Для начала работы достаточно учетной записи GitHub.
GitHub Copilot – это ИИ-ассистент, который помогает разработчикам писать код быстрее и точнее. Теперь, помимо дописывания кода, GitHub Copilot для Xcode предлагает интеллектуальные предложения для конкретных задач через интерактивный чат.
Для доступа к GitHub Copilot для Xcode потребуется лицензия Copilot. Есть бесплатный доступ, включающий 2000 итераций автозавершения кода и 50 чат-запросов в месяц.
devblogs.microsoft.com
SWE-Lancer позиционируется как инструмент оценки производительности языковых моделей в задачах программирования для фрилансеров. Он основан на 1400 фриланс-задачах, собранных из Upwork и репозитория Expensify. Задания варьируются от исправления незначительных ошибок до внедрения крупных функций.
SWE-Lancer предназначен для оценки как отдельных исправлений кода, так и управленческих решений, где модели должны выбирать лучшее предложение из нескольких вариантов. Одной из сильных сторон SWE-Lancer является использование сквозных тестов вместо изолированных модульных операций. Репозиторий бенчмарка ожидается в ближайшее время.
arxiv.org
X (ех-Twitter) значительно повысила цену на план подписки Premium+, дающий доступ к Grok 3 от xAI. Она подорожала почти до 50 долларов в месяц.
Теперь, чтобы пользоваться "deep search" и "reasoning", надо оформить отдельный план SuperGrok через приложение Grok.
Согласно сайту поддержки X, месячная подписка на Premium+ в США теперь стоит 50 долларов, а годовая – 350 долларов. Это уже второе повышение цен на план Premium+ за последние пару месяцев. В декабре компания подняла цену с 16 до 22 долларов в месяц. Таким образом, новая цена более чем вдвое превышает текущую стоимость подписки.
techcrunch.com
NSA (Natively Sparse Attention) — новый механизм внимания, предложенный на заменуFull Attention, который значительно ускоряет обработку длинных последовательностей текста без потери качества модели.
NSA использует динамическую иерархическую стратегию, которая сочетает сжатие токенов на грубом уровне с точным отбором ключевых токенов. Это позволяет сохранить глобальное понимание контекста и локальную точность. NSA поддерживает сквозное обучение, совместим с GQA и MQA, что делает его пригодным не только для инференса, но и для обучения.
Модели, обученные с использованием NSA показали 9х ускорение при прямом распространении и 6х при обратном для последовательностей длиной 64к токенов относительно Full Attention. В декодировании - 11х.
arxiv.org
Мира Мурати, ex-CTO OpenAI, покинула свой пост в сентябре 2024, заявив о желании "создать время и пространство для собственных исследований". И вот стало известно, что она – CEO компании Thinking Machines Lab. Ее миссия – разработка первоклассного AI, полезного и доступного для всех.
В команду Thinking Machines Lab вошли известные исследователи и ученые, в основном из OpenAI. Среди них – экс-вице-президент по исследованиям Баррет Зоф, руководитель по мультимодальным исследованиям Александр Кириллов, руководитель специальных проектов Джон Лакман и ведущий исследователь Люк Мец. Главным научным сотрудником станет Джон Шульман, один из ключевых создателей ChatGPT, ранее работавший в OpenAI и Anthropic. Есть специалисты из Google и Mistral AI.
Команда уже работает над рядом проектов в офисе в Сан-Франциско. Хотя конкретные продукты пока неясны, Thinking Machines Lab не планирует создавать копии ChatGPT или Claude. Цель – AI-модели, оптимизирующие сотрудничество между человеком и AI, что Мурати считает главным препятствием в развитии отрасли.
wired.com
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Bridging Text and Vision: A Multi-View Text-Vision Registration Approach for Cross-Modal Place Recognition
🖥 Github: https://github.com/nuozimiaowu/Text4VPR
📕 Paper: https://arxiv.org/abs/2502.14195v1
🌟 Dataset: https://paperswithcode.com/task/cross-modal-place-recognition
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/task/cross-modal-place-recognition
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ Мощная архитектура yf 14 млрд параметров
Модель способна детально прорабатывать сцены и динамику, генерируя высококачественные видео, где каждая деталь выглядит реалистично.
Модель поддерживает:
- Text-to-Video: генерация видео по текстовым запросам.
Image-to-Video: преобразование статических изображений в анимированные видеоролики.
- Видео-редактирование: внесение изменений в уже существующие видео.
- Text-to-Image: создание изображений на основе текста.
- Video-to-Audio: синтез аудио, соответствующих содержанию видео.
Такая универсальность делает модель полезной для широкого спектра приложений.
Использование видео VAE (вариационного автоэнкодера)
В основе модели лежит мощный видео VAE, который эффективно кодирует и декодирует видеоконтент. Это позволяет:
- Обрабатывать видео высокого разрешения (до 1080p).
- Сохранять временную динамику и последовательность кадров.
- Обеспечивать плавное и согласованное воспроизведение движения.
- Оптимизация для потребительских видеокарт
Несмотря на свои масштабы, модель оптимизирована для работы на современных GPU.
Например, версия T2V-1.3B требует всего 8,19 ГБпамяти и способна генерировать 5-секундное видео с разрешением 480p примерно за 4 минуты на RTX 4090 без применения дополнительных оптимизаций.
Как работает:
▪Ввод данных: Пользователь может задать текстовое описание, предоставить изображение или даже видео, в зависимости от задачи.
▪Кодирование: Виде VAE преобразует входные данные в компактное представление, сохраняя при этом критически важную информацию о сцене и динамике.
▪Генерация: На основе этого представления и с использованием огромного количества параметров модель генерирует новый видеоряд, который соответствует заданному описанию или образцу.
▪Декодирование: Затем VAE декодирует это представление обратно в полноценное видео, где соблюдаются все временные и визуальные детали.
Таким образом, Wan2.1-T2V-14B выделяется своей способностью не только создавать качественные видео по текстовому описанию, но и решать множество сопутствующих задач (от редактирования до генерации аудио), оставаясь при этом оптимизированной для работы на доступном оборудовании.
Это делает её одной из самых перспективных разработок в области генеративного видео на сегодняшний день.
@ai_machinelearning_big_data
#TexttoVideo #ai #ml #video #wanai
Please open Telegram to view this post
VIEW IN TELEGRAM
AISafetyLab: A Comprehensive Framework for AI Safety Evaluation and Improvement
🖥 Github: https://github.com/thu-coai/AISafetyLab
📕 Paper: https://arxiv.org/abs/2502.16776v1
🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/gptfuzzer
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Kiss3DGen: Repurposing Image Diffusion Models for 3D Asset Generation
🖥 Github: https://github.com/EnVision-Research/Kiss3DGen
📕 Paper: https://arxiv.org/abs/2503.01370v1
🌟 Dataset: https://paperswithcode.com/dataset/nerf
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/nerf
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
🖥 Github: https://github.com/dvlab-research/Seg-Zero
📕 Paper: https://arxiv.org/abs/2503.06520v1
🌟 Dataset: https://paperswithcode.com/dataset/refcoco
📌 Model: https://huggingface.co/Ricky06662/Seg-Zero-7B
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/refcoco
📌 Model: https://huggingface.co/Ricky06662/Seg-Zero-7B
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Seg-Zero: Reasoning-Chain Guided Segmentation via Cognitive Reinforcement
🖥 Github: https://github.com/yunncheng/MMRL
📕 Paper: https://arxiv.org/abs/2503.08497v1
🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s
@ArtificialIntelligencedl
🌟 Dataset: https://paperswithcode.com/dataset/imagenet-s
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ TxAgent: An AI agent for therapeutic reasoning across a universe of tools
🖥 Github: https://github.com/mims-harvard/TxAgent
📕 Paper: https://arxiv.org/abs/2503.10970v1
🌟 Methods: https://paperswithcode.com/method/align
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/method/align
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡️ MaTVLM: Hybrid Mamba-Transformer for Efficient Vision-Language Modeling
🖥 Github: https://github.com/hustvl/MaTVLM
📕 Paper: https://arxiv.org/abs/2503.13440v1
🌟 Methods: https://paperswithcode.com/method/speed
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/method/speed
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Machinelearning
Anthropic объявила о запуске новой функции веб-поиска для Claude. Теперь ИИ способен анализировать актуальные данные из интернета, предоставляя ответы с прямыми ссылками на источники. Это позволяет не только повысить достоверность информации, но и упростить проверку фактов.
Поиск доступен в режиме Preview для платных подписчиков в США, но в ближайшие месяцы ожидается глобальное расширение. Для активации ye;yj включить опцию в настройках профиля и начать диалог с Claude 3.7 Sonnet — система сама определит, когда требуется обращение к веб-источникам
anthropic.com
Hugging Face представила приложение HuggingSnap для iOS, использующее локальную Smolvlm2 для анализа изображений в реальном времени без подключения к сервису. В отличие от облачных аналогов, HuggingSnap обрабатывает данные исключительно на устройстве, экономя заряд устройства и гарантируя конфиденциальность. Пользователи могут получать описания объектов, сцен, текстов и сложных визуальных контекстов.
Для работы требуется iOS 18, но приложение также совместимо с macOS и Apple Vision Pro. По словам разработчиков, HuggingSnap-это пример, как локальный ИИ может стать повседневным инструментом.
techcrunch.com
Google активно тестирует интеграцию ИИ-ассистента Gemini в браузер Chrome, стремясь вывести его за рамки веб-сайта. Как выяснили исследователи, функционал разместят в верхней части окна — рядом с кнопками управления. В настройках появится возможность назначить горячие клавиши или активировать ассистент через меню. При запуске Gemini будет открываться в отдельном плавающем окне. Кроме того, Google планирует вынести иконку ассистента в системный трей — запускать его можно будет прямо с панели задач, хотя для работы потребуется активный Chrome.
Пока функция доступна лишь в экспериментальных сборках, а ее стабильность оставляет желать лучшего. Ясно одно - Google намерен конкурировать с Microsoft, предлагая свой подход к интеграции ИИ в повседневные инструменты.
windowslatest
Moonshot AI совместно с Гонконгским университетом анонсировали AudioX — универсальную модель на базе Diffusion Transformer, способную генерировать высококачественное аудио и музыку из текста, видео, изображений или их комбинаций. Главная инновация — стратегия маскирования входных данных, которая усиливает обучение кросс-модальных представлений.
Возможности AudioX: генерация любых звуков на основе текста, видео и их комбинаций (текстовый промпт к видео), восстановление "потерянной" части аудио, генерация музыки на основе текста, видео и их комбинации и "аутпейнт" существующего аудио.
Тесты AudioX: лучшая в 15+ задачах, включая генерацию звука по видео (VGGSound) и создание музыки по тексту (MusicCaps). На FAD и KL-дивергенции модель показала улучшение на 12–35% против Tango 2 и AudioLDM.
Веса и код - coming soon.
zeyuet.github
Microsoft Research представил Claimify — систему, которая решает проблему недостоверных ответов ИИ, извлекая из текстов только верифицируемые утверждения. Метод основан принципах: исключение субъективных суждений, сохранение критического контекста, устранение двусмысленностей, самостоятельность утверждений и др. Результаты тестов показывают, что 99% утверждений, извлечённых Claimify, полностью соответствуют исходному контексту.
microsoft
Это первая модель, работающая а реальном времени: 60+ mAP на COCO. SOTA на бенчмарке RF100-VLRF-DETR.
Github
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
PiEEG kit - bioscience Lab in home for your Brain and Body
🖥 Github: https://github.com/pieeg-club/PiEEG_Kit
📕 Paper: https://arxiv.org/abs/2503.13482
🌟 Methods: https://paperswithcode.com/task/eeg-1
@ArtificialIntelligencedl
🌟 Methods: https://paperswithcode.com/task/eeg-1
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
FastCuRL: Curriculum Reinforcement Learning with Progressive Context Extension for Efficient Training R1-like Reasoning Models
🖥 Github: https://github.com/nick7nlp/FastCuRL
📕 Paper: https://arxiv.org/abs/2503.17287v1
🌟 Tasks: https://paperswithcode.com/task/language-modeling
@ArtificialIntelligencedl
🌟 Tasks: https://paperswithcode.com/task/language-modeling
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Optimal Stepsize for Diffusion Sampling(OSS)
🖥 Github: https://github.com/bebebe666/optimalsteps
📕 Paper: https://arxiv.org/abs/2503.21774v1
🌟 Tasks: https://paperswithcode.com/task/denoising
@ArtificialIntelligencedl
🌟 Tasks: https://paperswithcode.com/task/denoising
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Harnessing the Reasoning Economy: A Survey of Efficient Reasoning for Large Language Models
🖥 Github: https://github.com/devoallen/awesome-reasoning-economy-papers
📕 Paper: https://arxiv.org/abs/2503.24377v1
@ArtificialIntelligencedl
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
Effect-driven interpretation: Functors for natural language composition
🖥 Github: https://github.com/UCSC-VLAA/MedReason
📕 Paper: https://arxiv.org/abs/2504.00993v1
🔗 Tasks: https://paperswithcode.com/task/knowledge-graphs
@ArtificialIntelligencedl
🔗 Tasks: https://paperswithcode.com/task/knowledge-graphs
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Crystal Generation with Space Group Informed Transformer
🖥 Github: https://github.com/deepmodeling/crystalformer
📕 Paper: https://arxiv.org/abs/2504.02367v1
🔗 Dataset: https://paperswithcode.com/dataset/alex-20
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/alex-20
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
ZClip: Adaptive Spike Mitigation for LLM Pre-Training
🖥 Github: https://github.com/bluorion-com/ZClip
📕 Paper: https://arxiv.org/abs/2504.02507v1
🔗 Dataset: https://paperswithcode.com/dataset/hellaswag
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/hellaswag
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM
REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers
🖥 Github: https://github.com/End2End-Diffusion/REPA-E
📕 Paper: https://arxiv.org/abs/2504.10483
🔗 Dataset: https://paperswithcode.com/dataset/imagenet
@ArtificialIntelligencedl
🔗 Dataset: https://paperswithcode.com/dataset/imagenet
@ArtificialIntelligencedl
Please open Telegram to view this post
VIEW IN TELEGRAM