🚀Только что выпущено новое семейство моделей генерации кода Salesforce (SFR-Embedding-Code), занявшее 1-е место на бенчмарке CoIR!
Модель доступна в в 2-х размерах: 2B, 400M.
Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования,
Пример Запуска:
✅Документация
✅Модель 400M
✅ Модель 2B
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
@ai_machinelearning_big_data
#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
Модель доступна в в 2-х размерах: 2B, 400M.
Основные характеристики:
1️⃣ Модель 2B: Занимает первое место в CoIR.
2️⃣ Модель 400M: демонстрирует лучшие показатели среди моделей на 0,5B параметров.
3️⃣ Поддерживает 12 языков программирования,
Python, Java, C++, JavaScript, C#
и другие!Пример Запуска:
import torch.nn.functional as F
from transformers import AutoTokenizer, AutoModel
# Each query needs to be accompanied by an corresponding instruction describing the task.
query_instruction_example = "Given Code or Text, retrieval relevant content"
queries = [
"how to implement quick sort in Python?"
]
# No instruction needed for retrieval passages
passages = [
"def quick_sort(arr):\n if len(arr) <= 1:\n return arr\n pivot = arr[len(arr) // 2]\n left = [x for x in arr if x < pivot]\n middle = [x for x in arr if x == pivot]\n right = [x for x in arr if x > pivot]\n return quick_sort(left) + middle + quick_sort(right)",
"def bubble_sort(arr):\n n = len(arr)\n for i in range(n):\n for j in range(0, n-i-1):\n if arr[j] > arr[j+1]:\n arr[j], arr[j+1] = arr[j+1], arr[j]\n return arr"
]
# load model with tokenizer
model = AutoModel.from_pretrained('Salesforce/SFR-Embedding-Code-2B_R', trust_remote_code=True)
# get the embeddings
max_length = 32768
query_embeddings = model.encode_queries(queries, instruction=query_instruction_example, max_length=max_length)
passage_embeddings = model.encode_corpus(passages, max_length=max_length)
# normalize embeddings
query_embeddings = F.normalize(query_embeddings, p=2, dim=1)
passage_embeddings = F.normalize(passage_embeddings, p=2, dim=1)
scores = (query_embeddings @ passage_embeddings.T) * 100
print(scores.tolist())
✅Документация
✅Модель 400M
✅ Модель 2B
📌Лицензирование моделей: CC-BY-NC-SA-4.0 License.
@ai_machinelearning_big_data
#CodeAI #MLResearch #SOTA #OpenScience #code #llm #ml
Запланировал закрытый брифинг для официальных лиц правительства США в Вашингтоне 30 января, на котором выступит Сэм Альтман.
- Специалисты в области искусственного интеллекта считают, что грядет большой прорыв в создании суперагентов уровня PHD." ...
Журналисты заявляют, что - "Сотрудники OpenAI рассказывали друзьям, что они одновременно и восхищены, и напуганы столь быстрым прогрессом".
📌 Подробнее
PS: Хайп в Твиттере снова вышел из-под контроля.
"Мы не Выпусти ИИ уровня AGI в следующем месяце, да мы его и не создавали.
У нас есть для вас кое-что очень интересное, но, пожалуйста, опустите пенку своих ожиданий и сократите их в 100 раз! " - написал Сэм Альтман
@ai_machinelearning_big_data
#openai #chatgpt #aiagents
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🚨Только что были выпущены веса для новой ризонинг модели DeepSeek-R1.
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
🖥 GitHub: https://github.com/deepseek-ai/DeepSeek-R1
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
Модель 685B разработана чтобы конкурировать с o1 от OpenAI и построена на архитектуре на DeepSeek V3.
Вы можете потестить ее на 8 * H200.
Размер примерно ~720GB.
UPDATE: эти гигачады выпустили сразу 6 моделей от 1.5B до 70B 🔥
DeepSeek-R1-Distill-Qwen-1.5B превосходит GPT-4o и Claude-3.5-Sonnet в математике, набрав 28,9% у AIMEE и 83,9%, стоимость примерно в 30 раз дешевле, чем o1 и примерно в 5 раз дешевле o1 mini.
🤗HF: https://huggingface.co/deepseek-ai/DeepSeek-R1/tree/main
📌Потестить: https://chat.deepseek.com/sign_in
@ai_machinelearning_big_data
#DeepSeek #deepseekv3 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🤗 Hugging Face не так давно выпустила собственную low-code библиотеку для просто создания ИИ- агентов ⚡️
Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.
↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!
Готово!
- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.
Установка:
Пример работы:
▪ GitHub
▪Подробнее
@ai_machinelearning_big_data
#codegen #llm #huggingface #ai #Smolagents
Smolagents - это библиотека на 100% с открытым исходным кодом, которая позволяет запускать мощные агенты, используя всего три строки кода.
↳ Импортируйте необходимые модули.
↳ Выберите агента
↳ Укажите LLM и инструменты, к которым он должен получить доступ.
↳ Запустите агент!
Готово!
- Поддерживает более 40 LLM
- Предоставляет один общий доступ к инструментам HF Hub.
- CodeAgent, который создает код и документирует свои действия.
Установка:
pip install smolagents
Пример работы:
from smolagents import CodeAgent, DuckDuckGoSearchTool, HfApiModel
agent = CodeAgent(tools=[DuckDuckGoSearchTool()], model=HfApiModel())
agent.run("How many seconds would it take for a leopard at full speed to run through Pont des Arts?")
▪ GitHub
▪Подробнее
@ai_machinelearning_big_data
#codegen #llm #huggingface #ai #Smolagents
Оказывается, вам просто нужно правильно стимулировать модель.
Читой воды обучение с подкреплением (RL) может научить модель думать и рефлексировать.
Мы возвращаемся в эпоху AlphaGo: играя в бесчисленные партии Go и максимально увеличивая функцию вознаграждения (выигрыш в игре), используя чистый RL, AlphaGo научился побеждать лучших игроков мира.
Похоже это будет эра LLM RL.
📕 Paper
@ai_machinelearning_big_data
#DeepSeek #deepseekr1 #reasoning #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👑 Вчера была выпущена еще одна интересная китайская опенсорс модель ризонинга.
Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).
- Контекст 128 тыс. токенов
- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).
→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)
- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME
⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5
#llm #reasoning #ml #Kimi #preview
Kimi представила Kimi k1.5 - мультимодальную модель, использующую обучение с подкреплением с длинной и короткой цепочкой размышления (CoT).
- Контекст 128 тыс. токенов
- Согласно их опубликованному отчету, они достигли производительности SOTA в таких тестах, как AIME (77,5), MATH-500 (96,2) и LiveCodeBench (47,3).
→ Производительность Long-CoT соответствует o1 в нескольких тестах: Math Vista, Codeforces и т.д)
- Модель превосходит GPT-4o и Claude Sonnet 3.5 на AIME
⚡️ Технический отчет: https://github.com/MoonshotAI/Kimi-k1.5
#llm #reasoning #ml #Kimi #preview
Хочешь обучить нейронку, но не хватает локальных мощностей? На новую видеокарту не хватает денег? Выход есть — аренда!
immers.cloud — это облачный сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.
💰 Экономия: тарифы от 23 руб/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут
📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование
🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку
🎁 Подготовили приятный бонус для тебя: +20% к пополнению баланса
immers.cloud — это облачный сервис, предоставляющий доступ к мощным видеокартам для самых различных задач.
💰 Экономия: тарифы от 23 руб/час, оплата только за фактическое время использования
⚡️ Быстрый старт: видеокарты и серверы готовы к работе за пару минут
📈 Гибкость и масштабируемость: 11 видеокарт на выбор, быстрый старт и масштабирование
🔧 Удобство: готовые образы для ML задач, чтобы не тратить время на настройку
🎁 Подготовили приятный бонус для тебя: +20% к пополнению баланса
Hunyuan3D 2.0 - усовершенствованная система 3D-синтеза и генерации текстурированных 3D-объектов высокого разрешения.
Эта система включает в себя два основных компонента: модель генерации формы - Hunyuan3D-DiT и модель синтеза текстуры - Hunyuan3D-Paint.
Генеративная модель формы, построена на масштабируемом диффузионном трансформере, она нужна для создания правильной геометрии объекта и отвечает за согласование генерации.
Модель синтеза текстур создает карты текстур высокого разрешения для сгенерированных или созданных вручную сеток.
Модель превосходит предыдущие модели, как с открытым кодом, так и платные модели по детализации, геометрии, качеству текстур и т. д.
▪ GitHub
▪ HF
▪Demo
@ai_machinelearning_big_data
#AI #ML #TextTo3D #ImgTo3D #Hunyuan3D #Tencent #3dgenerator
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
CBS сообщает, что он включает возвращение проекта Stargate.
OpenAI, Softbank и Oracle планируют инвестировать $500 млрд в течение следующих четырех лет.
Целью инвестиций является поддержка лидерства США в сфере искусственного интеллекта. Ожидается, что официальный анонс проекта состоится в скором времени.
На данный момент Соединённые Штаты удерживают лидирующие позиции благодаря таким компаниям, как OpenAI, Anthropic и Microsoft.
Но Китай активно наращивает свои позиции, ежемесячно выпуская новые модели, которые работают не менее эффективно, но с большей скоростью и меньшими затратами.
В рамках инициативы Stargate планируется строительство нескольких гигантских дата-центров, причем первый из них будет открыт в штате Техас.
Оставшиеся ресурсы будут направлены на создание и обучение новых моделей ИИ.
AGI появится раньше, чем мы все ожидаем, а нас ждет настоящая гонка вооружений и ещё более стремительное развитие ИИ.
▪️Новость
#ai #news
Please open Telegram to view this post
VIEW IN TELEGRAM