datascienceiot 3057 Telegram Group

Stanford “Probability Theory” lecture notes (PhD level)

📖 Lectures

@datascienceiot

7.2K views09:41

🌟 OpenCoder - модели для кодинга, cookbook обучения и датасеты.

OpenCoder - это открытое и воспроизводимое семейство LLM для программирования, включающее 1,5B и 8B базовые и instruct версии, поддерживающее английский и китайский языки.

Семейство моделей OpenCoder обучалось с нуля на 2,5 трлн. лексем, состоящих на 90 % из сырого кода и на 10 % из веб-данных, связанных с кодом, и прошло отладку на более чем 4,5 млн. высококачественных примеров SFT, в итоге достигнув производительности топовых LLM с похожей специализацией.

В открытый доступ опубликованы не только веса моделей и код для инференса, но и датасеты, полный цикл обработки данных, результаты экспериментальной абляции и подробные протоколы обучения.

OpenCoder тщательно протестирован с помощью исследований абляции на различных стратегиях очистки данных и процессах обучения, включая эксперименты по дедупликации на уровне файлов и репозиториев, что обеспечило семейству тщательную проверку производительности моделей.

OpenCoder достигает высокой производительности в различных бенчмарках, что ставит их в ряд SOTA-моделей с открытым исходным кодом для задач программирования.

▶️ Семейство моделей OpenCoder :

🟢

OpenCoder-1.5B-Base, 4 тыс. токенов контекста;

🟢

OpenCoder-8B-Base, 8 тыс. токенов контекста;

🟠

OpenCoder-1.5B-Instruct, 4 тыс. токенов контекста;

🟠

OpenCoder-8B-Instruct, 8 тыс. токенов контекста;

▶️ Датасеты:

🟢

OpenCoder-SFT-Stage1, 4.21 млн. строк;

🟠

OpenCoder-SFT-Stage2, 375 тыс.строк.

▶️ Пример инференса на HF Transformers:

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "infly/OpenCoder-8B-Instruct"
model = AutoModelForCausalLM.from_pretrained(model_name,
                                             torch_dtype=torch.bfloat16,
                                             device_map="auto",
                                             trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)

messages=[
    { 'role': 'user', 'content': "write a quick sort algorithm in python."}
]

inputs = tokenizer.apply_chat_template(messages, add_generation_prompt=True, return_tensors="pt")

outputs = model.generate(inputs, max_new_tokens=512, do_sample=False)

result = tokenizer.decode(outputs[0][len(inputs[0]):], skip_special_tokens=True)

🟡

🟡

🟡

🟡

🖥

GitHub

@ai_machinelearning_big_data

#AI #ML #LLM #OpenCoder #Datasets

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

6.2K views12:11

Data Science

Introduction to Statistical Thought

📖 book

@datascienceiot

6.1K views13:49

Data Science

Machine Learning for Hackers

📖 книга

@datascienceiot

6.9K views12:05

Data Science

Problem Solving with Algorithms and Data Structures

🔗

Book

@datascienceiot

Please open Telegram to view this post

VIEW IN TELEGRAM

6.7K viewsedited 22:02

Data Science

SLAck: Semantic, Location, and Appearance
Aware Open-Vocabulary Tracking

📖 Arxiv

@datascienceiot

7.4K views15:14

Data Science

📚 Машинное и глубокое обучение ОНЛАЙН-УЧЕБНИК

📖 Книга

@datascienceiot

7.3K views20:57

Data Science

Writing with Chatgpt OpenAi Guide

📚 Course

@datascienceiot

6.6K views10:06

Data Science

Programming Collective Intelligence

📖 Книга

@datascienceiot

6.5K views15:00

Data Science

Primers • Overview of Large Language Models

📖 книга

@datascienceiot

10.1K views11:00

Data Science

📖 Penn State University's "Graph Theory"

Конспект лекций по теории графов в Университете штата Пенсильвания (для студентов бакалавриата)

📌 Lectures

@datascienceiot

6.3K views12:01

Data Science

📖References/Web Search Cookbook

📌 Book

@datascienceiot

6.4K views10:00

Data Science

📖 General Relativity

📌 Book

@datascienceiot

6.0K views10:31

Data Science

📖 UC Berkeley's "Introduction to Probability at an Advanced Level"

📌 Pdf

datascienceiot

6.2K views11:01

Data Science

📚 Open Notebook

Реализация Notebook LM с открытым исходным кодом, обладающая большей гибкостью.

🔗 Github

@datascienceiot

6.1K views16:01

Data Science

📚 Deep Learning with Python Develop Deep Learning Models on Theano and TensorFLow Using Keras by Jason Brownlee

🔗 Book

@datascienceiot

6.4K views13:30

2025/06/16 20:09:23
Back to Top

HTML Embed Code:

<iframe width="100%" src="https://www.group-telegram.com/buyppe/webview?embed=1" title="Channel Webview" frameborder="0" allow="accelerometer; autoplay; clipboard-write; encrypted-media; gyroscope; picture-in-picture" allowfullscreen></iframe>