Telegram Group & Telegram Channel
Forwarded from Machinelearning
🌟 Масштабирование вычислений LLM с использованием скрытых рассуждений: метод с рекуррентной глубиной.

Экспериментальная архитектура LLM, которая способна масштабировать вычисления за счет скрытых рассуждений в латентном пространстве путем итеративного применения рекуррентного блока, что дает возможность развернуть вычисления на произвольную глубину.

Этот метод отличается от традиционных, которые увеличивают вычислительные ресурсы за счет генерации большего количества токенов. Например, в отличие от CoT, предложенный подход не требует специализированных датасетов, работает с небольшими окнами контекста и способен захватывать типы рассуждений, которые сложно выразить словами. В дополнение, модели этой архитектуры требуют меньше памяти для обучения и инференса.

Тестовая модель Huginn-3.5B получила 3.5 млрд параметров и была обучена на 800 млрд. токенов (веб-страницы, научные публикации и программный код) с использованием случайного числа итераций рекуррентного блока для каждой входной последовательности. Чтобы сократить потребление памяти использовалось усеченное обратное распространение, при котором градиенты вычисляются только для последних итераций.

Модель состоит из 3 основных блоков: прелюдии, рекуррентного блока и коды. Прелюдия преобразует входные данные в латентное пространство, рекуррентный блок выполняет итеративные вычисления, а кода преобразует латентное состояние обратно в вероятности токенов. Рекуррентный блок может быть повторен произвольное количество раз, позволяя модели выполнять произвольное количество вычислений перед генерацией токена.

Результаты проведенных тестов на стандартных задачах ARC, HellaSwag, MMLU свидетельствуют, что Huginn-3.5B превосходит традиционные модели на задачах, требующих сложных рассуждений (математические задачи и программирование). Например, на задачах GSM8k и MATH модель показала значительное улучшение производительности при увеличении числа рекуррентных итераций.

⚠️ Модель не подвергалась файнтюну или посттренингу, но благодаря включению instruct-данных во время претрейна, она изначально понимает свой шаблон чата.

⚠️ Чекпоинт на HF обучался всего на 47000 шагах и является академическим проектом.

▶️ Локальный инференс:

# Load the model
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("tomg-group-umd/huginn-0125", torch_dtype=torch.bfloat16, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("tomg-group-umd/huginn-0125")


# Modifying the Model's Depth at Test Time
input_ids = tokenizer.encode("The capital of Westphalia is", return_tensors="pt", add_special_tokens=True).to(device)
model.eval()
model.to(device)

model(input_ids, num_steps=32)


# Model can be used like a normal HF model
# You can provide `num_steps` directly to the `generate` call
model.eval()
config = GenerationConfig(max_length=256, stop_strings=["<|end_text|>", "<|end_turn|>"],
use_cache=True,
do_sample=False, temperature=None, top_k=None, top_p=None, min_p=None,
return_dict_in_generate=True,
eos_token_id=65505,bos_token_id=65504,pad_token_id=65509)


input_ids = tokenizer.encode("The capital of Westphalia is", return_tensors="pt", add_special_tokens=True).to(device)
outputs = model.generate(input_ids, config, tokenizer=tokenizer, num_steps=16)


📌 Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #LatentReasoning
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/data_analysis_ml/3180
Create:
Last Update:

🌟 Масштабирование вычислений LLM с использованием скрытых рассуждений: метод с рекуррентной глубиной.

Экспериментальная архитектура LLM, которая способна масштабировать вычисления за счет скрытых рассуждений в латентном пространстве путем итеративного применения рекуррентного блока, что дает возможность развернуть вычисления на произвольную глубину.

Этот метод отличается от традиционных, которые увеличивают вычислительные ресурсы за счет генерации большего количества токенов. Например, в отличие от CoT, предложенный подход не требует специализированных датасетов, работает с небольшими окнами контекста и способен захватывать типы рассуждений, которые сложно выразить словами. В дополнение, модели этой архитектуры требуют меньше памяти для обучения и инференса.

Тестовая модель Huginn-3.5B получила 3.5 млрд параметров и была обучена на 800 млрд. токенов (веб-страницы, научные публикации и программный код) с использованием случайного числа итераций рекуррентного блока для каждой входной последовательности. Чтобы сократить потребление памяти использовалось усеченное обратное распространение, при котором градиенты вычисляются только для последних итераций.

Модель состоит из 3 основных блоков: прелюдии, рекуррентного блока и коды. Прелюдия преобразует входные данные в латентное пространство, рекуррентный блок выполняет итеративные вычисления, а кода преобразует латентное состояние обратно в вероятности токенов. Рекуррентный блок может быть повторен произвольное количество раз, позволяя модели выполнять произвольное количество вычислений перед генерацией токена.

Результаты проведенных тестов на стандартных задачах ARC, HellaSwag, MMLU свидетельствуют, что Huginn-3.5B превосходит традиционные модели на задачах, требующих сложных рассуждений (математические задачи и программирование). Например, на задачах GSM8k и MATH модель показала значительное улучшение производительности при увеличении числа рекуррентных итераций.

⚠️ Модель не подвергалась файнтюну или посттренингу, но благодаря включению instruct-данных во время претрейна, она изначально понимает свой шаблон чата.

⚠️ Чекпоинт на HF обучался всего на 47000 шагах и является академическим проектом.

▶️ Локальный инференс:

# Load the model
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("tomg-group-umd/huginn-0125", torch_dtype=torch.bfloat16, trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("tomg-group-umd/huginn-0125")


# Modifying the Model's Depth at Test Time
input_ids = tokenizer.encode("The capital of Westphalia is", return_tensors="pt", add_special_tokens=True).to(device)
model.eval()
model.to(device)

model(input_ids, num_steps=32)


# Model can be used like a normal HF model
# You can provide `num_steps` directly to the `generate` call
model.eval()
config = GenerationConfig(max_length=256, stop_strings=["<|end_text|>", "<|end_turn|>"],
use_cache=True,
do_sample=False, temperature=None, top_k=None, top_p=None, min_p=None,
return_dict_in_generate=True,
eos_token_id=65505,bos_token_id=65504,pad_token_id=65509)


input_ids = tokenizer.encode("The capital of Westphalia is", return_tensors="pt", add_special_tokens=True).to(device)
outputs = model.generate(input_ids, config, tokenizer=tokenizer, num_steps=16)


📌 Лицензирование: Apache 2.0 License.


🟡Модель
🟡Arxiv
🖥GitHub


@ai_machinelearning_big_data

#AI #ML #LLM #LatentReasoning

BY Анализ данных (Data analysis)









Share with your friend now:
group-telegram.com/data_analysis_ml/3180

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. These administrators had built substantial positions in these scrips prior to the circulation of recommendations and offloaded their positions subsequent to rise in price of these scrips, making significant profits at the expense of unsuspecting investors, Sebi noted. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Russians and Ukrainians are both prolific users of Telegram. They rely on the app for channels that act as newsfeeds, group chats (both public and private), and one-to-one communication. Since the Russian invasion of Ukraine, Telegram has remained an important lifeline for both Russians and Ukrainians, as a way of staying aware of the latest news and keeping in touch with loved ones.
from it


Telegram Анализ данных (Data analysis)
FROM American