group-telegram.com/hikonon/82
Last Update:
Falcon 3 — это продолжение предыдущих разработок, в котором внимание уделяется расширению возможностей моделей в области науки, математики и программирования.
В это семейство входят пять базовых моделей:
- Falcon3-1B-Base
- Falcon3-3B-Base
- Falcon3-Mamba-7B-Base
- Falcon3-7B-Base
- Falcon3-10B-Base
Как создали Falcon 3:
— Провели одно предварительное обучение модели 7B на 1024 GPU-чипах H100 с использованием 14 триллионов токенов (веб-данные, код, STEM-информацию, а также многоязычные данные).
— Модель 7B была масштабирована до модели с 10 миллиардами параметров путем дублирования слоев и продолжения предварительного обучения на 2 триллионах токенов. В результате была получена модель Falcon3-10B-Base, которая достигает state-of-the-art показателей zero-shot и few-shot для моделей с менее чем 13 миллиардами параметров.
— Созданы модели Falcon3-1B-Base и Falcon3-3B-Base с использованием методов прунинга и дистилляции знаний из больших моделей.
Все модели семейства Falcon 3 доступны в вариантах Instruct, GGUF, GPTQ-Int4, GPTQ-Int8, AWQ и 1.58-bit.
Instruct-версии моделей демонстрируют отличную производительность в различных тестах: Falcon3-7B-Instruct и Falcon3-10B-Instruct превосходят все instruct-модели с менее чем 13 миллиардами параметров в открытом рейтинге.
Показатель в тестах MMLU демонстрирует прогресс в специализированных знаниях, с результатами 67,4/39,2 (MMLU/MMLU-PRO) для Falcon3-7B-Base и 73,1/42,5 (MMLU/MMLU-PRO) для Falcon3-10B-Base соответственно.
В январе 2025 года будут выпущены другие модели семейства Falcon 3 с расширенными мультимодальными возможностями (поддержка изображений, видео и аудио) и полный технический отчет.
🤗 HuggingFace
@hikonon