Telegram Group & Telegram Channel
В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/



group-telegram.com/lingvoplaneta/1603
Create:
Last Update:

В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/

BY За разнообразие в мире языков




Share with your friend now:
group-telegram.com/lingvoplaneta/1603

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed. Now safely in France with his spouse and three of his children, Kliuchnikov scrolls through Telegram to learn about the devastation happening in his home country. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government. "And that set off kind of a battle royale for control of the platform that Durov eventually lost," said Nathalie Maréchal of the Washington advocacy group Ranking Digital Rights. Oleksandra Matviichuk, a Kyiv-based lawyer and head of the Center for Civil Liberties, called Durov’s position "very weak," and urged concrete improvements.
from ua


Telegram За разнообразие в мире языков
FROM American