Telegram Group & Telegram Channel
В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/



group-telegram.com/lingvoplaneta/1603
Create:
Last Update:

В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/

BY За разнообразие в мире языков




Share with your friend now:
group-telegram.com/lingvoplaneta/1603

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Official government accounts have also spread fake fact checks. An official Twitter account for the Russia diplomatic mission in Geneva shared a fake debunking video claiming without evidence that "Western and Ukrainian media are creating thousands of fake news on Russia every day." The video, which has amassed almost 30,000 views, offered a "how-to" spot misinformation. Telegram was founded in 2013 by two Russian brothers, Nikolai and Pavel Durov. This provided opportunity to their linked entities to offload their shares at higher prices and make significant profits at the cost of unsuspecting retail investors. Groups are also not fully encrypted, end-to-end. This includes private groups. Private groups cannot be seen by other Telegram users, but Telegram itself can see the groups and all of the communications that you have in them. All of the same risks and warnings about channels can be applied to groups. Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK.
from us


Telegram За разнообразие в мире языков
FROM American