Telegram Group & Telegram Channel
В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/



group-telegram.com/lingvoplaneta/1603
Create:
Last Update:

В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/

BY За разнообразие в мире языков




Share with your friend now:
group-telegram.com/lingvoplaneta/1603

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In 2014, Pavel Durov fled the country after allies of the Kremlin took control of the social networking site most know just as VK. Russia's intelligence agency had asked Durov to turn over the data of anti-Kremlin protesters. Durov refused to do so. In this regard, Sebi collaborated with the Telecom Regulatory Authority of India (TRAI) to reduce the vulnerability of the securities market to manipulation through misuse of mass communication medium like bulk SMS. But Telegram says people want to keep their chat history when they get a new phone, and they like having a data backup that will sync their chats across multiple devices. And that is why they let people choose whether they want their messages to be encrypted or not. When not turned on, though, chats are stored on Telegram's services, which are scattered throughout the world. But it has "disclosed 0 bytes of user data to third parties, including governments," Telegram states on its website. The last couple days have exemplified that uncertainty. On Thursday, news emerged that talks in Turkey between the Russia and Ukraine yielded no positive result. But on Friday, Reuters reported that Russian President Vladimir Putin said there had been some “positive shifts” in talks between the two sides. Telegram boasts 500 million users, who share information individually and in groups in relative security. But Telegram's use as a one-way broadcast channel — which followers can join but not reply to — means content from inauthentic accounts can easily reach large, captive and eager audiences.
from ms


Telegram За разнообразие в мире языков
FROM American