Telegram Group & Telegram Channel
В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/



group-telegram.com/lingvoplaneta/1603
Create:
Last Update:

В области искусственного интеллекта, особенно в сфере больших языковых моделей (LLM), произошел значительный прогресс. Модели типа GPT-4, LLaMA и Gemini демонстрируют впечатляющие возможности, но они в основном работают с языками: английский, китайский, японский и русский. Это создает языковой разрыв, влияет на качество ИИ и усиливает цифровое неравенство.

11 декабря в Астане Президенту Токаеву представили национальную языковую модель KAZ-LLM. Модель разработана Институтом умных систем и ИИ (ISSAI NU) в партнерстве с Beeline Казахстан, QazCode и Astana Hub. Проект курирует Министерство цифрового развития. Модель поможет закрыть языковой разрыв в ИИ для Казахстана.

Как разрабатывалась модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 миллиардах токенах, тщательно собранных из общедоступных источников на четырех языках — казахском, русском, английском и турецком. Это позволяет модели демонстрировать высокую точность и универсальность. Токенами называют минимальные единицы текста, такие как слова, их части или даже отдельные символы, которые ИИ использует для анализа и понимания информации.

Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал в себя следующие тесты:

ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
GSM8K — оценка способности решать задачи по математике для начальной школы.
HellaSwag — тестирование логики продолжения предложений.
MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
Winogrande — оценка здравого смысла в двусмысленных предложениях.
DROP — тестирование навыков понимания прочитанного и логического мышления.

Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, объединив усилия и опыт в создании языковых моделей, таких как Kaz-RoBERTA, а также в разработке ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. На серверах с высокими вычислительными мощностями обучили две версии модели — с 8 миллиардами и 70 миллиардами параметров, к процессу присоединились дата-сайентисты QazCode.

— Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В ходе обучения, которое продолжалось 50 дней непрерывных вычислений, модель улучшила способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, учитывая культурные и языковые особенности казахского языка, — поделился СЕО QazCode Алексей Шаравар.

Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В дальнейшем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что позволит значительно расширить возможности ИИ.

— Модели, выпущены по лицензии CC-BY-NC, которые доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом разработчики смогут скачать и запустить нашу модель как на сложных серверах так и на ноутбуках, — рассказал директор ISSAI профессор NU Хусейн Атакан Варол.

https://digitalbusiness.kz/2024-12-17/v-kazahstane-predstavlena-bolshaya-yazikovaya-model-kaz-llm-pochemu-eto-vazhno/

BY За разнообразие в мире языков




Share with your friend now:
group-telegram.com/lingvoplaneta/1603

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"There are several million Russians who can lift their head up from propaganda and try to look for other sources, and I'd say that most look for it on Telegram," he said. Channels are not fully encrypted, end-to-end. All communications on a Telegram channel can be seen by anyone on the channel and are also visible to Telegram. Telegram may be asked by a government to hand over the communications from a channel. Telegram has a history of standing up to Russian government requests for data, but how comfortable you are relying on that history to predict future behavior is up to you. Because Telegram has this data, it may also be stolen by hackers or leaked by an internal employee. Perpetrators of these scams will create a public group on Telegram to promote these investment packages that are usually accompanied by fake testimonies and sometimes advertised as being Shariah-compliant. Interested investors will be asked to directly message the representatives to begin investing in the various investment packages offered. Stocks closed in the red Friday as investors weighed upbeat remarks from Russian President Vladimir Putin about diplomatic discussions with Ukraine against a weaker-than-expected print on U.S. consumer sentiment. Following this, Sebi, in an order passed in January 2022, established that the administrators of a Telegram channel having a large subscriber base enticed the subscribers to act upon recommendations that were circulated by those administrators on the channel, leading to significant price and volume impact in various scrips.
from tw


Telegram За разнообразие в мире языков
FROM American