group-telegram.com/tanitavladimirovna/1865
Last Update:
🚀 Китайская большая языковая модель DeepSeek-V3 конкурентоспособная
В последнее время на слуху DeepSeek, под капотом большая языковая модель DeepSeek-V3, которая является open-source model и обгоняет по тестам GPT-4o-0513.
DeepSeek-V3 содержит 600 миллиардов параметров и обучается на 14,8 триллионов токенов с использованием передовых методов.
🔥 Перейдем к тестам:
У меня есть интересная задача про Ханойские Башни.
Это классическая математическая задача, где нужно переместить башню из разноразмерных дисков с одного стержня на другой, соблюдая два правила:
Усложненная версия с 4 стержнями дает свободу. Однако даже с дополнительным «буфером» оптимальное решение требует сложных маневров, а минимальное число шагов до сих пор изучается математиками.
ChatGPT 4o: В первом ответе предлагает подставить табличные значения и просто их вывести. Далее требую написать именно алгоритм. Получаю ответ и тестирую на значениях.
Итог: Задача решена некорректно, не удовлетворяются все условия задачи. При 5 дисках и 4 стержнях результат программы: 11. Верный ответ: 13.
DeepSeek-V3 в режиме DeepThink (R1): Начинает полностью анализировать задачу, находит корректное математическое обоснование, тестирует варианты, сверяет ответы и начинает набрасывать код, затем выводит нужную формулу и успешно применяет динамическое программирование для достижения результата.
Итог: Задача решена верно, код компактный. Все граничные условия соблюдены.
🚀 Нейронка: перейти