Telegram Group & Telegram Channel
Сегодня хочется порассуждать вслух, куда инвестировать свои силы в контексте этих ваших больших языковых моделей. В больших компаниях типа гугла всегда есть много точек входа в базовый продукт, и всегда можно поработать над тем, что важно лично тебе в текущий момент. 😛

Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера. 🤤

Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше. 👥 Из последних релизов наши друзья из Alibaba выпустили Qwen 2 в размерах 0.5B и 1.5B – достаточно, чтобы запускать на не самых продвинутых телефонах. Ещё интересно, кто сможет первым выкатить приватную тренировку LoRA-адаптеров прямо на устройстве – это должно сильно поднять качество для текстинга.

Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы 🥹 – то, что нужно для этих ваших бизнесов.

Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet. 📈

При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго 🥁, вау-эффекта от моделей поменьше ждать пока не приходится. На всякий случай – мой пост – это не анонс анонса и не слив, как любят делать наши открытые ИИ-друзья 🪖. Результаты работы, особенно в претрейне, видны публично через месяцы. Так что запасаемся терпением вместе. 😮‍💨

Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное. 🤑
Please open Telegram to view this post
VIEW IN TELEGRAM



group-telegram.com/epsiloncorrect/189
Create:
Last Update:

Сегодня хочется порассуждать вслух, куда инвестировать свои силы в контексте этих ваших больших языковых моделей. В больших компаниях типа гугла всегда есть много точек входа в базовый продукт, и всегда можно поработать над тем, что важно лично тебе в текущий момент. 😛

Всего мыслей получилось три, что является олимпийским рекордом для LLM-рисёрчера. 🤤

Мысль первая: мне кажется, что нас ждёт гонка вооружений в моделях размером до трёх миллиардов параметров. Apple Intelligence питает LLMка с 3B параметров, но на рынке андроид-телефонов много откровенно слабых моделей, так что, скорее всего, гуглу придётся заталкивать в телефоны что-то поменьше. 👥 Из последних релизов наши друзья из Alibaba выпустили Qwen 2 в размерах 0.5B и 1.5B – достаточно, чтобы запускать на не самых продвинутых телефонах. Ещё интересно, кто сможет первым выкатить приватную тренировку LoRA-адаптеров прямо на устройстве – это должно сильно поднять качество для текстинга.

Мысль вторая: в категории средних моделей – скажем, до 100 миллиардов параметров, начинается жёсткая конкуренция за стоимость доступа по API. Основной юзкейс в этой области – это всякие ии-ассистены и агенты, которые должны совсем вымораживать при общении. Здесь очень важен пост-тренинг; хоть все и хают неприлично высокие результаты GPT-4o и 4o mini, нормальное следование инструкциям и приятные глазу ответы 🥹 – то, что нужно для этих ваших бизнесов.

Мысль третья: специфические модели для программирования. Тут пока нишу безоговорочно занял DeepSeek Coder v2. Я пока не очень понимаю, где тут деньги для бизнеса – программисты любят платить разве что за подержанный матрац; с другой стороны, говорят, что умение программировать – это почти что заветный reasoning, а там и до AGI рукой подать. Опять же, мне кажется, что в целом после претрейна модели обладают достаточными знаниями, и проблема в кодинг-LLMках заключается в посттренинге – например, Gemini 1.5 Pro поднялся на livebench в категории кодинга на 9% – это почти разница между 4o и 3.5 Sonnet. 📈

При всём этом, забывать о больших моделях я не собираюсь. Хоть LLM-пухляши и тренируются долго 🥁, вау-эффекта от моделей поменьше ждать пока не приходится. На всякий случай – мой пост – это не анонс анонса и не слив, как любят делать наши открытые ИИ-друзья 🪖. Результаты работы, особенно в претрейне, видны публично через месяцы. Так что запасаемся терпением вместе. 😮‍💨

Кстати пока ждём, напомню, что у нашего Gemini 1.5 Flash бесплатно можно сделать 1500 бесплатных запросов в день с запросами до миллиона токенов – у OpenAI эквивалентная модель GPT-4o-mini обойдётся вам в ~$25 ежедневно. На сдачу вы теперь можете поставить мне блестящую звёздочку под постом, а я вам взамен обещаю не использовать их ни на что полезное. 🤑

BY epsilon correct


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/epsiloncorrect/189

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Telegram does offer end-to-end encrypted communications through Secret Chats, but this is not the default setting. Standard conversations use the MTProto method, enabling server-client encryption but with them stored on the server for ease-of-access. This makes using Telegram across multiple devices simple, but also means that the regular Telegram chats you’re having with folks are not as secure as you may believe. "Russians are really disconnected from the reality of what happening to their country," Andrey said. "So Telegram has become essential for understanding what's going on to the Russian-speaking world." Investors took profits on Friday while they could ahead of the weekend, explained Tom Essaye, founder of Sevens Report Research. Saturday and Sunday could easily bring unfortunate news on the war front—and traders would rather be able to sell any recent winnings at Friday’s earlier prices than wait for a potentially lower price at Monday’s open. The regulator said it has been undertaking several campaigns to educate the investors to be vigilant while taking investment decisions based on stock tips. These entities are reportedly operating nine Telegram channels with more than five million subscribers to whom they were making recommendations on selected listed scrips. Such recommendations induced the investors to deal in the said scrips, thereby creating artificial volume and price rise.
from in


Telegram epsilon correct
FROM American