Telegram Group & Telegram Channel
Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь



group-telegram.com/experiment_ai/45
Create:
Last Update:

Разметка 100 000 финансовых новостей: с нуля до полного решения за 20 минут с помощью vide coding

Задача: есть набор новостей, которые необходимо разметить тегами по темам, существенно влияющим на компании из индекса S&P500.

Шаг 1: просим GPT топ релевантных тегов
Просим GPT сформировать список не более чем из 10 тегов для разметки новостей. Получаем:
- Corporate Earnings
- M&A
- Regulatory/Legal
- Technology/Innovation
- Global Macro/Geopolitics
- Financial Markets/Investmens
- Capital Flows/Financing
- Market Sentiment
- Emerging Trends
- Если ни один не подходит, то ставим Non-Financial


Шаг 2: Создаём Structured Output схему
Чтобы всегда получать нужный нам формат ответа от LLM, просим GPT задать жесткую схему Structured Output.


Шаг 3: С помощью GPT пишем код
Просим написать функцию, которая итеративно проходит по каждой новости из датасета и отдает набор тегов.
Тестируем, логи ошибок отправляем к GPT, дорабатываем код на основе его ответов. Через 5-10 минут отладки код уже полностью рабочий, отлично!


Результаты:
- Код и разметка готовы за 15-20 минут
- Средняя стоимость разметки новости по заголовку (GPT4o-mini): 0.033 ₽
- По полному тексту новости: 0.114 ₽
- Итого, весь набор из 100 000 новостей обходится от 3 330 ₽ (по заголовкам) до 11 500 ₽ (по полным текстам).

Не сравнить, конечно, с ручной разметкой, которая сильно дольше и дороже!


Что дальше?
В реальном проекте, конечно же, важно:
- добавить эталонную разметку, чтобы можно было быстро валидировать качество разметки на основе LLM;
- искать баланс между стоимостью и качеством. Ведь если в датасете 100к строк и разметить нужно один раз, то текущая стоимость приемлема, но если в датасете 1млн строк, или нужно обновлять теги динамически, то нужно уже придумывать другие решения.


Ссылка на Colab: здесь
Ссылка на Gitlab: здесь

BY Эксперименты с ИИ




Share with your friend now:
group-telegram.com/experiment_ai/45

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

"Someone posing as a Ukrainian citizen just joins the chat and starts spreading misinformation, or gathers data, like the location of shelters," Tsekhanovska said, noting how false messages have urged Ukrainians to turn off their phones at a specific time of night, citing cybersafety. The fake Zelenskiy account reached 20,000 followers on Telegram before it was shut down, a remedial action that experts say is all too rare. Telegram has gained a reputation as the “secure” communications app in the post-Soviet states, but whenever you make choices about your digital security, it’s important to start by asking yourself, “What exactly am I securing? And who am I securing it from?” These questions should inform your decisions about whether you are using the right tool or platform for your digital security needs. Telegram is certainly not the most secure messaging app on the market right now. Its security model requires users to place a great deal of trust in Telegram’s ability to protect user data. For some users, this may be good enough for now. For others, it may be wiser to move to a different platform for certain kinds of high-risk communications. Update March 8, 2022: EFF has clarified that Channels and Groups are not fully encrypted, end-to-end, updated our post to link to Telegram’s FAQ for Cloud and Secret chats, updated to clarify that auto-delete is available for group and channel admins, and added some additional links. In the United States, Telegram's lower public profile has helped it mostly avoid high level scrutiny from Congress, but it has not gone unnoticed.
from us


Telegram Эксперименты с ИИ
FROM American