Telegram Group & Telegram Channel
KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.

@ai_newz



group-telegram.com/ai_newz/2718
Create:
Last Update:

KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.

@ai_newz

BY эйай ньюз


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ai_newz/2718

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

In a statement, the regulator said the search and seizure operation was carried out against seven individuals and one corporate entity at multiple locations in Ahmedabad and Bhavnagar in Gujarat, Neemuch in Madhya Pradesh, Delhi, and Mumbai. "The inflation fire was already hot and now with war-driven inflation added to the mix, it will grow even hotter, setting off a scramble by the world’s central banks to pull back their stimulus earlier than expected," Chris Rupkey, chief economist at FWDBONDS, wrote in an email. "A spike in inflation rates has preceded economic recessions historically and this time prices have soared to levels that once again pose a threat to growth." Multiple pro-Kremlin media figures circulated the post's false claims, including prominent Russian journalist Vladimir Soloviev and the state-controlled Russian outlet RT, according to the DFR Lab's report. WhatsApp, a rival messaging platform, introduced some measures to counter disinformation when Covid-19 was first sweeping the world. Despite Telegram's origins, its approach to users' security has privacy advocates worried.
from cn


Telegram эйай ньюз
FROM American