Telegram Group & Telegram Channel
KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.

@ai_newz



group-telegram.com/ai_newz/2718
Create:
Last Update:

KV-cache для больших промптов в Gemini

Гигантский контекст Gemini 1.5 в 2 миллиона токенов имеет уйму применений, но цена и скорость таких огромных промптов оставляет желать лучшего. Даже со всеми современными оптимизациями, на обработку запроса, использующего все 2m контекста, нужны десятки секунд и несколько долларов ($1.4 Flash/$14 Pro), даже если нужно всего несколько предложений аутпута. Инпут токены хоть и дешевле, но с таким размером контекста их обычно в разы больше чем аутпут токенов.

Google обещает решить эту проблему новой фичей, context caching, которая разрешает переиспользование KV кэшей для больших промптов. Если кэшировать промпты, то задержка обработки запросов уменьшается в десятки раз, а инпут токены становятся в два раза дешевле. Хранение кэша будет платным, с почасовой оплатой, но даже с ней это стаёт выгоднее начиная с трёх запросов к промпту в час.

Кстати, если вы ещё не пробовали Gemini 1.5 - обязательно попробуйте (щедрые лимиты, но нужен VPN), возможность закинуть всю кодбазу в контекст и задавать о ней вопросы ощущается магической.

Неплохо было бы иметь такую фичу в API GPT-4o и Claude.

@ai_newz

BY эйай ньюз


Warning: Undefined variable $i in /var/www/group-telegram/post.php on line 260

Share with your friend now:
group-telegram.com/ai_newz/2718

View MORE
Open in Telegram


Telegram | DID YOU KNOW?

Date: |

Unlike Silicon Valley giants such as Facebook and Twitter, which run very public anti-disinformation programs, Brooking said: "Telegram is famously lax or absent in its content moderation policy." Telegram has become more interventionist over time, and has steadily increased its efforts to shut down these accounts. But this has also meant that the company has also engaged with lawmakers more generally, although it maintains that it doesn’t do so willingly. For instance, in September 2021, Telegram reportedly blocked a chat bot in support of (Putin critic) Alexei Navalny during Russia’s most recent parliamentary elections. Pavel Durov was quoted at the time saying that the company was obliged to follow a “legitimate” law of the land. He added that as Apple and Google both follow the law, to violate it would give both platforms a reason to boot the messenger from its stores. So, uh, whenever I hear about Telegram, it’s always in relation to something bad. What gives? The message was not authentic, with the real Zelenskiy soon denying the claim on his official Telegram channel, but the incident highlighted a major problem: disinformation quickly spreads unchecked on the encrypted app. For tech stocks, “the main thing is yields,” Essaye said.
from ms


Telegram эйай ньюз
FROM American