Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.
Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.
Cerebras резким рывком обогнали всех конкурентов и довели скорость инференса Llama 70B до безумных 2200 токенов в секунду по замерам Artificial Analysis (всего пару месяцев назад они хвастались 450 в секунду). Лично при моём запросе скорость была в 2600 токенов в секунду, а в твиттере люди хвастаются вообще более чем 4к токенов в секунду. Скорее всего, вместе с дополнительными оптимизациями они используют спекулятивный декодинг, так что на простых промптах скорости бешеные. На промптах посложнее скорость может проседать, насколько - непонятно.
Но есть у них и значительная проблема - длина контекста, она тут всего 8к. Конкуренты в лице Groq и SambaNova поддерживают 128к контекста и 64к контекста соответственно. С грядущей, после релиза o1, модой на inference time scaling, важность скоростных провайдеров сильно вырастет. o1 часто думает больше минуты, что не позволяет использовать её во многих контекстах, так что спрос на сокращение времени инференса будет огромным. Но если провайдер просто не может обеспечить необходимые для размышлений десятки тысяч токенов контекста - поучаствовать в этой золотой лихорадке не удастся.
Oh no. There’s a certain degree of myth-making around what exactly went on, so take everything that follows lightly. Telegram was originally launched as a side project by the Durov brothers, with Nikolai handling the coding and Pavel as CEO, while both were at VK. Markets continued to grapple with the economic and corporate earnings implications relating to the Russia-Ukraine conflict. “We have a ton of uncertainty right now,” said Stephanie Link, chief investment strategist and portfolio manager at Hightower Advisors. “We’re dealing with a war, we’re dealing with inflation. We don’t know what it means to earnings.” At its heart, Telegram is little more than a messaging app like WhatsApp or Signal. But it also offers open channels that enable a single user, or a group of users, to communicate with large numbers in a method similar to a Twitter account. This has proven to be both a blessing and a curse for Telegram and its users, since these channels can be used for both good and ill. Right now, as Wired reports, the app is a key way for Ukrainians to receive updates from the government during the invasion. In December 2021, Sebi officials had conducted a search and seizure operation at the premises of certain persons carrying out similar manipulative activities through Telegram channels. In February 2014, the Ukrainian people ousted pro-Russian president Viktor Yanukovych, prompting Russia to invade and annex the Crimean peninsula. By the start of April, Pavel Durov had given his notice, with TechCrunch saying at the time that the CEO had resisted pressure to suppress pages criticizing the Russian government.
from cn