group-telegram.com/ai_newz/1831
Last Update:
LLaMa 30B на 6GB RAM
Блин, как здорово, когда что-то в опен-соурсе допиливается коллективным разумом до невероятных результатов.
Чел отимизировал загрузку весов в LLaMa.cpp с помощью mmap, и теперь инференс 30B модели можно гонять на CPU на Линуксе, используя меньше 6 GB RAM 🤯. Скорость холодного запуска модели тоже серьезно возросла.
Сами веса 4-bit квантизованной LLaMa 30B занимают 20 GB на диске, но после оптимизации, со слов автора пул-реквеста, при загрузке модель дает всего 4GB футпринт в RAM. Всё благодаря ленивому чтению с помощью mmap, который подгружает с диска в RAM только нужные в текущий момент страницы памяти.
Каждый день мы видим новые оптимизации и трюки. Модели становятся меньше, быстрее и мощнее, что расширяет их область применения и доступность. Это не может не радовать. Не все же закрытому AI OpenAI у себя в закромах держать.
@ai_newz
BY эйай ньюз
![](https://photo.group-telegram.com/u/cdn4.cdn-telegram.org/file/mfdktVK1JRc896vVvQNdTyBLS2rtz0xPHUivtGSYc1eivlA20RFUiSW7hCvzlv6vcxZrxfmdiDBm79zy-oLtrghlZhuhY0BXnN4_p9kBFrIylV5cAr7dBHJL1DoGzmIzSOc-jezbfpEbCywWFVSeFX3iWQ_4s4PkSkBlODL-Ga8ldGKVd9oUW5ZGJuIyP9LEGXPz36G4SmOoM72h9FQdoG9jtgjhajMy3gWi6lWRr0pLmw4PvNXwoNyS4WA1tkYxAR9QkNbJ3Uf_iLkUy1xukmVthMEZn7woglISstf8UxS2jWHmrbBK-jRWPn13wRzXBkriAOdXsjkoIGHxUOSoWQ.jpg)
Share with your friend now:
group-telegram.com/ai_newz/1831