8G显存本地部署能运行哪些大型模型?
如何通过4bit量化技术降低llama.cpp部署的显存占用?