lmstudio вроде работает на видюхе с помощью vulkan. Грузит процентов на 10-25. Не сказал бы, что шустрее, чем deepseek на cpu в ollama. +- так же, где-то со скоростью печатной машинки. И качество рассуждений проседает (gemma3-4B), по сравнению с онлайном.
Зато оболочка сама настроилась, предложила
подходящие модели под количество видеопамяти.
В интернетах пишут, что
llama.cpp побыстрее работает и теперь тоже могёт vulkan. Но там походу ручками надо настраивать.