escalera de rendimiento de la tarjeta gráfica llama.cpp ollama: CUDA, ROCm, Vulkan

Primero comprenda estos parámetros

¿Qué es `Q4_0`?

Q4_0 es un formato de cuantificación de 4 bits. Su significado no es “el modelo es más fuerte”, sino “el modelo es más pequeño, ahorra memoria de video y es más fácil de instalar en más dispositivos”. La mayoría de estas listas usan Llama 2 7B, Q4_0. El objetivo principal es reducir las variables y facilitar la comparación horizontal de los resultados de diferentes GPU.

¿Qué es `pp512`?

pp512 generalmente puede entenderse como prompt processing 512 tokens, que es el rendimiento al procesar 512 tokens de entrada.

pp = procesamiento rápido
512 = La longitud de entrada es 512 tokens
t/s = tokens por segundo

Es más como “velocidad de comer palabras clave” y generalmente es más paralelo, por lo que los números tienden a ser altos.

¿Qué es `tg128`?

tg128 generalmente puede entenderse como text generation 128 tokens, que es la velocidad cuando se generan 128 tokens continuamente.

tg = generación de texto
128 = generar 128 tokens continuamente
t/s = tokens por segundo

Está más cerca de lo que normalmente sentimos como “si el modelo responde rápidamente o no”. Debido a que la fase de generación es recursiva token por token, generalmente es significativamente menor que pp512.

¿Qué es `FA`?

FA es Flash Attention. Una comprensión simple es un interruptor de optimización para el cálculo de la atención.

with FA significa que la atención flash está habilitada
no FA significa desactivar Flash Atención

En muchas tarjetas, la mejora de FA a pp512 es más obvia que la de tg128; sin embargo, la mejora no es consistente entre diferentes backends, diferentes controladores y diferentes arquitecturas. Algunos dispositivos pueden incluso experimentar un aumento de PP, un pequeño cambio en TG o una disminución de PP.

`t/s` Cómo leer

t/s es tokens per second. No es velocidad de cuadros, no es FLOPS, es un resultado directo del rendimiento del modelo.

El punto más importante al leer la lista es: **Primero confirma si estás comparando la misma prueba. **

No compares pp512 y tg128 directamente
No confundas no FA con with FA
No considere los resultados de CUDA, ROCm y Vulkan como completamente equivalentes a la misma curva

Hablemos primero de la conclusión.

A juzgar por los datos actualmente visibles en estos hilos de discusión, podemos recordar aproximadamente estas conclusiones:

CUDA sigue siendo la línea más sólida y con mayor uso de muestras entre los puntos de referencia de GPU llama.cpp actuales. En particular, las tarjetas Nvidia de alta gama tienen una gran ventaja en pp512.
ROCm ya puede dar resultados muy decentes en tarjetas AMD e Instinct de gama alta. MI300X, 7900 XTX y W7900 no son débiles.
La ventaja de Vulkan no es “absolutamente más rápido”, sino la cobertura más amplia. Se pueden encontrar entradas para Nvidia, AMD, Intel, Apple Asahi / MoltenVK e incluso muchas tarjetas y pantallas centrales antiguas.
tg128 suele estar más cerca de la sensación física diaria y pp512 es más adecuado para observar la capacidad de rendimiento. Para muchas tarjetas “superiores”, los márgenes de ventaja en las dos categorías no son exactamente los mismos.

Lista completa de CUDA

Llama 2 7B, Q4_0, sin FA

viruta	Memoria	pp512 t/s	tg128t/s	Comprometerse	Gracias a
RTX 5090	32 GB / GDDR7 / 512 bits	14073,41 ± 115,16	290,02 ± 1,10	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bits	14854,63 ± 22,73	274,20 ± 0,14	79c1160	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bits	9918,34 ± 176,97	267,81 ± 1,54	5143fa8	@Hedede
A100 80GB	80 GB / HBM2e / 5120 bits	4849,53 ± 8,94	190,88 ± 0,33	5143fa8	@Hedede
RTX 4090D	24 GB / GDDR6X / 384 bits	10293,86 ± 134,72	189,33 ± 0,19	79c1160	@ laboratorio-autónomo-de-IA
RTX 4090	24 GB / GDDR6X / 384 bits	11992,70 ± 107,99	186,21 ± 0,13	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bits	8297,36 ± 9,50	181,99 ± 0,42	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bits	6952,38 ± 13,73	176,85 ± 0,07	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bits	9229,23 ± 101,78	176,07 ± 0,26	b8e09f0	@Hedede
RTX 3090Ti	24 GB / GDDR6X / 384 bits	6567,49 ± 20,30	171,19 ± 3,98	9c35706	@slaren
RTX 3090	24 GB / GDDR6X / 384 bits	5174,69 ± 21,83	158,16 ± 0,21	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bits	8870,49 ± 378,76	152,01 ± 0,28	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bits	8125,15 ± 41,05	148,33 ± 0,20	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bits	8031,64 ± 26,49	142,49 ± 0,16	20638e4	@Ristovski
RTX 3080	10 GB / GDDR6X / 320 bits	5013,86 ± 24,80	139,65 ± 0,99	9c35706	@slaren
RTX A6000	48 GB / GDDR6 / 384 bits	4913,93 ± 6,79	138,73 ± 2,75	4795c91	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bits	6924,53 ± 13,87	132,26 ± 0,16	9c35706	@Ristovski
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bits	4992,83 ± 113,52	131,66 ± 0,20	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bits	4028,16 ± 19,14	130,07 ± 2,74	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bits	3042,64 ± 40,71	129,08 ± 0,05	51f5a45	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bits	5184,75 ± 18,70	127,54 ± 0,46	@Spyro000	-
A40	48 GB / GDDR6 / 384 bits	4609,01 ± 10,67	124,11 ± 0,17	3470a5c	@Hedede
A30	24 GB / HBM2e / 3072 bits	2767,10 ± 1,88	124,81 ± 0,16	583cb83	@Hedede
Titán V	12 GB / HBM2 / 3072 bits	2617,46 ± 2,10	108,79 ± 0,05	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bits	2890,66 ± 2,42	107,51 ± 0,21	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bits	2751,18 ± 19,43	102,77 ± 0,04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bits	2709,95 ± 3,35	102,68 ± 0,03	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bits	2827,20 ± 66,43	97,32 ± 2,80	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bits	3737,25 ± 6,79	90,94 ± 0,02	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bits	2088,34 ± 1,94	88,06 ± 0,28	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bits	2684,06 ± 15,28	83,77 ± 0,37	65349f2	@TinyServal
Titán Xp	12 GB / GDDR5X / 384 bits	1154,96 ± 1,46	76,08 ± 0,08	c4510dc	@Hedede
RTX 3060	12 GB / GDDR6 / 192 bits	2137,50 ± 10,12	75,57 ± 0,07	baa9255	@QuantiusBenignus
Quadro RTX 4000	8 GB / GDDR6 / 256 bits	1536,89 ± 0,90	65,62 ± 0,62	7d77f07	@Hedede
RTX 4060 Ti 8GB	8 GB / GDDR6 / 128 bits	3394,63 ± 7,44	63,86 ± 0,01	89d1029	@mike-llamacpp
GTX 1080 Ti	11 GB / GDDR5X / 352 bits	1084,41 ± 3,01	62,49 ± 0,06	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bits	2779,77 ± 9,91	61,83 ± 0,04	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bits	1420,24 ± 1,95	60,04 ± 0,01	5c0eb5e	@ggerganov
Tesla P100	16 GB / HBM2 / 4096 bits	760,80 ± 2,92	58,35 ± 0,00	b8372ee	@Hedede
Chispa DGX	128 GB/LPDDR5x	3062,31 ± 11,02	57,21 ± 0,06	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bits	1007,42 ± 1,23	54,74 ± 0,07	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bits	1956,22 ± 7,74	50,62 ± 0,04	756cfe	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bits	1219,06 ± 4,18	46,38 ± 0,73	d32e03f	@pt13762104
Portátil RTX 4050	6 GB / GDDR6 / 96 bits	1725,85 + 17,85	43,72 + 0,41	d79d8f3	@TimCabbage
GTX 1660	6 GB / GDDR5 / 192 bits	148,91 ± 0,01	41,35 ± 0,02	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bits	282,65 ± 0,15	38,04 ± 0,02	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bits	714,44 ± 2,04	37,82 ± 0,02	79c1160	@pebaryan
Supersónico AGX Orin	64 GB / LPDDR5 / 256 bits	991,31 ± 1,15	33,58 ± 0,14	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bits	514,53 ± 3,06	33,29 ± 0,00	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bits	406,94 ± 0,25	30,40 ± 0,02	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bits	416,85 ± 1,75	27,79 ± 0,02	5fd160b	@pebaryan
Cuadro T1000	4 GB / GDDR5 / 128 bits	79,44 ± 0,01	27,82 ± 0,18	f6da8cb	@hanabu
Cuadro P2000	5 GB / GDDR5 / 160 bits	309,30 ± 0,05	23,63 ± 0,00	baa9255	@TinyServal
Cuadro P1000	4 GB / GDDR5 / 128 bits	183,40 ± 0,11	13,99 ± 0,13	1e74897	@aleksyx
Tesla K80	12 GB / GDDR5 / 384 bits	133,14 ± 0,55	13,80 ± 0,02	32732f2	@pebaryan

Llama 2 7B, Q4_0, con FA

viruta	Memoria	pp512 t/s	tg128t/s	Comprometerse	Gracias a
RTX 5090	32 GB / GDDR7 / 512 bits	14970,15 ± 381,06	300,40 ± 0,28	8cf6b42	@totaldev
RTX PRO 6000 Blackwell	96 GB / GDDR7 / 512 bits	16618,98 ± 20,66	281,11 ± 0,41	5143fa8	@Tom94
H100 80 GB	80 GB / HBM3 / 5120 bits	11263,29 ± 98,34	280,74 ± 1,17	5143fa8	@Hedede
A100 80GB	80 GB / HBM2e / 5120 bits	5285,96 ± 6,58	200,90 ± 0,12	5143fa8	@Hedede
RTX 4090D	24 GB / GDDR6X / 384 bits	12506,97 ± 11,51	191,57 ± 0,03	79c1160	@ laboratorio-autónomo-de-IA
RTX 4090	24 GB / GDDR6X / 384 bits	14770,63 ± 102,93	188,96 ± 0,05	2241453	@lhl
RTX 5080	16 GB / GDDR7 / 256 bits	9487,70 ± 21,89	184,68 ± 0,05	8a4280c	@Hedede
RTX 5070 Ti	16 GB / GDDR7 / 256 bits	8419,56 ± 35,50	182,43 ± 0,09	933414c	@TinyServal
RTX 6000 Ada	48 GB / GDDR6 / 384 bits	10576,85 ± 530,21	179,47 ± 0,32	b8e09f0	@Hedede
RTX 3090Ti	24 GB / GDDR6X / 384 bits	6924,01 ± 10,76	172,26 ± 1,31	9c35706	@slaren
RTX PRO 4500 Blackwell	32 GB / GDDR7 / 256 bits	7251,66 ± 92,40	168,90 ± 0,20	becc481	@Hedede
RTX 3090	24 GB / GDDR6X / 384 bits	5560,06 ± 16,28	161,89 ± 0,18	c76b420	@m18coppola
L40	48 GB / GDDR6 / 384 bits	10097,64 ± 671,22	153,76 ± 0,12	ee09828	@Hedede
RTX 4080 SUPER	16 GB / GDDR6X / 256 bits	9439,01 ± 56,75	147,48 ± 1,41	81086cd	@zacharyarnaise
RTX 4080	16 GB / GDDR6X / 256 bits	9205,93 ± 22,31	143,47 ± 0,02	20638e4	@Ristovski
RTX A6000	48 GB / GDDR6 / 384 bits	5662,39 ± 13,87	144,87 ± 0,18	4795c91	@Hedede
RTX 3080	10 GB / GDDR6X / 320 bits	5569,56 ± 14,04	139,95 ± 0,95	9c35706	@slaren
RTX PRO 4000 Blackwell	24 GB / GDDR7 / 192 bits	5674,44 ± 139,53	136,38 ± 0,13	7d77f07	@Hedede
RTX A5000	24 GB / GDDR6 / 384 bits	4552,15 ± 9,68	135,83 ± 0,11	e5155e6	@Hedede
Tesla V100	32 GB / HBM2 / 4096 bits	2973,78 ± 3,62	134,76 ± 0,02	51f5a45	@Hedede
RTX 4070 Ti SUPER	16 GB / GDDR6X / 256 bits	7612,32 ± 37,35	132,85 ± 0,31	9c35706	@Ristovski
A30	24 GB / HBM2e / 3072 bits	3068,72 ± 0,63	131,93 ± 0,18	583cb83	@Hedede
RTX 5070	12 GB / GDDR7 / 192 bits	5783,44 ± 36,95	128,21 ± 2,52	@Spyro000	-
A40	48 GB / GDDR6 / 384 bits	5256,38 ± 19,39	126,24 ± 0,06	3470a5c	@Hedede
Titán V	12 GB / HBM2 / 3072 bits	2481,25 ± 1,31	112,17 ± 0,01	e56abd2	@Hedede
RTX 2080 Ti	11 GB / GDDR6 / 352 bits	3107,61 ± 4,34	109,17 ± 0,07	9c35706	@ariya
Quadro RTX 6000	24 GB / GDDR6 / 384 bits	3053,96 ± 1,37	104,38 ± 0,04	b8e09f0	@Hedede
Quadro RTX 8000	48 GB / GDDR6 / 384 bits	3052,35 ± 5,64	103,63 ± 0,02	b8e09f0	@Hedede
RTX A4500	20 GB / GDDR6 / 320 bits	3453,10 ± 49,19	103,00 ± 0,25	5cdb27e	@aleksyx
RTX 5060 Ti 16 GB	16 GB / GDDR7 / 128 bits	4195,53 ± 1,98	93,46 ± 0,01	89d1029	@mike-llamacpp
RTX 2070 SUPER	8 GB / GDDR6 / 256 bits	2293,29 ± 5,91	87,71 ± 0,29	bc07349	@phstudy
RTX A4000	16 GB / GDDR6 / 256 bits	2807,83 ± 52,44	85,17 ± 0,66	65349f2	@TinyServal
RTX 3060	12 GB / GDDR6 / 192 bits	2407,67 ± 3,73	76,92 ± 0,03	baa9255	@QuantiusBenignus
Titán Xp	12 GB / GDDR5X / 384 bits	1218,12 ± 1,82	73,84 ± 0,04	c4510dc	@Hedede
Quadro RTX 4000	8 GB / GDDR6 / 256 bits	1662,80 ± 2,04	67,62 ± 0,67	7d77f07	@Hedede
RTX 4060 Ti 8GB	8 GB / GDDR6 / 128 bits	3803,45 ± 70,80	64,03 ± 0,53	89d1029	@mike-llamacpp
Tesla P100	16 GB / HBM2 / 4096 bits	787,36 ± 3,27	61,99 ± 0,00	b8372ee	@Hedede
GTX 1080 Ti	11 GB / GDDR5X / 352 bits	1138,14 ± 2,02	61,38 ± 0,03	9c35706	@ariya
RTX A4000 Ada	20 GB / GDDR6 / 160 bits	3171,86 ± 4,34	61,37 ± 0,01	a74a0d6	@sdwolfz
RTX 2060 SUPER	8 GB / GDDR6 / 256 bits	1563,77 ± 0,51	61,13 ± 0,05	5c0eb5e	@ggerganov
Chispa DGX	128 GB/LPDDR5x	3661,37 ± 38,66	56,74 ± 0,03	5acd455	@ggerganov
Tesla P40	24 GB / GDDR5 / 384 bits	1079,66 ± 0,18	53,73 ± 0,05	c76b420	@m18coppola
RTX 2000 Ada	16 GB / GDDR6 / 128 bits	2250,14 ± 5,91	50,71 ± 0,01	756cfe	@DigitalRudeness
Tesla T4	16 GB / GDDR6 / 256 bits	1309,73 ± 1,02	44,03 ± 0,57	d32e03f	@pt13762104
GTX 1660	6 GB / GDDR5 / 192 bits	154,45 ± 0,52	41,43 ± 0,01	9515c61	@ariya
Tesla M40	24 GB / GDDR5 / 384 bits	290,17 ± 0,11	39,98 ± 0,01	97d5117	@Hedede
GTX 1070 Ti	8 GB / GDDR5 / 256 bits	790,52 ± 2,39	37,87 ± 0,00	79c1160	@pebaryan
Supersónico AGX Orin	64 GB / LPDDR5 / 256 bits	1171,96 ± 4,70	35,88 ± 0,18	c1b1876	@TinyServal
Tesla P4	8 GB / GDDR5 / 256 bits	529,53 ± 2,12	33,12 ± 0,03	c76b420	@m18coppola
P106-100	6 GB / GDDR5 / 192 bits	438,49 ± 0,38	30,64 ± 0,06	5fd160b	@pebaryan
GTX 1060	6 GB / GDDR5 / 192 bits	446,19 ± 0,81	28,18 ± 0,01	5fd160b	@pebaryan
Cuadro T1000	4 GB / GDDR5 / 128 bits	27,46 ± 0,23	27,46 ± 0,23	f6da8cb	@hanabu
Cuadro P2000	5 GB / GDDR5 / 160 bits	311,55 ± 0,19	23,76 ± 0,01	baa9255	@TinyServal
Tesla K80	12 GB / GDDR5 / 384 bits	133,36 ± 0,60	14,27 ± 0,32	32732f2	@pebaryan
Cuadro P1000	4 GB / GDDR5 / 128 bits	173,82 ± 0,02	13,65 ± 0,14	1e74897	@aleksyx

Calibre de referencia de Apple Silicon

#4167 La mayor diferencia entre esta discusión y las tres últimas es que estableció un calibre unificado antes. Además de Q4_0, también incluye F16 y Q8_0. Es útil para comprender PP / TG / t/s.

Las instrucciones dadas directamente en la discusión son:

PP significa prompt processing
TG significa text-generation
t/s significa tokens per second

Un ejemplo de comparación de tiempos que se puede ver en el artículo son los resultados de M2 Ultra a medida que evolucionan las versiones y FA en la misma máquina:

Hora	Dispositivo	Versión/Descripción	Ancho de banda GB/s	Núcleos de GPU	F16 PP	F16 TG	Q8_0 PP	Q8_0 TG	T4_0 PP	Q4_0 TG
2023-11-21	M2 Ultra	8e672ef	800	76	1401.85	41.02	1248,59	66,64	1238,48	94,27
2024-11-12	M2 Ultra	86ed72d + FA	800	76	1525,95	43,15	1368.18	73.11	1391,78	108,80
2025-08-02	M2 Ultra	5c0eb5e + FA	800	76	1561,35	43,24	1386,97	73,35	1412.42	109,41

Al principio del texto de discusión, se dan varios ejemplos unificados de dispositivos Apple Silicon:

Equipos	T4_0 PP	Q4_0 TG	Q8_0 PP	Q8_0 TG	F16 PP	F16 TG
M1 Pro 16 GPU	266,25	36,41	270,37	22.34	302.14	12,75
GPU M2 Ultra 76	1238,48	94,27	1248,59	66,64	1401.85	41.02
M3 Máx. 40 GPU	690,99	65,85	749,37	43.00	794,26	25.27

No entraré aquí en el texto completo de la línea de Apple. Más adelante, me centraré en las tres categorías de listas de backend de gráficos independientes que usted especificó.

Lista completa de ROCm / HIP

Llama 2 7B, Q4_0, sin FA

viruta	Memoria	pp512 t/s	tg128t/s	Comprometerse	Gracias a
Instinto MI300X	192 GB / HBM3 / 8192 bits	11476,40 ± 72,79	232,92 ± 0,53	ee3a9fc	@sídongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bits	3552,27 ± 101,96	167,11 ± 0,50	2f0c2db	@Diablo-D3
Instinto MI210	64 GB / HBM2e / 4096 bits	2486,22 ± 9,58	124,51 ± 0,04	8160b38	@65a
Pro W7900	48 GB / GDDR6 / 384 bits	3213,17 ± 80,47	121,18 ± 0,06	8160b38	@65a
RX 7900 XT	20 GB / GDDR6 / 320 bits	3098,38 ± 24,02	116,15 ± 0,06	1e15bfd	@AdamNiederer
RX 9070	16 GB / GDDR6 / 256 bits	2381,77 ± 3,68	114,48 ± 0,60	d0660f2	@andj1210
Instinto MI100	32 GB / HBM2 / 4096 bits	2732,83 ± 1,98	110,48 ± 0,14	9c35706	@firefox42
RX 9070 XT	16 GB / GDDR6 / 256 bits	5055,19 ± 109,58	101,27 ± 0,27	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bits	2151,81 + 17,94	100,94 + 0,10	00131d6	@olegshulyakov
Instinto MI50	32 GB / HBM2 / 4096 bits	1057,24 ± 0,53	98,95 ± 0,25	97d5117	@wtarreau
RX 7900 GRE	16 GB / GDDR6 / 256 bits	1456,98 ± 12,39	96,07 ± 0,10	6fa3b55	@MihaiBojescu
IA PRO R9700	32 GB / GDDR6 / 256 bits	4443,54 ± 339,25	93,84 ± 0,26	bd4ef13	@gogich77
Instinto MI60	32 GB / HBM2 / 4096 bits	1289,11 ± 0,62	91,46 ± 0,13	504af20	@Said-Akbar
RX 6900 XT	16 GB / GDDR6 / 256 bits	1889,84 ± 31,21	88,49 ± 0,00	a972fae	@notgood
ProVII	16 GB / HBM2 / 4096 bits	1064,99 ± 1,18	87,45 ± 0,04	2739a71	@8XXD8
RX 6800 XT	16 GB / GDDR6 / 256 bits	1447,07 ± 1,36	83,92 ± 0,03	79c1160	@MrLavender
Pro V620	32 GB / GDDR6 / 256 bits	1803,65 ± 2,54	74,66 ± 0,01	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bits	1419,67 ± 3,64	67,58 ± 0,24	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bits	354,17 ± 0,18	67,55 ± 0,04	c05e8c9	@daniandtheweb
Instinto MI25	16 GB / HBM2 / 2048 bits	409,83 ± 0,23	63,94 ± 0,06	2739a71	@8XXD8
IA máx+ 395	128 GB/LPDDR5	911,36 ± 1,79	50,01 ± 0,07	e60f241	@firefox42
RX 7600 XT	16 GB / GDDR6 / 128 bits	1099,64 ± 2,05	48,58 ± 0,06	9c35706	@wbruna
RXVega 64	8 GB / HBM2 / 2048 bits	240,68 ± 0,09	48,46 ± 0,09	ec428b0	@davispuh
Radeón 8060S	Sistema compartido / DDR5	351,36 ± 0,67	47,97 ± 0,33	1d0125b	@hspak
Radeón 880M	Sistema compartido / DDR5	163,25 ± 13,86	12,97 ± 1,63	c55d53a	@Hedede

Llama 2 7B, Q4_0, con FA

viruta	Memoria	pp512 t/s	tg128t/s	Comprometerse	Gracias a
Instinto MI300X	192 GB / HBM3 / 8192 bits	11945,97 ± 54,29	218,53 ± 0,09	ee3a9fc	@sídongcn
RX 7900 XTX	24 GB / GDDR6 / 384 bits	3874,25 ± 11,92	170,12 ± 0,56	2f0c2db	@Diablo-D3
Pro W7900	48 GB / GDDR6 / 384 bits	3472,86 ± 52,86	127,43 ± 0,12	8160b38	@65a
Instinto MI210	64 GB / HBM2e / 4096 bits	2571,82 ± 2,89	130,18 ± 0,06	8160b38	@65a
RX 9070	16 GB / GDDR6 / 256 bits	2452,68 ± 1,33	115,32 ± 0,52	d0660f2	@andj1210
RX 7900 XT	20 GB / GDDR6 / 320 bits	3261,75 ± 9,09	112,30 ± 0,06	1e15bfd	@AdamNiederer
Instinto MI50	32 GB / HBM2 / 4096 bits	1129,43 ± 0,15	105,82 ± 0,07	97d5117	@wtarreau
Instinto MI100	32 GB / HBM2 / 4096 bits	2755,00 ± 3,68	104,71 ± 0,10	9c35706	@firefox42
IA PRO R9700	32 GB / GDDR6 / 256 bits	4773,07 ± 49,30	97,98 ± 0,13	bd4ef13	@gogich77
RX 7900 GRE	16 GB / GDDR6 / 256 bits	1598,79 ± 11,48	97,53 ± 0,06	6fa3b55	@MihaiBojescu
RX 9070 XT	16 GB / GDDR6 / 256 bits	4903,51 ± 96,36	97,28 ± 0,13	583cb83	@Hadrianneue
RX 7800 XT	16 GB / GDDR6 / 256 bits	2304,63 + 2,85	95,99 + 0,21	00131d6	@olegshulyakov
RX 6900 XT	16 GB / GDDR6 / 256 bits	1948,31 ± 13,51	85,04 ± 0,02	a972fae	@notgood
Pro V620	32 GB / GDDR6 / 256 bits	1256,86 ± 0,55	70,83 ± 0,02	5c0eb5e	@samteezy
RX 9060 XT	16 GB / GDDR6 / 256 bits	1479,27 ± 0,71	65,42 ± 0,19	a0e13dc	@lcy0321
RX 5700 XT	8 GB / GDDR6 / 256 bits	314,17 ± 0,29	62,02 ± 0,05	c05e8c9	@daniandtheweb
IA máx+ 395	128 GB/LPDDR5	1003,53 ± 2,91	49,87 ± 0,02	e60f241	@firefox42
Radeón 8060S	Sistema compartido / DDR5	366,08 ± 1,44	48,97 ± 0,15	1d0125b	@hspak
RX 7600 XT	16 GB / GDDR6 / 128 bits	1199,16 ± 1,07	47,65 ± 0,06	9c35706	@wbruna
RXVega 64	8 GB / HBM2 / 2048 bits	153,17 ± 0,72	42,46 ± 0,40	ec428b0	@davispuh
Radeón 880M	Sistema compartido / DDR5	213,31 ± 14,05	16,16 ± 1,41	c55d53a	@Hedede

Lista completa de Vulkan

Llama 2 7B, Q4_0, sin FA

viruta	pp512 t/s	tg128t/s	Comprometerse	Comentarios
NVIDIA RTX 5090	10381,64 ± 508,84	263,63 ± 0,91	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3531,93 ± 31,74	191,28 ± 0,20	2f0c2db
NVIDIA RTX 4090	9452,03 ± 187,70	187,97 ± 0,21	4ae88d0	coopmat2
NVIDIA RTX 5080	7444,99 ± 20,11	185,10 ± 0,54	f6b533d	coopmat2
NVIDIA A100	6389,86 ± 4,83	160,78 ± 0,16	2257758	coopmat2
NVIDIA RTX 3090	4298,97 ± 10,59	160,13 ± 0,25	4ae88d0	coopmat2
Nvidia RTX 4080 Súper	7101,18 ± 269,79	147,13 ± 5,64	81086cd	coopmat2
NVIDIA RTX 3080	4287,11 ± 55,50	139,15 ± 0,05	7c7d6ce	coopmat2
NVIDIA RTX A5000	3641,55 ± 9,05	139,89 ± 0,69	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	5036,04 ± 88,16	137,11 ± 0,02	e9fd8dc
Nvidia RTX 5070 Ti	6213,63 ± 27,72	135,63 ± 0,18	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4036,04 ± 34,58	130,19 ± 0,39	3191462
NVIDIA Tesla V100	1391,39 ± 1,19	129,58 ± 0,58	7d77f07
Nvidia RTX 4070 Ti Súper	6099,18 ± 154,30	129,45 ± 0,18	4ae88d0	coopmat2
AMD Radeon RX 7900 XT	2941,58 ± 17,17	123,18 ± 0,40	71e74a3
AMD RadeonRX 9070	3164,10 ± 66,84	119,71 ± 3,40	21c17b5
AMD Radeon RX 7800 XT	2017,33 ± 19,30	118,27 ± 0,27	4fdbc1e
AMD Radeon RX 7900 GRE	2336,31 ± 7,52	116,11 ± 0,26	4b2a477
Apple M3 Ultra	1116,83 ± 0,55	115,54 ± 0,78	2d451c8	MoltenVK
Intel Arc Pro B70	3379,00 ± 47,92	112,02 ± 1,08	b863507
Nvidia Titan V	984,36 ± 4,13	108,86 ± 0,28	e56abd2
AMD Radeon Pro VII	1078,54 ± 0,86	107,82 ± 0,14	N/A
AMD Radeon RX 6900 XT	1837,21 ± 25,44	104,60 ± 0,30	a972fae
Intel Arc Pro A60	2261,11 ± 9,53	104,25 ± 0,07	97d5117
AMD Radeon RX 6800 XT	1752,92 ± 1,71	100,32 ± 0,97	N/A
AMD Radeon VII	1059,14 ± 0,56	101,19 ± 0,53	77d6ae4
Nvidia RTX 2080Ti	1888,24 ± 9,20	97,58 ± 6,60	N/A
AMD RadeonRX 6800	1698,69 ± 0,80	95,61 ± 0,19	4b385bf
AMD Radeon Pro W6800X Dúo	687,71 ± 4,33	94,82 ± 0,12	N/A
Nvidia RTX 5060 Ti	3460,92 ± 7,16	93,51 ± 0,15	89f10ba	coopmat2
NVIDIA RTX 4070	3179,37 ± 46,16	92,29 ± 0,28	9a48399
AMD Radeon Pro W6800X	510,80 ± 0,13	86,47 ± 0,46	13b4548	MoltenVK
AMD Radeon RX 6700 XT	1051,20 ± 0,98	83,88 ± 0,08	6d75883
AMD Radeon RX 6750 XT	1040,58 ± 0,35	81,98 ± 0,03	228f34c
AMD Radeon Pro V620	1595,32 ± 1,59	81,78 ± 0,06	03d4698
NVIDIA RTX 3070	2113,02 ± 7,38	78,71 ± 0,13	1b8fb81
AMD Radeon Instinto MI60	369,26 ± 2,48	78,16 ± 1,40	504af20
NVIDIA RTX 3060	1815,70 ± 5,85	75,94 ± 0,80	92c0b38	coopmat2
Apple M4 Max	724,77 ± 20,93	75,02 ± 0,14	1ece0cb6
Nvidia Tesla T10	1692,70 ± 2,05	75,01 ± 0,21	7f76692	coopmat2
NVIDIA RTX A4000	2248,14 ± 7,59	73,74 ± 0,08	f5245b5	coopmat2
AMD Radeon RX 5700 XT	529,69 ± 0,26	70,73 ± 0,04	4fdbc1e
AMD Radeon RX 9060 XT	2141,67 ± 6,87	70,54 ± 0,74	ed52f36
Intel Arco B580	620,94 ± 15,33	70,14 ± 0,28	7f76692
AMD Radeon Pro V540	583,88 ± 6,56	69,64 ± 0,24	9da3dcd
AMD Radeon Pro W5700	449,85 ± 0,46	68,55 ± 0,15	23bc779
Intel Arc Pro B60	522,36 ± 3,60	68,55 ± 0,01	516a4ca
Nvidia GTX 1080 Ti	540,69 ± 0,71	64,99 ± 0,08	360d653
Nvidia RTX 2070 Súper	1199,13 ± 7,70	64,64 ± 0,20	b7552cf
Nvidia RTX 3070 Móvil	1689,40 ± 19,57	63,64 ± 0,39	ceff6bb	coopmat2
Nvidia Tesla P100	678,14 ± 1,40	63,16 ± 0,06	eec1e33
AMD BC-250	370,66 ± 0,04	62,32 ± 0,32	5886f4f
AMD Radeon RX 6650 XT	1029,52 ± 1,21	62,14 ± 0,02	dbb852b
Nvidia RTX 4060 Móvil	2135,66 ± 23,18	59,53 ± 0,03	a5c07dc	coopmat2
NVIDIA Tesla P40	488,06 ± 0,27	59,36 ± 0,16	N/A
Nvidia GTX 1660 Ti Móvil	511,67 ± 2,85	56,60 ± 0,07	b43556e
AMD Radeon Instinct MI25	439,42 ± 0,34	54,69 ± 0,03	2739a71
AMD Radeon RX 6600 XT	574,65 ± 0,86	53,92 ± 0,11	091592d
AMD Ryzen AI Max+ 395	1288,96 ± 6,49	53,59 ± 0,38	7f76692
AMD Radeon RX 7600 XT	840,85 ± 3,02	53,02 ± 0,01	01d8eaa
Intel Arco A770	1073,85 + 29,68	52,56 + 0,11	a69d54f
NVIDIA GB10	2737,79 ± 19,56	52,28 ± 0,03	b9da444	coopmat2
AMD FirePro S9300 x2	247,26 ± 0,43	51,86 ± 0,11	eec1e33	Dividido en dos GPU
AMD RadeonRX 6600	761,89 ± 1,76	50,63 ± 0,02	b1c70e2
AMD Radeon RX Vega 56	439,87 ± 0,61	50,23 ± 0,14	92c0b38
Intel Arco B570	913,95 ± 0,90	49,64 ± 0,03	7f76692
Nvidia RTX 3060 Móvil	1059,76 ± 3,54	49,03 ± 0,13	dbb3a47
AMD RadeonRX 6800M	861,99 ± 7,67	48,71 ± 0,71	8e6f8bc
AMD RadeonRX 6600M	605,59 ± 0,65	48,21 ± 0,07	fe5b78c
Intel Arco A770M	875,92 ± 2,16	47,69 ± 0,16	eeee367
NVIDIA P104-100	311,90 ± 0,22	46,18 ± 0,05	eec1e33
AMD Radeon RX Vega 64	356,08 ± 0,09	45,73 ± 0,18	ec428b0
NVIDIA RTX A2000	1245,19 ± 8,76	45,52 ± 0,54	b1afcab	coopmat2
AMD Radeon RX 7600M XT	459,39 ± 2,34	45,28 ± 0,10	b9ab0a4	GPU electrónica
AMD Radeon Pro V340	375,41 ± 0,24	45,16 ± 0,06	9da3dcd	Dividido en dos GPU
Nvidia GTX 1070 Ti	297,50 ± 0,54	42,86 ± 1,20	860a9e4	GPU electrónica
Intel Arco A750	1075,94 ± 13,89	42,66 ± 0,18	c1b1876
Nvidia RTX 4050 Móvil	1154,28 + 15,76	41,89 + 0,10	d79d8f3
NVIDIA GTX 1070	321,57 ± 0,93	41,48 ± 0,09	eec1e33
Intel Arc Pro B50	193,50 ± 0,24	39,99 ± 0,10	7b43f55
Nvidia Tesla M40	92,48 ± 0,02	39,35 ± 1,22	b8372ee
AMD RadeonRX 580	258,03 ± 0,71	39,32 ± 0,03	de4c07f
AMD RadeonRX 470	218,07 ± 0,56	38,63 ± 0,21	e288693
AMD Radeon Pro W5500	315,39 ± 3,76	36,82 ± 0,38	860a9e4
AMD RadeonRX 480	248,66 ± 0,28	34,71 ± 0,14	3b15924
Apple M2 Ultra	205,98 ± 0,02	34,34 ± 0,12	dbb852b	Asahi Linux
NVIDIA GTX 980	186,24 ± 0,09	33,90 ± 0,51	860a9e4
NVIDIA P106-100	183,78 ± 0,26	29,77 ± 0,04	23bc779
AMD FirePro W8100	155,22 ± 0,17	29,52 ± 0,05	4536363
Nvidia Tesla P4	265,54 ± 0,21	28,03 ± 0,14	24d2ee0
AMD Radeon RX 6500 XT	255,25 ± 0,35	27,81 ± 0,10	g9fdfcd
Manzana M3	263,70 ± 0,02	26,39 ± 0,14	b9ab0a4	MoltenVK
AMD FirePro S10000	94,78 ± 0,02	25,32 ± 0,02	914a82d	Dividido en dos GPU
Nvidia Quadro P2000	169,55 ± 0,17	23,05 ± 0,03	63f8fe0
Serie Intel Core Ultra 200	544,95 ± 4,15	22,49 ± 0,09	cea560f
AMD Ryzen AI Serie 9 300	479,07 ± 0,41	22,41 ± 0,18	N/A
Serie AMD Ryzen 6000	240,89 ± 0,52	21,26 ± 0,08	ee09828
Apple M2 Pro	62,70 ± 0,03	20,95 ± 0,11	1fe0029	Asahi Linux
Nvidia GTX 1050 Ti	136,42 ± 0,67	20,96 ± 0,21	2f0c2db
AMD Ryzen Serie 8000	266,19 ± 1,36	20,53 ± 0,08	a5c07dc
AMD Ryzen Serie 7000	281,62 ± 1,56	19,91 ± 0,07	ebce03e
AMD Ryzen Z1 extremo	199,36 ± 7,02	18,77 ± 0,02	53ff6b9
AMD FirePro D700	69,95 ± 0,04	16,62 ± 0,01	d3bd719	MoltenVK, ejecutándose en modo FP16 en un chip exclusivo FP32
AMD Radeon Pro WX 4100	78,79 ± 0,10	16,05 ± 0,07	860a9e4
Manzana M2	50,79 ± 0,16	13,50 ± 0,02	8c0d6bb	Asahi Linux
Manzana M1	38,29 ± 0,00	12,47 ± 0,03	2370665	Asahi Linux
AMD Ryzen Serie 5000	90,55 ± 0,08	10,98 ± 0,07	d84635b
Serie Intel Core 1100	187,20 ± 1,78	10,39 ± 0,04	abb9f3c
AMD Radeon RX 550	52,66 ± 0,49	10,20 ± 0,01	N/A
AMD Ryzen Serie 4000	103,87 ± 0,02	9,63 ± 0,01	4b385bf
Nvidia Tesla K80	89,46 ± 0,10	9,39 ± 0,06	5d46bab	Ejecutándose en una sola GPU
Nvidia Tesla K40	64,37 ± 0,09	9,30 ± 0,19	eec1e33
MediaTek Dimensión 9400	38,36 ± 15,15	8,92 ± 0,06	b9ab0a4	GPU admite coopmat pero pp512 es más rápido cuando está apagado
Intel Core Ultra serie 100	185,51 ± 0,22	8,21 ± 0,07	1d72c84
AMD Ryzen Serie 3000	48,63 ± 0,10	8,49 ± 0,01	1fe0029
CIX CD8180	2,80 ± 0,01	5,51 ± 0,00	4dca015
Serie Intel Core 1000	25,58 ± 0,00	4,25 ± 0,18	N/A
Serie Intel Core 8000	25,43 ± 0,17	3,35 ± 0,03	c4df49a
Intel N150	28,84 ± 0,02	2,93 ± 0,00	4f63cd7

Llama 2 7B, Q4_0, FA habilitado

viruta	pp512 t/s	tg128t/s	Comprometerse	Comentarios
NVIDIA RTX 5090	11796,38 ± 601,36	273,68 ± 0,52	ca71fb9	coopmat2
AMD Radeon RX 7900 XTX	3332,90 ± 11,47	195,30 ± 0,23	2f0c2db
NVIDIA RTX 5080	8054,59 ± 35,68	192,17 ± 0,21	f6b533d	coopmat2
NVIDIA RTX 4090	10830,41 ± 36,25	190,10 ± 0,31	4ae88d0	coopmat2
NVIDIA A100	7064,40 ± 1,63	170,56 ± 0,02	2257758	coopmat2
NVIDIA RTX 3090	4732,33 ± 4,80	162,28 ± 0,21	4ae88d0	coopmat2
Nvidia RTX 4080 Súper	8007,37 ± 46,03	150,20 ± 0,26	81086cd	coopmat2
NVIDIA RTX 3080	4913,83 ± 21,52	145,74 ± 0,16	7c7d6ce	coopmat2
NVIDIA Tesla V100	1411,25 ± 2,12	142,13 ± 0,03	7d77f07
NVIDIA RTX A5000	4071,22 ± 13,13	140,43 ± 0,22	4ae88d0	coopmat2
AMD Radeon RX 9070 XT	4911,74 ± 28,52	138,20 ± 0,18	e9fd8dc
Nvidia RTX 5070 Ti	6764,53 ± 11,95	135,65 ± 0,02	d13d0f6	coopmat2
AMD Radeon AI Pro R9700	4333,83 ± 29,36	130,90 ± 0,12	3191462
AMD Radeon RX 7900 XT	3043,93 ± 10,42	124,20 ± 0,09	71e74a3
AMD Radeon RX 7800 XT	2094,64 ± 14,38	119,63 ± 0,13	4fdbc1e
AMD RadeonRX 9070	3277,24 ± 18,17	119,55 ± 0,06	21c17b5
AMD Radeon RX 7900 GRE	2402,07 ± 22,50	116,77 ± 0,08	4b2a477
Apple M3 Ultra	1115,55 ± 0,75	115,99 ± 0,12	2d451c8	MoltenVK
Intel Arc Pro B70	3314,53 ± 17,95	111,63 ± 0,05	b863507
Nvidia Titan V	792,74 ± 4,30	109,21 ± 0,72	e56abd2
AMD Radeon Pro VII	783,94 ± 0,77	108,45 ± 0,48	N/A
AMD Radeon RX 6900 XT	1761,93 ± 4,75	106,15 ± 0,04	a972fae
Nvidia RTX 2080Ti	1936,25 ± 32,08	100,99 ± 0,24	N/A
AMD Radeon RX 6800 XT	1704,79 ± 0,71	100,50 ± 0,06	N/A
AMD Radeon Pro W6800X Dúo	795,28 ± 0,72	100,08 ± 0,02	N/A
Nvidia RTX 5060 Ti	3912,65 ± 5,86	97,01 ± 0,14	89f10ba	coopmat2
AMD RadeonRX 6800	1749,46 ± 3,36	96,65 ± 0,48	4b385bf
NVIDIA RTX 4070	4293,57 ± 27,70	91,49 ± 0,89	9a48399	coopmat2
AMD Radeon RX 6750 XT	997,05 ± 0,45	82,29 ± 0,06	228f34c
AMD Radeon RX 6700 XT	1010,90 ± 12,89	81,86 ± 0,19	6d75883
NVIDIA RTX 3060	2012,88 ± 10,12	80,59 ± 0,02	92c0b38	coopmat2
AMD Radeon Pro V620	1556,31 ± 2,82	79,24 ± 0,09	03d4698
NVIDIA RTX A4000	2482,74 ± 26,05	76,07 ± 0,08	f5245b5	coopmat2
Nvidia Tesla T10	1840,14 ± 1,22	76,05 ± 0,13	7f76692	coopmat2
AMD Radeon RX 5700 XT	538,31 ± 0,35	74,43 ± 0,03	4fdbc1e
Intel Arco B580	419,49 ± 3,37	72,00 ± 0,24	7f76692
Apple M4 Max	557,46 ± 26,87	71,79 ± 4,16	1ece0cb6
AMD Radeon Pro W5700	446,98 ± 0,39	71,30 ± 0,24	23bc779
Intel Arc Pro B60	274,76 ± 0,27	70,54 ± 0,03	516a4ca
AMD Radeon RX 9060 XT	1915,41 ± 7,90	70,52 ± 0,16	ed52f36
Nvidia Tesla P100	685,51 ± 0,88	66,48 ± 0,02	eec1e33
AMD Radeon RX 6650 XT	1088,90 ± 0,40	64,53 ± 0,75	dbb852b
Nvidia GTX 1080 Ti	529,96 ± 0,38	64,63 ± 0,10	360d653
AMD BC-250	356,87 ± 1,24	63,14 ± 0,09	5886f4f
Nvidia RTX 3070 Móvil	1832,07 ± 57,14	62,92 ± 0,37	ceff6bb	coopmat2
Nvidia RTX 4060 Móvil	2358,03 ± 12,17	60,01 ± 0,08	a5c07dc	coopmat2
NVIDIA Tesla P40	484,37 ± 0,27	59,22 ± 0,15	N/A
Nvidia GTX 1660 Ti Móvil	514,34 ± 0,88	57,30 ± 0,42	b43556e
AMD Radeon RX 7600 XT	1024,38 ± 7,56	56,11 ± 0,02	01d8eaa
AMD FirePro S9300 x2	243,33 ± 0,22	55,64 ± 0,06	eec1e33	Dividido en dos GPU
NVIDIA GB10	3279,89 ± 26,78	53,64 ± 0,05	b9da444	coopmat2
AMD RadeonRX 6600	808,76 ± 0,15	53,24 ± 0,03	b1c70e2
Intel Arco A770	1119,68 + 30,25	53,07 + 0,09	a69d54f
AMD Ryzen AI Max+ 395	1357,07 ± 10,94	53,00 ± 0,13	7f76692
AMD Radeon RX Vega 56	428,54 ± 0,50	52,66 ± 0,03	92c0b38
Intel Arco B570	288,51 ± 0,09	50,49 ± 0,05	7f76692
NVIDIA P104-100	325,30 ± 0,25	48,64 ± 0,04	eec1e33
AMD Radeon Pro V340	360,23 ± 0,74	47,54 ± 0,06	9da3dcd	Dividido en dos GPU
AMD RadeonRX 6800M	784,16 ± 2,76	49,06 ± 0,34	8e6f8bc
AMD Radeon RX Vega 64	320,12 ± 0,22	47,06 ± 0,01	ec428b0
NVIDIA RTX A2000	1361,85 ± 3,26	45,69 ± 0,20	b1afcab	coopmat2
Intel Arco A770M	384,74 ± 0,78	45,68 ± 0,06	eeee367
Intel Arco A750	303,37 ± 1,44	43,96 ± 0,03	c1b1876
Nvidia GTX 1070 Ti	292,85 ± 0,23	43,42 ± 0,34	860a9e4	GPU electrónica
NVIDIA GTX 1070	330,84 ± 1,02	43,33 ± 0,06	360d653
Nvidia Tesla M40	93,35 ± 0,01	41,68 ± 0,01	b8372ee
Intel Arc Pro B50	132,48 ± 0,04	41,02 ± 0,04	7b43f55
AMD RadeonRX 470	197,26 ± 0,27	37,28 ± 0,11	3769fe6
AMD RadeonRX 480	194,52 ± 0,61	37,23 ± 0,09	0bcb40b
Apple M2 Ultra	198,83 ± 0,85	198,83 ± 0,85	dbb852b	Asahi Linux
NVIDIA GTX 980	180,97 ± 0,74	34,16 ± 0,10	860a9e4
NVIDIA P106-100	183,40 ± 0,34	30,79 ± 0,32	23bc779
AMD FirePro W8100	140,52 ± 0,34	29,28 ± 0,14	4536363
Nvidia Tesla P4	287,14 ± 0,29	28,37 ± 0,24	24d2ee0
Nvidia Quadro P2000	181,71 ± 0,12	23,77 ± 0,02	63f8fe0
Serie Intel Core Ultra 200	536,48 ± 1,27	23,05 ± 0,04	cea560f
AMD Ryzen AI Serie 9 300	532,59 ± 3,55	22,31 ± 0,06	N/A
Serie AMD Ryzen 6000	277,91 ± 0,37	21,15 ± 0,09	ee09828
Apple M2 Pro	58,86 ± 0,02	20,97 ± 0,03	1fe0029	Asahi Linux
AMD Ryzen Serie 8000	297,39 ± 1,22	20,59 ± 0,38	a5c07dc
AMD Ryzen Serie 7000	312,85 ± 2,51	20,09 ± 0,35	835b2b9
Nvidia GTX 1050 Ti	127,54 ± 1,03	20,08 ± 0,17	2f0c2db
AMD Radeon Pro WX 4100	75,59 ± 0,19	16,56 ± 0,04	860a9e4
Manzana M1	35,93 ± 0,00	12,85 ± 0,02	2370665	Asahi Linux
Manzana M2	46,81 ± 0,08	12,25 ± 2,30	8c0d6bb	Asahi Linux
AMD Ryzen Serie 5000	79,06 ± 0,01	10,75 ± 0,00	5d195f1
Serie Intel Core 1100	174,77 ± 4,47	10,58 ± 0,03	abb9f3c
Nvidia Tesla K40	64,37 ± 0,02	9,92 ± 0,06	eec1e33
AMD Ryzen Serie 4000	113,32 ± 0,01	9,87 ± 0,01	4b385bf
Nvidia Tesla K80	88,26 ± 0,19	9,49 ± 0,01	5d46bab	Ejecutándose en una sola GPU
AMD Ryzen 5 Serie 3000	47,41 ± 0,14	8,47 ± 0,01	1fe0029
Intel Core Ultra serie 100	77,66 ± 2,75	7,75 ± 0,05	2e89f76
Serie Intel Core 8000	25,55 ± 0,04	3,35 ± 0,02	c4df49a
Intel N150	25,59 ± 0,00	2,91 ± 0,00	4f63cd7

Cómo utilizar estas tablas

Si solo quieres comprar una tarjeta o comprobar en qué marcha está la máquina que tienes en la mano, la forma más práctica de leerla son en realidad estos tres pasos:

Primero vea si le preocupa tg128 o pp512.
Para conversaciones diarias, escritura de código y experiencia de chat, debes darle prioridad a tg128; para obtener rendimiento de contexto prolongado, procesamiento por lotes y avisos del lado del servidor, debería consultar más en pp512.
Mire el backend que realmente ejecuta.
Nvidia normalmente mira CUDA, que está más cerca del límite superior real; Las máquinas AMD deben verificar primero ROCm y Vulkan; Los escenarios de compatibilidad multiplataforma son más adecuados para referirse a Vulkan.
Finalmente, mira FA.
Para muchas tarjetas, pp512 aumentará de manera más obvia después de que se active FA, pero es posible que tg128 no necesariamente aumente simultáneamente, por lo que no se puede mirar simplemente una puntuación más alta.

Resumen de una oración

Lo mismo es el puntaje actual llama.cpp, pp512, tg128, Q4_0, FA, CUDA / ROCm / Vulkan representan respectivamente dimensiones completamente diferentes. Sólo aclarando primero el calibre y luego mirando los números la lista podrá tener significado.

Si solo quieres recordar la conclusión más corta, es decir:

CUDA es actualmente el más fuerte en general
ROCm ya es muy capaz en tarjetas AMD de alta gama
Vulkan tiene la cobertura más amplia y se pueden encontrar entradas comparables para tarjetas antiguas, gráficos centrales, Intel Arc y Apple Asahi.
tg128 está más cerca de la sensación corporal real diaria que pp512

Fuente original

Discusión CUDA n.º 15013: https://github.com/ggml-org/llama.cpp/discussions/15013
Discusión sobre Apple Silicon n.º 4167: https://github.com/ggml-org/llama.cpp/discussions/4167
Discusión de ROCm #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
Discusión sobre Vulkan #10879: https://github.com/ggml-org/llama.cpp/discussions/10879

Primero comprenda estos parámetros

¿Qué es Q4_0?

¿Qué es pp512?

¿Qué es tg128?

¿Qué es FA?

t/s Cómo leer

Hablemos primero de la conclusión.

Lista completa de CUDA

Llama 2 7B, Q4_0, sin FA

Llama 2 7B, Q4_0, con FA

Calibre de referencia de Apple Silicon

Lista completa de ROCm / HIP

Llama 2 7B, Q4_0, sin FA

Llama 2 7B, Q4_0, con FA

Lista completa de Vulkan

Llama 2 7B, Q4_0, sin FA

Llama 2 7B, Q4_0, FA habilitado

Cómo utilizar estas tablas

Resumen de una oración

Fuente original

¿Qué es `Q4_0`?

¿Qué es `pp512`?

¿Qué es `tg128`?

¿Qué es `FA`?

`t/s` Cómo leer