Primero comprenda estos parámetros
¿Qué es Q4_0?
Q4_0 es un formato de cuantificación de 4 bits. Su significado no es “el modelo es más fuerte”, sino “el modelo es más pequeño, ahorra memoria de video y es más fácil de instalar en más dispositivos”. La mayoría de estas listas usan Llama 2 7B, Q4_0. El objetivo principal es reducir las variables y facilitar la comparación horizontal de los resultados de diferentes GPU.
¿Qué es pp512?
pp512 generalmente puede entenderse como prompt processing 512 tokens, que es el rendimiento al procesar 512 tokens de entrada.
pp= procesamiento rápido512= La longitud de entrada es 512 tokenst/s= tokens por segundo
Es más como “velocidad de comer palabras clave” y generalmente es más paralelo, por lo que los números tienden a ser altos.
¿Qué es tg128?
tg128 generalmente puede entenderse como text generation 128 tokens, que es la velocidad cuando se generan 128 tokens continuamente.
tg= generación de texto128= generar 128 tokens continuamentet/s= tokens por segundo
Está más cerca de lo que normalmente sentimos como “si el modelo responde rápidamente o no”. Debido a que la fase de generación es recursiva token por token, generalmente es significativamente menor que pp512.
¿Qué es FA?
FA es Flash Attention. Una comprensión simple es un interruptor de optimización para el cálculo de la atención.
with FAsignifica que la atención flash está habilitadano FAsignifica desactivar Flash Atención
En muchas tarjetas, la mejora de FA a pp512 es más obvia que la de tg128; sin embargo, la mejora no es consistente entre diferentes backends, diferentes controladores y diferentes arquitecturas. Algunos dispositivos pueden incluso experimentar un aumento de PP, un pequeño cambio en TG o una disminución de PP.
t/s Cómo leer
t/s es tokens per second. No es velocidad de cuadros, no es FLOPS, es un resultado directo del rendimiento del modelo.
El punto más importante al leer la lista es: **Primero confirma si estás comparando la misma prueba. **
- No compares
pp512ytg128directamente - No confundas
no FAconwith FA - No considere los resultados de CUDA, ROCm y Vulkan como completamente equivalentes a la misma curva
Hablemos primero de la conclusión.
A juzgar por los datos actualmente visibles en estos hilos de discusión, podemos recordar aproximadamente estas conclusiones:
CUDAsigue siendo la línea más sólida y con mayor uso de muestras entre los puntos de referencia de GPUllama.cppactuales. En particular, las tarjetas Nvidia de alta gama tienen una gran ventaja enpp512.ROCmya puede dar resultados muy decentes en tarjetas AMD e Instinct de gama alta.MI300X,7900 XTXyW7900no son débiles.- La ventaja de
Vulkanno es “absolutamente más rápido”, sino la cobertura más amplia. Se pueden encontrar entradas para Nvidia, AMD, Intel, Apple Asahi / MoltenVK e incluso muchas tarjetas y pantallas centrales antiguas. tg128suele estar más cerca de la sensación física diaria ypp512es más adecuado para observar la capacidad de rendimiento. Para muchas tarjetas “superiores”, los márgenes de ventaja en las dos categorías no son exactamente los mismos.
Lista completa de CUDA
Llama 2 7B, Q4_0, sin FA
| viruta | Memoria | pp512 t/s | tg128t/s | Comprometerse | Gracias a |
|---|---|---|---|---|---|
| RTX 5090 | 32 GB / GDDR7 / 512 bits | 14073,41 ± 115,16 | 290,02 ± 1,10 | 8cf6b42 | @totaldev |
| RTX PRO 6000 Blackwell | 96 GB / GDDR7 / 512 bits | 14854,63 ± 22,73 | 274,20 ± 0,14 | 79c1160 | @Tom94 |
| H100 80 GB | 80 GB / HBM3 / 5120 bits | 9918,34 ± 176,97 | 267,81 ± 1,54 | 5143fa8 | @Hedede |
| A100 80GB | 80 GB / HBM2e / 5120 bits | 4849,53 ± 8,94 | 190,88 ± 0,33 | 5143fa8 | @Hedede |
| RTX 4090D | 24 GB / GDDR6X / 384 bits | 10293,86 ± 134,72 | 189,33 ± 0,19 | 79c1160 | @ laboratorio-autónomo-de-IA |
| RTX 4090 | 24 GB / GDDR6X / 384 bits | 11992,70 ± 107,99 | 186,21 ± 0,13 | 2241453 | @lhl |
| RTX 5080 | 16 GB / GDDR7 / 256 bits | 8297,36 ± 9,50 | 181,99 ± 0,42 | 8a4280c | @Hedede |
| RTX 5070 Ti | 16 GB / GDDR7 / 256 bits | 6952,38 ± 13,73 | 176,85 ± 0,07 | 933414c | @TinyServal |
| RTX 6000 Ada | 48 GB / GDDR6 / 384 bits | 9229,23 ± 101,78 | 176,07 ± 0,26 | b8e09f0 | @Hedede |
| RTX 3090Ti | 24 GB / GDDR6X / 384 bits | 6567,49 ± 20,30 | 171,19 ± 3,98 | 9c35706 | @slaren |
| RTX 3090 | 24 GB / GDDR6X / 384 bits | 5174,69 ± 21,83 | 158,16 ± 0,21 | c76b420 | @m18coppola |
| L40 | 48 GB / GDDR6 / 384 bits | 8870,49 ± 378,76 | 152,01 ± 0,28 | ee09828 | @Hedede |
| RTX 4080 SUPER | 16 GB / GDDR6X / 256 bits | 8125,15 ± 41,05 | 148,33 ± 0,20 | 81086cd | @zacharyarnaise |
| RTX 4080 | 16 GB / GDDR6X / 256 bits | 8031,64 ± 26,49 | 142,49 ± 0,16 | 20638e4 | @Ristovski |
| RTX 3080 | 10 GB / GDDR6X / 320 bits | 5013,86 ± 24,80 | 139,65 ± 0,99 | 9c35706 | @slaren |
| RTX A6000 | 48 GB / GDDR6 / 384 bits | 4913,93 ± 6,79 | 138,73 ± 2,75 | 4795c91 | @Hedede |
| RTX 4070 Ti SUPER | 16 GB / GDDR6X / 256 bits | 6924,53 ± 13,87 | 132,26 ± 0,16 | 9c35706 | @Ristovski |
| RTX PRO 4000 Blackwell | 24 GB / GDDR7 / 192 bits | 4992,83 ± 113,52 | 131,66 ± 0,20 | 7d77f07 | @Hedede |
| RTX A5000 | 24 GB / GDDR6 / 384 bits | 4028,16 ± 19,14 | 130,07 ± 2,74 | e5155e6 | @Hedede |
| Tesla V100 | 32 GB / HBM2 / 4096 bits | 3042,64 ± 40,71 | 129,08 ± 0,05 | 51f5a45 | @Hedede |
| RTX 5070 | 12 GB / GDDR7 / 192 bits | 5184,75 ± 18,70 | 127,54 ± 0,46 | @Spyro000 | - |
| A40 | 48 GB / GDDR6 / 384 bits | 4609,01 ± 10,67 | 124,11 ± 0,17 | 3470a5c | @Hedede |
| A30 | 24 GB / HBM2e / 3072 bits | 2767,10 ± 1,88 | 124,81 ± 0,16 | 583cb83 | @Hedede |
| Titán V | 12 GB / HBM2 / 3072 bits | 2617,46 ± 2,10 | 108,79 ± 0,05 | e56abd2 | @Hedede |
| RTX 2080 Ti | 11 GB / GDDR6 / 352 bits | 2890,66 ± 2,42 | 107,51 ± 0,21 | 9c35706 | @ariya |
| Quadro RTX 6000 | 24 GB / GDDR6 / 384 bits | 2751,18 ± 19,43 | 102,77 ± 0,04 | b8e09f0 | @Hedede |
| Quadro RTX 8000 | 48 GB / GDDR6 / 384 bits | 2709,95 ± 3,35 | 102,68 ± 0,03 | b8e09f0 | @Hedede |
| RTX A4500 | 20 GB / GDDR6 / 320 bits | 2827,20 ± 66,43 | 97,32 ± 2,80 | 5cdb27e | @aleksyx |
| RTX 5060 Ti 16 GB | 16 GB / GDDR7 / 128 bits | 3737,25 ± 6,79 | 90,94 ± 0,02 | 89d1029 | @mike-llamacpp |
| RTX 2070 SUPER | 8 GB / GDDR6 / 256 bits | 2088,34 ± 1,94 | 88,06 ± 0,28 | bc07349 | @phstudy |
| RTX A4000 | 16 GB / GDDR6 / 256 bits | 2684,06 ± 15,28 | 83,77 ± 0,37 | 65349f2 | @TinyServal |
| Titán Xp | 12 GB / GDDR5X / 384 bits | 1154,96 ± 1,46 | 76,08 ± 0,08 | c4510dc | @Hedede |
| RTX 3060 | 12 GB / GDDR6 / 192 bits | 2137,50 ± 10,12 | 75,57 ± 0,07 | baa9255 | @QuantiusBenignus |
| Quadro RTX 4000 | 8 GB / GDDR6 / 256 bits | 1536,89 ± 0,90 | 65,62 ± 0,62 | 7d77f07 | @Hedede |
| RTX 4060 Ti 8GB | 8 GB / GDDR6 / 128 bits | 3394,63 ± 7,44 | 63,86 ± 0,01 | 89d1029 | @mike-llamacpp |
| GTX 1080 Ti | 11 GB / GDDR5X / 352 bits | 1084,41 ± 3,01 | 62,49 ± 0,06 | 9c35706 | @ariya |
| RTX A4000 Ada | 20 GB / GDDR6 / 160 bits | 2779,77 ± 9,91 | 61,83 ± 0,04 | a74a0d6 | @sdwolfz |
| RTX 2060 SUPER | 8 GB / GDDR6 / 256 bits | 1420,24 ± 1,95 | 60,04 ± 0,01 | 5c0eb5e | @ggerganov |
| Tesla P100 | 16 GB / HBM2 / 4096 bits | 760,80 ± 2,92 | 58,35 ± 0,00 | b8372ee | @Hedede |
| Chispa DGX | 128 GB/LPDDR5x | 3062,31 ± 11,02 | 57,21 ± 0,06 | 5acd455 | @ggerganov |
| Tesla P40 | 24 GB / GDDR5 / 384 bits | 1007,42 ± 1,23 | 54,74 ± 0,07 | c76b420 | @m18coppola |
| RTX 2000 Ada | 16 GB / GDDR6 / 128 bits | 1956,22 ± 7,74 | 50,62 ± 0,04 | 756cfe | @DigitalRudeness |
| Tesla T4 | 16 GB / GDDR6 / 256 bits | 1219,06 ± 4,18 | 46,38 ± 0,73 | d32e03f | @pt13762104 |
| Portátil RTX 4050 | 6 GB / GDDR6 / 96 bits | 1725,85 + 17,85 | 43,72 + 0,41 | d79d8f3 | @TimCabbage |
| GTX 1660 | 6 GB / GDDR5 / 192 bits | 148,91 ± 0,01 | 41,35 ± 0,02 | 9515c61 | @ariya |
| Tesla M40 | 24 GB / GDDR5 / 384 bits | 282,65 ± 0,15 | 38,04 ± 0,02 | 97d5117 | @Hedede |
| GTX 1070 Ti | 8 GB / GDDR5 / 256 bits | 714,44 ± 2,04 | 37,82 ± 0,02 | 79c1160 | @pebaryan |
| Supersónico AGX Orin | 64 GB / LPDDR5 / 256 bits | 991,31 ± 1,15 | 33,58 ± 0,14 | c1b1876 | @TinyServal |
| Tesla P4 | 8 GB / GDDR5 / 256 bits | 514,53 ± 3,06 | 33,29 ± 0,00 | c76b420 | @m18coppola |
| P106-100 | 6 GB / GDDR5 / 192 bits | 406,94 ± 0,25 | 30,40 ± 0,02 | 5fd160b | @pebaryan |
| GTX 1060 | 6 GB / GDDR5 / 192 bits | 416,85 ± 1,75 | 27,79 ± 0,02 | 5fd160b | @pebaryan |
| Cuadro T1000 | 4 GB / GDDR5 / 128 bits | 79,44 ± 0,01 | 27,82 ± 0,18 | f6da8cb | @hanabu |
| Cuadro P2000 | 5 GB / GDDR5 / 160 bits | 309,30 ± 0,05 | 23,63 ± 0,00 | baa9255 | @TinyServal |
| Cuadro P1000 | 4 GB / GDDR5 / 128 bits | 183,40 ± 0,11 | 13,99 ± 0,13 | 1e74897 | @aleksyx |
| Tesla K80 | 12 GB / GDDR5 / 384 bits | 133,14 ± 0,55 | 13,80 ± 0,02 | 32732f2 | @pebaryan |
Llama 2 7B, Q4_0, con FA
| viruta | Memoria | pp512 t/s | tg128t/s | Comprometerse | Gracias a |
|---|---|---|---|---|---|
| RTX 5090 | 32 GB / GDDR7 / 512 bits | 14970,15 ± 381,06 | 300,40 ± 0,28 | 8cf6b42 | @totaldev |
| RTX PRO 6000 Blackwell | 96 GB / GDDR7 / 512 bits | 16618,98 ± 20,66 | 281,11 ± 0,41 | 5143fa8 | @Tom94 |
| H100 80 GB | 80 GB / HBM3 / 5120 bits | 11263,29 ± 98,34 | 280,74 ± 1,17 | 5143fa8 | @Hedede |
| A100 80GB | 80 GB / HBM2e / 5120 bits | 5285,96 ± 6,58 | 200,90 ± 0,12 | 5143fa8 | @Hedede |
| RTX 4090D | 24 GB / GDDR6X / 384 bits | 12506,97 ± 11,51 | 191,57 ± 0,03 | 79c1160 | @ laboratorio-autónomo-de-IA |
| RTX 4090 | 24 GB / GDDR6X / 384 bits | 14770,63 ± 102,93 | 188,96 ± 0,05 | 2241453 | @lhl |
| RTX 5080 | 16 GB / GDDR7 / 256 bits | 9487,70 ± 21,89 | 184,68 ± 0,05 | 8a4280c | @Hedede |
| RTX 5070 Ti | 16 GB / GDDR7 / 256 bits | 8419,56 ± 35,50 | 182,43 ± 0,09 | 933414c | @TinyServal |
| RTX 6000 Ada | 48 GB / GDDR6 / 384 bits | 10576,85 ± 530,21 | 179,47 ± 0,32 | b8e09f0 | @Hedede |
| RTX 3090Ti | 24 GB / GDDR6X / 384 bits | 6924,01 ± 10,76 | 172,26 ± 1,31 | 9c35706 | @slaren |
| RTX PRO 4500 Blackwell | 32 GB / GDDR7 / 256 bits | 7251,66 ± 92,40 | 168,90 ± 0,20 | becc481 | @Hedede |
| RTX 3090 | 24 GB / GDDR6X / 384 bits | 5560,06 ± 16,28 | 161,89 ± 0,18 | c76b420 | @m18coppola |
| L40 | 48 GB / GDDR6 / 384 bits | 10097,64 ± 671,22 | 153,76 ± 0,12 | ee09828 | @Hedede |
| RTX 4080 SUPER | 16 GB / GDDR6X / 256 bits | 9439,01 ± 56,75 | 147,48 ± 1,41 | 81086cd | @zacharyarnaise |
| RTX 4080 | 16 GB / GDDR6X / 256 bits | 9205,93 ± 22,31 | 143,47 ± 0,02 | 20638e4 | @Ristovski |
| RTX A6000 | 48 GB / GDDR6 / 384 bits | 5662,39 ± 13,87 | 144,87 ± 0,18 | 4795c91 | @Hedede |
| RTX 3080 | 10 GB / GDDR6X / 320 bits | 5569,56 ± 14,04 | 139,95 ± 0,95 | 9c35706 | @slaren |
| RTX PRO 4000 Blackwell | 24 GB / GDDR7 / 192 bits | 5674,44 ± 139,53 | 136,38 ± 0,13 | 7d77f07 | @Hedede |
| RTX A5000 | 24 GB / GDDR6 / 384 bits | 4552,15 ± 9,68 | 135,83 ± 0,11 | e5155e6 | @Hedede |
| Tesla V100 | 32 GB / HBM2 / 4096 bits | 2973,78 ± 3,62 | 134,76 ± 0,02 | 51f5a45 | @Hedede |
| RTX 4070 Ti SUPER | 16 GB / GDDR6X / 256 bits | 7612,32 ± 37,35 | 132,85 ± 0,31 | 9c35706 | @Ristovski |
| A30 | 24 GB / HBM2e / 3072 bits | 3068,72 ± 0,63 | 131,93 ± 0,18 | 583cb83 | @Hedede |
| RTX 5070 | 12 GB / GDDR7 / 192 bits | 5783,44 ± 36,95 | 128,21 ± 2,52 | @Spyro000 | - |
| A40 | 48 GB / GDDR6 / 384 bits | 5256,38 ± 19,39 | 126,24 ± 0,06 | 3470a5c | @Hedede |
| Titán V | 12 GB / HBM2 / 3072 bits | 2481,25 ± 1,31 | 112,17 ± 0,01 | e56abd2 | @Hedede |
| RTX 2080 Ti | 11 GB / GDDR6 / 352 bits | 3107,61 ± 4,34 | 109,17 ± 0,07 | 9c35706 | @ariya |
| Quadro RTX 6000 | 24 GB / GDDR6 / 384 bits | 3053,96 ± 1,37 | 104,38 ± 0,04 | b8e09f0 | @Hedede |
| Quadro RTX 8000 | 48 GB / GDDR6 / 384 bits | 3052,35 ± 5,64 | 103,63 ± 0,02 | b8e09f0 | @Hedede |
| RTX A4500 | 20 GB / GDDR6 / 320 bits | 3453,10 ± 49,19 | 103,00 ± 0,25 | 5cdb27e | @aleksyx |
| RTX 5060 Ti 16 GB | 16 GB / GDDR7 / 128 bits | 4195,53 ± 1,98 | 93,46 ± 0,01 | 89d1029 | @mike-llamacpp |
| RTX 2070 SUPER | 8 GB / GDDR6 / 256 bits | 2293,29 ± 5,91 | 87,71 ± 0,29 | bc07349 | @phstudy |
| RTX A4000 | 16 GB / GDDR6 / 256 bits | 2807,83 ± 52,44 | 85,17 ± 0,66 | 65349f2 | @TinyServal |
| RTX 3060 | 12 GB / GDDR6 / 192 bits | 2407,67 ± 3,73 | 76,92 ± 0,03 | baa9255 | @QuantiusBenignus |
| Titán Xp | 12 GB / GDDR5X / 384 bits | 1218,12 ± 1,82 | 73,84 ± 0,04 | c4510dc | @Hedede |
| Quadro RTX 4000 | 8 GB / GDDR6 / 256 bits | 1662,80 ± 2,04 | 67,62 ± 0,67 | 7d77f07 | @Hedede |
| RTX 4060 Ti 8GB | 8 GB / GDDR6 / 128 bits | 3803,45 ± 70,80 | 64,03 ± 0,53 | 89d1029 | @mike-llamacpp |
| Tesla P100 | 16 GB / HBM2 / 4096 bits | 787,36 ± 3,27 | 61,99 ± 0,00 | b8372ee | @Hedede |
| GTX 1080 Ti | 11 GB / GDDR5X / 352 bits | 1138,14 ± 2,02 | 61,38 ± 0,03 | 9c35706 | @ariya |
| RTX A4000 Ada | 20 GB / GDDR6 / 160 bits | 3171,86 ± 4,34 | 61,37 ± 0,01 | a74a0d6 | @sdwolfz |
| RTX 2060 SUPER | 8 GB / GDDR6 / 256 bits | 1563,77 ± 0,51 | 61,13 ± 0,05 | 5c0eb5e | @ggerganov |
| Chispa DGX | 128 GB/LPDDR5x | 3661,37 ± 38,66 | 56,74 ± 0,03 | 5acd455 | @ggerganov |
| Tesla P40 | 24 GB / GDDR5 / 384 bits | 1079,66 ± 0,18 | 53,73 ± 0,05 | c76b420 | @m18coppola |
| RTX 2000 Ada | 16 GB / GDDR6 / 128 bits | 2250,14 ± 5,91 | 50,71 ± 0,01 | 756cfe | @DigitalRudeness |
| Tesla T4 | 16 GB / GDDR6 / 256 bits | 1309,73 ± 1,02 | 44,03 ± 0,57 | d32e03f | @pt13762104 |
| GTX 1660 | 6 GB / GDDR5 / 192 bits | 154,45 ± 0,52 | 41,43 ± 0,01 | 9515c61 | @ariya |
| Tesla M40 | 24 GB / GDDR5 / 384 bits | 290,17 ± 0,11 | 39,98 ± 0,01 | 97d5117 | @Hedede |
| GTX 1070 Ti | 8 GB / GDDR5 / 256 bits | 790,52 ± 2,39 | 37,87 ± 0,00 | 79c1160 | @pebaryan |
| Supersónico AGX Orin | 64 GB / LPDDR5 / 256 bits | 1171,96 ± 4,70 | 35,88 ± 0,18 | c1b1876 | @TinyServal |
| Tesla P4 | 8 GB / GDDR5 / 256 bits | 529,53 ± 2,12 | 33,12 ± 0,03 | c76b420 | @m18coppola |
| P106-100 | 6 GB / GDDR5 / 192 bits | 438,49 ± 0,38 | 30,64 ± 0,06 | 5fd160b | @pebaryan |
| GTX 1060 | 6 GB / GDDR5 / 192 bits | 446,19 ± 0,81 | 28,18 ± 0,01 | 5fd160b | @pebaryan |
| Cuadro T1000 | 4 GB / GDDR5 / 128 bits | 27,46 ± 0,23 | 27,46 ± 0,23 | f6da8cb | @hanabu |
| Cuadro P2000 | 5 GB / GDDR5 / 160 bits | 311,55 ± 0,19 | 23,76 ± 0,01 | baa9255 | @TinyServal |
| Tesla K80 | 12 GB / GDDR5 / 384 bits | 133,36 ± 0,60 | 14,27 ± 0,32 | 32732f2 | @pebaryan |
| Cuadro P1000 | 4 GB / GDDR5 / 128 bits | 173,82 ± 0,02 | 13,65 ± 0,14 | 1e74897 | @aleksyx |
Calibre de referencia de Apple Silicon
#4167 La mayor diferencia entre esta discusión y las tres últimas es que estableció un calibre unificado antes. Además de Q4_0, también incluye F16 y Q8_0. Es útil para comprender PP / TG / t/s.
Las instrucciones dadas directamente en la discusión son:
PPsignificaprompt processingTGsignificatext-generationt/ssignificatokens per second
Un ejemplo de comparación de tiempos que se puede ver en el artículo son los resultados de M2 Ultra a medida que evolucionan las versiones y FA en la misma máquina:
| Hora | Dispositivo | Versión/Descripción | Ancho de banda GB/s | Núcleos de GPU | F16 PP | F16 TG | Q8_0 PP | Q8_0 TG | T4_0 PP | Q4_0 TG |
|---|---|---|---|---|---|---|---|---|---|---|
| 2023-11-21 | M2 Ultra | 8e672ef | 800 | 76 | 1401.85 | 41.02 | 1248,59 | 66,64 | 1238,48 | 94,27 |
| 2024-11-12 | M2 Ultra | 86ed72d + FA | 800 | 76 | 1525,95 | 43,15 | 1368.18 | 73.11 | 1391,78 | 108,80 |
| 2025-08-02 | M2 Ultra | 5c0eb5e + FA | 800 | 76 | 1561,35 | 43,24 | 1386,97 | 73,35 | 1412.42 | 109,41 |
Al principio del texto de discusión, se dan varios ejemplos unificados de dispositivos Apple Silicon:
| Equipos | T4_0 PP | Q4_0 TG | Q8_0 PP | Q8_0 TG | F16 PP | F16 TG |
|---|---|---|---|---|---|---|
| M1 Pro 16 GPU | 266,25 | 36,41 | 270,37 | 22.34 | 302.14 | 12,75 |
| GPU M2 Ultra 76 | 1238,48 | 94,27 | 1248,59 | 66,64 | 1401.85 | 41.02 |
| M3 Máx. 40 GPU | 690,99 | 65,85 | 749,37 | 43.00 | 794,26 | 25.27 |
No entraré aquí en el texto completo de la línea de Apple. Más adelante, me centraré en las tres categorías de listas de backend de gráficos independientes que usted especificó.
Lista completa de ROCm / HIP
Llama 2 7B, Q4_0, sin FA
| viruta | Memoria | pp512 t/s | tg128t/s | Comprometerse | Gracias a |
|---|---|---|---|---|---|
| Instinto MI300X | 192 GB / HBM3 / 8192 bits | 11476,40 ± 72,79 | 232,92 ± 0,53 | ee3a9fc | @sídongcn |
| RX 7900 XTX | 24 GB / GDDR6 / 384 bits | 3552,27 ± 101,96 | 167,11 ± 0,50 | 2f0c2db | @Diablo-D3 |
| Instinto MI210 | 64 GB / HBM2e / 4096 bits | 2486,22 ± 9,58 | 124,51 ± 0,04 | 8160b38 | @65a |
| Pro W7900 | 48 GB / GDDR6 / 384 bits | 3213,17 ± 80,47 | 121,18 ± 0,06 | 8160b38 | @65a |
| RX 7900 XT | 20 GB / GDDR6 / 320 bits | 3098,38 ± 24,02 | 116,15 ± 0,06 | 1e15bfd | @AdamNiederer |
| RX 9070 | 16 GB / GDDR6 / 256 bits | 2381,77 ± 3,68 | 114,48 ± 0,60 | d0660f2 | @andj1210 |
| Instinto MI100 | 32 GB / HBM2 / 4096 bits | 2732,83 ± 1,98 | 110,48 ± 0,14 | 9c35706 | @firefox42 |
| RX 9070 XT | 16 GB / GDDR6 / 256 bits | 5055,19 ± 109,58 | 101,27 ± 0,27 | 583cb83 | @Hadrianneue |
| RX 7800 XT | 16 GB / GDDR6 / 256 bits | 2151,81 + 17,94 | 100,94 + 0,10 | 00131d6 | @olegshulyakov |
| Instinto MI50 | 32 GB / HBM2 / 4096 bits | 1057,24 ± 0,53 | 98,95 ± 0,25 | 97d5117 | @wtarreau |
| RX 7900 GRE | 16 GB / GDDR6 / 256 bits | 1456,98 ± 12,39 | 96,07 ± 0,10 | 6fa3b55 | @MihaiBojescu |
| IA PRO R9700 | 32 GB / GDDR6 / 256 bits | 4443,54 ± 339,25 | 93,84 ± 0,26 | bd4ef13 | @gogich77 |
| Instinto MI60 | 32 GB / HBM2 / 4096 bits | 1289,11 ± 0,62 | 91,46 ± 0,13 | 504af20 | @Said-Akbar |
| RX 6900 XT | 16 GB / GDDR6 / 256 bits | 1889,84 ± 31,21 | 88,49 ± 0,00 | a972fae | @notgood |
| ProVII | 16 GB / HBM2 / 4096 bits | 1064,99 ± 1,18 | 87,45 ± 0,04 | 2739a71 | @8XXD8 |
| RX 6800 XT | 16 GB / GDDR6 / 256 bits | 1447,07 ± 1,36 | 83,92 ± 0,03 | 79c1160 | @MrLavender |
| Pro V620 | 32 GB / GDDR6 / 256 bits | 1803,65 ± 2,54 | 74,66 ± 0,01 | 5c0eb5e | @samteezy |
| RX 9060 XT | 16 GB / GDDR6 / 256 bits | 1419,67 ± 3,64 | 67,58 ± 0,24 | a0e13dc | @lcy0321 |
| RX 5700 XT | 8 GB / GDDR6 / 256 bits | 354,17 ± 0,18 | 67,55 ± 0,04 | c05e8c9 | @daniandtheweb |
| Instinto MI25 | 16 GB / HBM2 / 2048 bits | 409,83 ± 0,23 | 63,94 ± 0,06 | 2739a71 | @8XXD8 |
| IA máx+ 395 | 128 GB/LPDDR5 | 911,36 ± 1,79 | 50,01 ± 0,07 | e60f241 | @firefox42 |
| RX 7600 XT | 16 GB / GDDR6 / 128 bits | 1099,64 ± 2,05 | 48,58 ± 0,06 | 9c35706 | @wbruna |
| RXVega 64 | 8 GB / HBM2 / 2048 bits | 240,68 ± 0,09 | 48,46 ± 0,09 | ec428b0 | @davispuh |
| Radeón 8060S | Sistema compartido / DDR5 | 351,36 ± 0,67 | 47,97 ± 0,33 | 1d0125b | @hspak |
| Radeón 880M | Sistema compartido / DDR5 | 163,25 ± 13,86 | 12,97 ± 1,63 | c55d53a | @Hedede |
Llama 2 7B, Q4_0, con FA
| viruta | Memoria | pp512 t/s | tg128t/s | Comprometerse | Gracias a |
|---|---|---|---|---|---|
| Instinto MI300X | 192 GB / HBM3 / 8192 bits | 11945,97 ± 54,29 | 218,53 ± 0,09 | ee3a9fc | @sídongcn |
| RX 7900 XTX | 24 GB / GDDR6 / 384 bits | 3874,25 ± 11,92 | 170,12 ± 0,56 | 2f0c2db | @Diablo-D3 |
| Pro W7900 | 48 GB / GDDR6 / 384 bits | 3472,86 ± 52,86 | 127,43 ± 0,12 | 8160b38 | @65a |
| Instinto MI210 | 64 GB / HBM2e / 4096 bits | 2571,82 ± 2,89 | 130,18 ± 0,06 | 8160b38 | @65a |
| RX 9070 | 16 GB / GDDR6 / 256 bits | 2452,68 ± 1,33 | 115,32 ± 0,52 | d0660f2 | @andj1210 |
| RX 7900 XT | 20 GB / GDDR6 / 320 bits | 3261,75 ± 9,09 | 112,30 ± 0,06 | 1e15bfd | @AdamNiederer |
| Instinto MI50 | 32 GB / HBM2 / 4096 bits | 1129,43 ± 0,15 | 105,82 ± 0,07 | 97d5117 | @wtarreau |
| Instinto MI100 | 32 GB / HBM2 / 4096 bits | 2755,00 ± 3,68 | 104,71 ± 0,10 | 9c35706 | @firefox42 |
| IA PRO R9700 | 32 GB / GDDR6 / 256 bits | 4773,07 ± 49,30 | 97,98 ± 0,13 | bd4ef13 | @gogich77 |
| RX 7900 GRE | 16 GB / GDDR6 / 256 bits | 1598,79 ± 11,48 | 97,53 ± 0,06 | 6fa3b55 | @MihaiBojescu |
| RX 9070 XT | 16 GB / GDDR6 / 256 bits | 4903,51 ± 96,36 | 97,28 ± 0,13 | 583cb83 | @Hadrianneue |
| RX 7800 XT | 16 GB / GDDR6 / 256 bits | 2304,63 + 2,85 | 95,99 + 0,21 | 00131d6 | @olegshulyakov |
| RX 6900 XT | 16 GB / GDDR6 / 256 bits | 1948,31 ± 13,51 | 85,04 ± 0,02 | a972fae | @notgood |
| Pro V620 | 32 GB / GDDR6 / 256 bits | 1256,86 ± 0,55 | 70,83 ± 0,02 | 5c0eb5e | @samteezy |
| RX 9060 XT | 16 GB / GDDR6 / 256 bits | 1479,27 ± 0,71 | 65,42 ± 0,19 | a0e13dc | @lcy0321 |
| RX 5700 XT | 8 GB / GDDR6 / 256 bits | 314,17 ± 0,29 | 62,02 ± 0,05 | c05e8c9 | @daniandtheweb |
| IA máx+ 395 | 128 GB/LPDDR5 | 1003,53 ± 2,91 | 49,87 ± 0,02 | e60f241 | @firefox42 |
| Radeón 8060S | Sistema compartido / DDR5 | 366,08 ± 1,44 | 48,97 ± 0,15 | 1d0125b | @hspak |
| RX 7600 XT | 16 GB / GDDR6 / 128 bits | 1199,16 ± 1,07 | 47,65 ± 0,06 | 9c35706 | @wbruna |
| RXVega 64 | 8 GB / HBM2 / 2048 bits | 153,17 ± 0,72 | 42,46 ± 0,40 | ec428b0 | @davispuh |
| Radeón 880M | Sistema compartido / DDR5 | 213,31 ± 14,05 | 16,16 ± 1,41 | c55d53a | @Hedede |
Lista completa de Vulkan
Llama 2 7B, Q4_0, sin FA
| viruta | pp512 t/s | tg128t/s | Comprometerse | Comentarios |
|---|---|---|---|---|
| NVIDIA RTX 5090 | 10381,64 ± 508,84 | 263,63 ± 0,91 | ca71fb9 | coopmat2 |
| AMD Radeon RX 7900 XTX | 3531,93 ± 31,74 | 191,28 ± 0,20 | 2f0c2db | |
| NVIDIA RTX 4090 | 9452,03 ± 187,70 | 187,97 ± 0,21 | 4ae88d0 | coopmat2 |
| NVIDIA RTX 5080 | 7444,99 ± 20,11 | 185,10 ± 0,54 | f6b533d | coopmat2 |
| NVIDIA A100 | 6389,86 ± 4,83 | 160,78 ± 0,16 | 2257758 | coopmat2 |
| NVIDIA RTX 3090 | 4298,97 ± 10,59 | 160,13 ± 0,25 | 4ae88d0 | coopmat2 |
| Nvidia RTX 4080 Súper | 7101,18 ± 269,79 | 147,13 ± 5,64 | 81086cd | coopmat2 |
| NVIDIA RTX 3080 | 4287,11 ± 55,50 | 139,15 ± 0,05 | 7c7d6ce | coopmat2 |
| NVIDIA RTX A5000 | 3641,55 ± 9,05 | 139,89 ± 0,69 | 4ae88d0 | coopmat2 |
| AMD Radeon RX 9070 XT | 5036,04 ± 88,16 | 137,11 ± 0,02 | e9fd8dc | |
| Nvidia RTX 5070 Ti | 6213,63 ± 27,72 | 135,63 ± 0,18 | d13d0f6 | coopmat2 |
| AMD Radeon AI Pro R9700 | 4036,04 ± 34,58 | 130,19 ± 0,39 | 3191462 | |
| NVIDIA Tesla V100 | 1391,39 ± 1,19 | 129,58 ± 0,58 | 7d77f07 | |
| Nvidia RTX 4070 Ti Súper | 6099,18 ± 154,30 | 129,45 ± 0,18 | 4ae88d0 | coopmat2 |
| AMD Radeon RX 7900 XT | 2941,58 ± 17,17 | 123,18 ± 0,40 | 71e74a3 | |
| AMD RadeonRX 9070 | 3164,10 ± 66,84 | 119,71 ± 3,40 | 21c17b5 | |
| AMD Radeon RX 7800 XT | 2017,33 ± 19,30 | 118,27 ± 0,27 | 4fdbc1e | |
| AMD Radeon RX 7900 GRE | 2336,31 ± 7,52 | 116,11 ± 0,26 | 4b2a477 | |
| Apple M3 Ultra | 1116,83 ± 0,55 | 115,54 ± 0,78 | 2d451c8 | MoltenVK |
| Intel Arc Pro B70 | 3379,00 ± 47,92 | 112,02 ± 1,08 | b863507 | |
| Nvidia Titan V | 984,36 ± 4,13 | 108,86 ± 0,28 | e56abd2 | |
| AMD Radeon Pro VII | 1078,54 ± 0,86 | 107,82 ± 0,14 | N/A | |
| AMD Radeon RX 6900 XT | 1837,21 ± 25,44 | 104,60 ± 0,30 | a972fae | |
| Intel Arc Pro A60 | 2261,11 ± 9,53 | 104,25 ± 0,07 | 97d5117 | |
| AMD Radeon RX 6800 XT | 1752,92 ± 1,71 | 100,32 ± 0,97 | N/A | |
| AMD Radeon VII | 1059,14 ± 0,56 | 101,19 ± 0,53 | 77d6ae4 | |
| Nvidia RTX 2080Ti | 1888,24 ± 9,20 | 97,58 ± 6,60 | N/A | |
| AMD RadeonRX 6800 | 1698,69 ± 0,80 | 95,61 ± 0,19 | 4b385bf | |
| AMD Radeon Pro W6800X Dúo | 687,71 ± 4,33 | 94,82 ± 0,12 | N/A | |
| Nvidia RTX 5060 Ti | 3460,92 ± 7,16 | 93,51 ± 0,15 | 89f10ba | coopmat2 |
| NVIDIA RTX 4070 | 3179,37 ± 46,16 | 92,29 ± 0,28 | 9a48399 | |
| AMD Radeon Pro W6800X | 510,80 ± 0,13 | 86,47 ± 0,46 | 13b4548 | MoltenVK |
| AMD Radeon RX 6700 XT | 1051,20 ± 0,98 | 83,88 ± 0,08 | 6d75883 | |
| AMD Radeon RX 6750 XT | 1040,58 ± 0,35 | 81,98 ± 0,03 | 228f34c | |
| AMD Radeon Pro V620 | 1595,32 ± 1,59 | 81,78 ± 0,06 | 03d4698 | |
| NVIDIA RTX 3070 | 2113,02 ± 7,38 | 78,71 ± 0,13 | 1b8fb81 | |
| AMD Radeon Instinto MI60 | 369,26 ± 2,48 | 78,16 ± 1,40 | 504af20 | |
| NVIDIA RTX 3060 | 1815,70 ± 5,85 | 75,94 ± 0,80 | 92c0b38 | coopmat2 |
| Apple M4 Max | 724,77 ± 20,93 | 75,02 ± 0,14 | 1ece0cb6 | |
| Nvidia Tesla T10 | 1692,70 ± 2,05 | 75,01 ± 0,21 | 7f76692 | coopmat2 |
| NVIDIA RTX A4000 | 2248,14 ± 7,59 | 73,74 ± 0,08 | f5245b5 | coopmat2 |
| AMD Radeon RX 5700 XT | 529,69 ± 0,26 | 70,73 ± 0,04 | 4fdbc1e | |
| AMD Radeon RX 9060 XT | 2141,67 ± 6,87 | 70,54 ± 0,74 | ed52f36 | |
| Intel Arco B580 | 620,94 ± 15,33 | 70,14 ± 0,28 | 7f76692 | |
| AMD Radeon Pro V540 | 583,88 ± 6,56 | 69,64 ± 0,24 | 9da3dcd | |
| AMD Radeon Pro W5700 | 449,85 ± 0,46 | 68,55 ± 0,15 | 23bc779 | |
| Intel Arc Pro B60 | 522,36 ± 3,60 | 68,55 ± 0,01 | 516a4ca | |
| Nvidia GTX 1080 Ti | 540,69 ± 0,71 | 64,99 ± 0,08 | 360d653 | |
| Nvidia RTX 2070 Súper | 1199,13 ± 7,70 | 64,64 ± 0,20 | b7552cf | |
| Nvidia RTX 3070 Móvil | 1689,40 ± 19,57 | 63,64 ± 0,39 | ceff6bb | coopmat2 |
| Nvidia Tesla P100 | 678,14 ± 1,40 | 63,16 ± 0,06 | eec1e33 | |
| AMD BC-250 | 370,66 ± 0,04 | 62,32 ± 0,32 | 5886f4f | |
| AMD Radeon RX 6650 XT | 1029,52 ± 1,21 | 62,14 ± 0,02 | dbb852b | |
| Nvidia RTX 4060 Móvil | 2135,66 ± 23,18 | 59,53 ± 0,03 | a5c07dc | coopmat2 |
| NVIDIA Tesla P40 | 488,06 ± 0,27 | 59,36 ± 0,16 | N/A | |
| Nvidia GTX 1660 Ti Móvil | 511,67 ± 2,85 | 56,60 ± 0,07 | b43556e | |
| AMD Radeon Instinct MI25 | 439,42 ± 0,34 | 54,69 ± 0,03 | 2739a71 | |
| AMD Radeon RX 6600 XT | 574,65 ± 0,86 | 53,92 ± 0,11 | 091592d | |
| AMD Ryzen AI Max+ 395 | 1288,96 ± 6,49 | 53,59 ± 0,38 | 7f76692 | |
| AMD Radeon RX 7600 XT | 840,85 ± 3,02 | 53,02 ± 0,01 | 01d8eaa | |
| Intel Arco A770 | 1073,85 + 29,68 | 52,56 + 0,11 | a69d54f | |
| NVIDIA GB10 | 2737,79 ± 19,56 | 52,28 ± 0,03 | b9da444 | coopmat2 |
| AMD FirePro S9300 x2 | 247,26 ± 0,43 | 51,86 ± 0,11 | eec1e33 | Dividido en dos GPU |
| AMD RadeonRX 6600 | 761,89 ± 1,76 | 50,63 ± 0,02 | b1c70e2 | |
| AMD Radeon RX Vega 56 | 439,87 ± 0,61 | 50,23 ± 0,14 | 92c0b38 | |
| Intel Arco B570 | 913,95 ± 0,90 | 49,64 ± 0,03 | 7f76692 | |
| Nvidia RTX 3060 Móvil | 1059,76 ± 3,54 | 49,03 ± 0,13 | dbb3a47 | |
| AMD RadeonRX 6800M | 861,99 ± 7,67 | 48,71 ± 0,71 | 8e6f8bc | |
| AMD RadeonRX 6600M | 605,59 ± 0,65 | 48,21 ± 0,07 | fe5b78c | |
| Intel Arco A770M | 875,92 ± 2,16 | 47,69 ± 0,16 | eeee367 | |
| NVIDIA P104-100 | 311,90 ± 0,22 | 46,18 ± 0,05 | eec1e33 | |
| AMD Radeon RX Vega 64 | 356,08 ± 0,09 | 45,73 ± 0,18 | ec428b0 | |
| NVIDIA RTX A2000 | 1245,19 ± 8,76 | 45,52 ± 0,54 | b1afcab | coopmat2 |
| AMD Radeon RX 7600M XT | 459,39 ± 2,34 | 45,28 ± 0,10 | b9ab0a4 | GPU electrónica |
| AMD Radeon Pro V340 | 375,41 ± 0,24 | 45,16 ± 0,06 | 9da3dcd | Dividido en dos GPU |
| Nvidia GTX 1070 Ti | 297,50 ± 0,54 | 42,86 ± 1,20 | 860a9e4 | GPU electrónica |
| Intel Arco A750 | 1075,94 ± 13,89 | 42,66 ± 0,18 | c1b1876 | |
| Nvidia RTX 4050 Móvil | 1154,28 + 15,76 | 41,89 + 0,10 | d79d8f3 | |
| NVIDIA GTX 1070 | 321,57 ± 0,93 | 41,48 ± 0,09 | eec1e33 | |
| Intel Arc Pro B50 | 193,50 ± 0,24 | 39,99 ± 0,10 | 7b43f55 | |
| Nvidia Tesla M40 | 92,48 ± 0,02 | 39,35 ± 1,22 | b8372ee | |
| AMD RadeonRX 580 | 258,03 ± 0,71 | 39,32 ± 0,03 | de4c07f | |
| AMD RadeonRX 470 | 218,07 ± 0,56 | 38,63 ± 0,21 | e288693 | |
| AMD Radeon Pro W5500 | 315,39 ± 3,76 | 36,82 ± 0,38 | 860a9e4 | |
| AMD RadeonRX 480 | 248,66 ± 0,28 | 34,71 ± 0,14 | 3b15924 | |
| Apple M2 Ultra | 205,98 ± 0,02 | 34,34 ± 0,12 | dbb852b | Asahi Linux |
| NVIDIA GTX 980 | 186,24 ± 0,09 | 33,90 ± 0,51 | 860a9e4 | |
| NVIDIA P106-100 | 183,78 ± 0,26 | 29,77 ± 0,04 | 23bc779 | |
| AMD FirePro W8100 | 155,22 ± 0,17 | 29,52 ± 0,05 | 4536363 | |
| Nvidia Tesla P4 | 265,54 ± 0,21 | 28,03 ± 0,14 | 24d2ee0 | |
| AMD Radeon RX 6500 XT | 255,25 ± 0,35 | 27,81 ± 0,10 | g9fdfcd | |
| Manzana M3 | 263,70 ± 0,02 | 26,39 ± 0,14 | b9ab0a4 | MoltenVK |
| AMD FirePro S10000 | 94,78 ± 0,02 | 25,32 ± 0,02 | 914a82d | Dividido en dos GPU |
| Nvidia Quadro P2000 | 169,55 ± 0,17 | 23,05 ± 0,03 | 63f8fe0 | |
| Serie Intel Core Ultra 200 | 544,95 ± 4,15 | 22,49 ± 0,09 | cea560f | |
| AMD Ryzen AI Serie 9 300 | 479,07 ± 0,41 | 22,41 ± 0,18 | N/A | |
| Serie AMD Ryzen 6000 | 240,89 ± 0,52 | 21,26 ± 0,08 | ee09828 | |
| Apple M2 Pro | 62,70 ± 0,03 | 20,95 ± 0,11 | 1fe0029 | Asahi Linux |
| Nvidia GTX 1050 Ti | 136,42 ± 0,67 | 20,96 ± 0,21 | 2f0c2db | |
| AMD Ryzen Serie 8000 | 266,19 ± 1,36 | 20,53 ± 0,08 | a5c07dc | |
| AMD Ryzen Serie 7000 | 281,62 ± 1,56 | 19,91 ± 0,07 | ebce03e | |
| AMD Ryzen Z1 extremo | 199,36 ± 7,02 | 18,77 ± 0,02 | 53ff6b9 | |
| AMD FirePro D700 | 69,95 ± 0,04 | 16,62 ± 0,01 | d3bd719 | MoltenVK, ejecutándose en modo FP16 en un chip exclusivo FP32 |
| AMD Radeon Pro WX 4100 | 78,79 ± 0,10 | 16,05 ± 0,07 | 860a9e4 | |
| Manzana M2 | 50,79 ± 0,16 | 13,50 ± 0,02 | 8c0d6bb | Asahi Linux |
| Manzana M1 | 38,29 ± 0,00 | 12,47 ± 0,03 | 2370665 | Asahi Linux |
| AMD Ryzen Serie 5000 | 90,55 ± 0,08 | 10,98 ± 0,07 | d84635b | |
| Serie Intel Core 1100 | 187,20 ± 1,78 | 10,39 ± 0,04 | abb9f3c | |
| AMD Radeon RX 550 | 52,66 ± 0,49 | 10,20 ± 0,01 | N/A | |
| AMD Ryzen Serie 4000 | 103,87 ± 0,02 | 9,63 ± 0,01 | 4b385bf | |
| Nvidia Tesla K80 | 89,46 ± 0,10 | 9,39 ± 0,06 | 5d46bab | Ejecutándose en una sola GPU |
| Nvidia Tesla K40 | 64,37 ± 0,09 | 9,30 ± 0,19 | eec1e33 | |
| MediaTek Dimensión 9400 | 38,36 ± 15,15 | 8,92 ± 0,06 | b9ab0a4 | GPU admite coopmat pero pp512 es más rápido cuando está apagado |
| Intel Core Ultra serie 100 | 185,51 ± 0,22 | 8,21 ± 0,07 | 1d72c84 | |
| AMD Ryzen Serie 3000 | 48,63 ± 0,10 | 8,49 ± 0,01 | 1fe0029 | |
| CIX CD8180 | 2,80 ± 0,01 | 5,51 ± 0,00 | 4dca015 | |
| Serie Intel Core 1000 | 25,58 ± 0,00 | 4,25 ± 0,18 | N/A | |
| Serie Intel Core 8000 | 25,43 ± 0,17 | 3,35 ± 0,03 | c4df49a | |
| Intel N150 | 28,84 ± 0,02 | 2,93 ± 0,00 | 4f63cd7 |
Llama 2 7B, Q4_0, FA habilitado
| viruta | pp512 t/s | tg128t/s | Comprometerse | Comentarios |
|---|---|---|---|---|
| NVIDIA RTX 5090 | 11796,38 ± 601,36 | 273,68 ± 0,52 | ca71fb9 | coopmat2 |
| AMD Radeon RX 7900 XTX | 3332,90 ± 11,47 | 195,30 ± 0,23 | 2f0c2db | |
| NVIDIA RTX 5080 | 8054,59 ± 35,68 | 192,17 ± 0,21 | f6b533d | coopmat2 |
| NVIDIA RTX 4090 | 10830,41 ± 36,25 | 190,10 ± 0,31 | 4ae88d0 | coopmat2 |
| NVIDIA A100 | 7064,40 ± 1,63 | 170,56 ± 0,02 | 2257758 | coopmat2 |
| NVIDIA RTX 3090 | 4732,33 ± 4,80 | 162,28 ± 0,21 | 4ae88d0 | coopmat2 |
| Nvidia RTX 4080 Súper | 8007,37 ± 46,03 | 150,20 ± 0,26 | 81086cd | coopmat2 |
| NVIDIA RTX 3080 | 4913,83 ± 21,52 | 145,74 ± 0,16 | 7c7d6ce | coopmat2 |
| NVIDIA Tesla V100 | 1411,25 ± 2,12 | 142,13 ± 0,03 | 7d77f07 | |
| NVIDIA RTX A5000 | 4071,22 ± 13,13 | 140,43 ± 0,22 | 4ae88d0 | coopmat2 |
| AMD Radeon RX 9070 XT | 4911,74 ± 28,52 | 138,20 ± 0,18 | e9fd8dc | |
| Nvidia RTX 5070 Ti | 6764,53 ± 11,95 | 135,65 ± 0,02 | d13d0f6 | coopmat2 |
| AMD Radeon AI Pro R9700 | 4333,83 ± 29,36 | 130,90 ± 0,12 | 3191462 | |
| AMD Radeon RX 7900 XT | 3043,93 ± 10,42 | 124,20 ± 0,09 | 71e74a3 | |
| AMD Radeon RX 7800 XT | 2094,64 ± 14,38 | 119,63 ± 0,13 | 4fdbc1e | |
| AMD RadeonRX 9070 | 3277,24 ± 18,17 | 119,55 ± 0,06 | 21c17b5 | |
| AMD Radeon RX 7900 GRE | 2402,07 ± 22,50 | 116,77 ± 0,08 | 4b2a477 | |
| Apple M3 Ultra | 1115,55 ± 0,75 | 115,99 ± 0,12 | 2d451c8 | MoltenVK |
| Intel Arc Pro B70 | 3314,53 ± 17,95 | 111,63 ± 0,05 | b863507 | |
| Nvidia Titan V | 792,74 ± 4,30 | 109,21 ± 0,72 | e56abd2 | |
| AMD Radeon Pro VII | 783,94 ± 0,77 | 108,45 ± 0,48 | N/A | |
| AMD Radeon RX 6900 XT | 1761,93 ± 4,75 | 106,15 ± 0,04 | a972fae | |
| Nvidia RTX 2080Ti | 1936,25 ± 32,08 | 100,99 ± 0,24 | N/A | |
| AMD Radeon RX 6800 XT | 1704,79 ± 0,71 | 100,50 ± 0,06 | N/A | |
| AMD Radeon Pro W6800X Dúo | 795,28 ± 0,72 | 100,08 ± 0,02 | N/A | |
| Nvidia RTX 5060 Ti | 3912,65 ± 5,86 | 97,01 ± 0,14 | 89f10ba | coopmat2 |
| AMD RadeonRX 6800 | 1749,46 ± 3,36 | 96,65 ± 0,48 | 4b385bf | |
| NVIDIA RTX 4070 | 4293,57 ± 27,70 | 91,49 ± 0,89 | 9a48399 | coopmat2 |
| AMD Radeon RX 6750 XT | 997,05 ± 0,45 | 82,29 ± 0,06 | 228f34c | |
| AMD Radeon RX 6700 XT | 1010,90 ± 12,89 | 81,86 ± 0,19 | 6d75883 | |
| NVIDIA RTX 3060 | 2012,88 ± 10,12 | 80,59 ± 0,02 | 92c0b38 | coopmat2 |
| AMD Radeon Pro V620 | 1556,31 ± 2,82 | 79,24 ± 0,09 | 03d4698 | |
| NVIDIA RTX A4000 | 2482,74 ± 26,05 | 76,07 ± 0,08 | f5245b5 | coopmat2 |
| Nvidia Tesla T10 | 1840,14 ± 1,22 | 76,05 ± 0,13 | 7f76692 | coopmat2 |
| AMD Radeon RX 5700 XT | 538,31 ± 0,35 | 74,43 ± 0,03 | 4fdbc1e | |
| Intel Arco B580 | 419,49 ± 3,37 | 72,00 ± 0,24 | 7f76692 | |
| Apple M4 Max | 557,46 ± 26,87 | 71,79 ± 4,16 | 1ece0cb6 | |
| AMD Radeon Pro W5700 | 446,98 ± 0,39 | 71,30 ± 0,24 | 23bc779 | |
| Intel Arc Pro B60 | 274,76 ± 0,27 | 70,54 ± 0,03 | 516a4ca | |
| AMD Radeon RX 9060 XT | 1915,41 ± 7,90 | 70,52 ± 0,16 | ed52f36 | |
| Nvidia Tesla P100 | 685,51 ± 0,88 | 66,48 ± 0,02 | eec1e33 | |
| AMD Radeon RX 6650 XT | 1088,90 ± 0,40 | 64,53 ± 0,75 | dbb852b | |
| Nvidia GTX 1080 Ti | 529,96 ± 0,38 | 64,63 ± 0,10 | 360d653 | |
| AMD BC-250 | 356,87 ± 1,24 | 63,14 ± 0,09 | 5886f4f | |
| Nvidia RTX 3070 Móvil | 1832,07 ± 57,14 | 62,92 ± 0,37 | ceff6bb | coopmat2 |
| Nvidia RTX 4060 Móvil | 2358,03 ± 12,17 | 60,01 ± 0,08 | a5c07dc | coopmat2 |
| NVIDIA Tesla P40 | 484,37 ± 0,27 | 59,22 ± 0,15 | N/A | |
| Nvidia GTX 1660 Ti Móvil | 514,34 ± 0,88 | 57,30 ± 0,42 | b43556e | |
| AMD Radeon RX 7600 XT | 1024,38 ± 7,56 | 56,11 ± 0,02 | 01d8eaa | |
| AMD FirePro S9300 x2 | 243,33 ± 0,22 | 55,64 ± 0,06 | eec1e33 | Dividido en dos GPU |
| NVIDIA GB10 | 3279,89 ± 26,78 | 53,64 ± 0,05 | b9da444 | coopmat2 |
| AMD RadeonRX 6600 | 808,76 ± 0,15 | 53,24 ± 0,03 | b1c70e2 | |
| Intel Arco A770 | 1119,68 + 30,25 | 53,07 + 0,09 | a69d54f | |
| AMD Ryzen AI Max+ 395 | 1357,07 ± 10,94 | 53,00 ± 0,13 | 7f76692 | |
| AMD Radeon RX Vega 56 | 428,54 ± 0,50 | 52,66 ± 0,03 | 92c0b38 | |
| Intel Arco B570 | 288,51 ± 0,09 | 50,49 ± 0,05 | 7f76692 | |
| NVIDIA P104-100 | 325,30 ± 0,25 | 48,64 ± 0,04 | eec1e33 | |
| AMD Radeon Pro V340 | 360,23 ± 0,74 | 47,54 ± 0,06 | 9da3dcd | Dividido en dos GPU |
| AMD RadeonRX 6800M | 784,16 ± 2,76 | 49,06 ± 0,34 | 8e6f8bc | |
| AMD Radeon RX Vega 64 | 320,12 ± 0,22 | 47,06 ± 0,01 | ec428b0 | |
| NVIDIA RTX A2000 | 1361,85 ± 3,26 | 45,69 ± 0,20 | b1afcab | coopmat2 |
| Intel Arco A770M | 384,74 ± 0,78 | 45,68 ± 0,06 | eeee367 | |
| Intel Arco A750 | 303,37 ± 1,44 | 43,96 ± 0,03 | c1b1876 | |
| Nvidia GTX 1070 Ti | 292,85 ± 0,23 | 43,42 ± 0,34 | 860a9e4 | GPU electrónica |
| NVIDIA GTX 1070 | 330,84 ± 1,02 | 43,33 ± 0,06 | 360d653 | |
| Nvidia Tesla M40 | 93,35 ± 0,01 | 41,68 ± 0,01 | b8372ee | |
| Intel Arc Pro B50 | 132,48 ± 0,04 | 41,02 ± 0,04 | 7b43f55 | |
| AMD RadeonRX 470 | 197,26 ± 0,27 | 37,28 ± 0,11 | 3769fe6 | |
| AMD RadeonRX 480 | 194,52 ± 0,61 | 37,23 ± 0,09 | 0bcb40b | |
| Apple M2 Ultra | 198,83 ± 0,85 | 198,83 ± 0,85 | dbb852b | Asahi Linux |
| NVIDIA GTX 980 | 180,97 ± 0,74 | 34,16 ± 0,10 | 860a9e4 | |
| NVIDIA P106-100 | 183,40 ± 0,34 | 30,79 ± 0,32 | 23bc779 | |
| AMD FirePro W8100 | 140,52 ± 0,34 | 29,28 ± 0,14 | 4536363 | |
| Nvidia Tesla P4 | 287,14 ± 0,29 | 28,37 ± 0,24 | 24d2ee0 | |
| Nvidia Quadro P2000 | 181,71 ± 0,12 | 23,77 ± 0,02 | 63f8fe0 | |
| Serie Intel Core Ultra 200 | 536,48 ± 1,27 | 23,05 ± 0,04 | cea560f | |
| AMD Ryzen AI Serie 9 300 | 532,59 ± 3,55 | 22,31 ± 0,06 | N/A | |
| Serie AMD Ryzen 6000 | 277,91 ± 0,37 | 21,15 ± 0,09 | ee09828 | |
| Apple M2 Pro | 58,86 ± 0,02 | 20,97 ± 0,03 | 1fe0029 | Asahi Linux |
| AMD Ryzen Serie 8000 | 297,39 ± 1,22 | 20,59 ± 0,38 | a5c07dc | |
| AMD Ryzen Serie 7000 | 312,85 ± 2,51 | 20,09 ± 0,35 | 835b2b9 | |
| Nvidia GTX 1050 Ti | 127,54 ± 1,03 | 20,08 ± 0,17 | 2f0c2db | |
| AMD Radeon Pro WX 4100 | 75,59 ± 0,19 | 16,56 ± 0,04 | 860a9e4 | |
| Manzana M1 | 35,93 ± 0,00 | 12,85 ± 0,02 | 2370665 | Asahi Linux |
| Manzana M2 | 46,81 ± 0,08 | 12,25 ± 2,30 | 8c0d6bb | Asahi Linux |
| AMD Ryzen Serie 5000 | 79,06 ± 0,01 | 10,75 ± 0,00 | 5d195f1 | |
| Serie Intel Core 1100 | 174,77 ± 4,47 | 10,58 ± 0,03 | abb9f3c | |
| Nvidia Tesla K40 | 64,37 ± 0,02 | 9,92 ± 0,06 | eec1e33 | |
| AMD Ryzen Serie 4000 | 113,32 ± 0,01 | 9,87 ± 0,01 | 4b385bf | |
| Nvidia Tesla K80 | 88,26 ± 0,19 | 9,49 ± 0,01 | 5d46bab | Ejecutándose en una sola GPU |
| AMD Ryzen 5 Serie 3000 | 47,41 ± 0,14 | 8,47 ± 0,01 | 1fe0029 | |
| Intel Core Ultra serie 100 | 77,66 ± 2,75 | 7,75 ± 0,05 | 2e89f76 | |
| Serie Intel Core 8000 | 25,55 ± 0,04 | 3,35 ± 0,02 | c4df49a | |
| Intel N150 | 25,59 ± 0,00 | 2,91 ± 0,00 | 4f63cd7 |
Cómo utilizar estas tablas
Si solo quieres comprar una tarjeta o comprobar en qué marcha está la máquina que tienes en la mano, la forma más práctica de leerla son en realidad estos tres pasos:
-
Primero vea si le preocupa
tg128opp512.
Para conversaciones diarias, escritura de código y experiencia de chat, debes darle prioridad atg128; para obtener rendimiento de contexto prolongado, procesamiento por lotes y avisos del lado del servidor, debería consultar más enpp512. -
Mire el backend que realmente ejecuta.
Nvidia normalmente miraCUDA, que está más cerca del límite superior real; Las máquinas AMD deben verificar primeroROCmyVulkan; Los escenarios de compatibilidad multiplataforma son más adecuados para referirse aVulkan. -
Finalmente, mira
FA.
Para muchas tarjetas,pp512aumentará de manera más obvia después de que se activeFA, pero es posible quetg128no necesariamente aumente simultáneamente, por lo que no se puede mirar simplemente una puntuación más alta.
Resumen de una oración
Lo mismo es el puntaje actual llama.cpp, pp512, tg128, Q4_0, FA, CUDA / ROCm / Vulkan representan respectivamente dimensiones completamente diferentes. Sólo aclarando primero el calibre y luego mirando los números la lista podrá tener significado.
Si solo quieres recordar la conclusión más corta, es decir:
CUDAes actualmente el más fuerte en generalROCmya es muy capaz en tarjetas AMD de alta gamaVulkantiene la cobertura más amplia y se pueden encontrar entradas comparables para tarjetas antiguas, gráficos centrales, Intel Arc y Apple Asahi.tg128está más cerca de la sensación corporal real diaria quepp512
Fuente original
- Discusión CUDA n.º 15013: https://github.com/ggml-org/llama.cpp/discussions/15013
- Discusión sobre Apple Silicon n.º 4167: https://github.com/ggml-org/llama.cpp/discussions/4167
- Discusión de ROCm #15021: https://github.com/ggml-org/llama.cpp/discussions/15021
- Discusión sobre Vulkan #10879: https://github.com/ggml-org/llama.cpp/discussions/10879