🍥

记录并分享日常

Tags

54 páginas

Local LLM

Cómo implementar Ollama OpenClaw localmente: selección de modelo, puerto, permisos y resolución de problemas del complemento de memoria

Tutorial de implementación local de TencentDB Agent Memory: memoria a largo plazo, compresión de registros y recuperación rastreable

Cómo calcular el costo de ejecutar Agent en una tarjeta gráfica de consumo: factura de electricidad, depreciación y costo por tarea

Tutorial de implementación de Windows WSL del Agente local: Ollama, Codex OSS y control de permisos

Si el rendimiento de Ollama de la implementación de NAS es insuficiente: cómo juzgar la CPU, la memoria y la tarjeta gráfica

API de modelo grande local para tutorial de uso de Codex: Ollama, LM Studio y vLLM

Qué hacer si vLLM KV Cache no tiene suficiente memoria: resolución de problemas de memoria de video, contexto y concurrencia

Cómo utilizar la interfaz compatible con LM Studio OpenAI: tutorial de acceso a la API local

Cómo configurar la conmutación multimodelo de Ollama: residente, memoria de video y tutoriales de Modelfile

RTX 3060 ejecuta la mejor versión cuantificada de Qwen3: cómo elegir una memoria de video de 12 GB

Errores comunes al usar Codex con modelos locales en Ollama: orden de diagnóstico y soluciones

Errores comunes al conectar Codex con modelos locales de Ollama: tutorial, diagnóstico y FAQ

Cómo usar Chatbox: conecta OpenAI, Claude y Ollama en un cliente de escritorio IA open source

Cómo usar Qwythos-9B: guía de despliegue con vLLM, SGLang y Transformers

GTX 1060 con Qwen 35B: optimizar llama.cpp de 3 tok/s a 17 tok/s

GLM 5.2 se abre: contexto de un millón de tokens, Agent coding y el coste del despliegue local

Gran actualización de OpenAI Codex: ahora puede conectarse a modelos locales como Ollama y LM Studio

Guía de despliegue local de Holo 3.1: ejecutar un Computer Use Agent con llama.cpp y OpenClaw

Hermes Agent Desktop ya está disponible: configuración gráfica para Windows, macOS y Linux

Tutorial de Headroom: ahorrar contexto para Claude Code, Codex y AI Agents

Cómo usar Gemma 4 12B: tarjeta de modelo en Hugging Face y guía de carga local

¿Gemma 4 12B puede ejecutarse en local? Ideas para probarlo en un PC de 16GB

Ollama se conecta a Codex App: cómo los LLM locales se convierten en agentes de programación con IA

¿Puede una RTX 3060 ejecutar 35B? --n-cpu-moe de llama.cpp mantiene útiles los PC antiguos para LLM locales

Despliegue local de Qwen3.6-35B-A3B jailbreak: GGUF sin censura, llama.cpp y límites de seguridad

Ejecutar Qwen3.6-35B en local con una RTX 3070 de 8GB: claves de despliegue y parámetros para llama.cpp

Actualización llama.cpp b9196: los binarios precompilados para Windows soportan CUDA 13.1, Vulkan, HIP y SYCL

Guía de despliegue local de Claude Code + Ollama: crear un asistente de programación AI gratuito con CC Switch

Ejecutar DeepSeek 4 en local: el experimento ds4 de Antirez en Apple Silicon Mac

Cómo medir el rendimiento multi-GPU en llama.cpp: ¿2x V100 16GB son más rápidas que una sola GPU de 32GB?

Benchmarks de inferencia AI en RTX 5090 / 5080: como elegir para LLM locales, video 4K y 3D en tiempo real

Despliegue privado local de DeepSeek V4: elegir entre chips nacionales y clusters de GPU de consumo

Modelos LLM locales recomendados para una GPU RTX 3060

Hermes + Qwen3.6: una solucion barata para desplegar un Agent local

NVIDIA lanza Nemotron 3 Nano Omni: un modelo abierto de razonamiento omnimodal para agentes

Ejecutar Qwen3.6 en local: requisitos de VRAM para modelos cuantizados 27B y 35B-A3B

Ejecutar DeepSeek V4 en local: estimaciones de VRAM para versiones Pro, Flash y Base

Ejecutar Gemma 4 en local: requisitos de VRAM para modelos cuantizados E2B, E4B, 26B y 31B

free-claude-code: conectar Claude Code a OpenRouter, DeepSeek y modelos locales mediante un proxy

Cómo ajustar llama.cpp con 8GB de VRAM: por qué 32K es más seguro y 64K necesita cuantización de KV Cache

Una GPU de 16GB aún puede ejecutar modelos 35B: estrategias de compresión VRAM para modelos MoE en LM Studio

Cómo usar llama-quantize para modelos GGUF

Cómo obtener modelos GGUF desde Hugging Face con llama.cpp

Qué significa `it` en Gemma-4-31B-it

Elegir cuantización GGUF de Llama en Hugging Face: consejos prácticos de Q8 a Q2

Cómo acceder a una API local de Ollama por LAN en Windows

Guía local de Gemma 4: de ejecutarlo con un comando a integrarlo en desarrollo

Qué son los modelos en la nube de Ollama y cómo usarlos

Descargar modelos GGUF desde Hugging Face e importarlos en Ollama

Diagnóstico y soluciones para descargas muy lentas con ollama pull