Cómo usar Qwythos-9B: guía de despliegue con vLLM, SGLang y Transformers

Qwythos-9B-Claude-Mythos-5-1M es un modelo de razonamiento de 9B publicado por Empero AI. Basado en Qwen3.5-9B, se centra en contexto de 1M, llamadas nativas a herramientas, razonamiento sobre textos largos y licencia Apache-2.0. Esta guía resume sus características, despliegue con vLLM/SGLang, parámetros de muestreo y precauciones de uso.

Guía de instalación de Ponytail: cómo usarlo con Codex, Claude Code y Gemini CLI

Ponytail es un conjunto de reglas y plugins para agentes de programación con IA. Ayuda a Codex, Claude Code, Copilot CLI, Gemini CLI y herramientas similares a decidir si realmente hace falta escribir código nuevo, priorizando la reutilización de código existente, bibliotecas estándar, capacidades de la plataforma y dependencias ya instaladas.

GTX 1060 con Qwen 35B: optimizar llama.cpp de 3 tok/s a 17 tok/s

Una guía práctica para optimizar llama.cpp al ejecutar modelos tipo Qwen 35B en GPU con poca VRAM: por qué la velocidad por defecto es baja, cómo entender la descarga MoE, los cuellos de botella de memoria, la longitud de contexto, los parámetros de estabilidad y cómo hacer más usable una GTX 1060 de 6GB para inferencia local.