HWE-Bench: Benchmarking de los agentes LLM en tareas de reparación de errores de hardware en el mundo real
Un análisis de rendimiento para medir cómo los agentes de aprendizaje automático llegan a enfrentar los desafíos de la reparación de errores de hardware en entornos reales.