Lee cuidadosamente cada una de las siguientes preguntas relacionadas con la adquisición de un banco de patrones, tanto de forma manual como por programación. Responde de manera desarrollada, es decir, con al menos 5 a 8 líneas por respuesta, explicando con tus propias palabras y dando ejemplos cuando sea posible.
en la libreta .
¿Qué ventajas ofrece la obtención de patrones desde Internet para un banco de reconocimiento de rostros, objetos o caracteres?
¿Qué criterios se deben considerar al seleccionar imágenes de Internet para que sean patrones válidos?
¿Cómo influye la calidad de un escáner en la precisión de los patrones digitalizados?
¿Qué diferencias existen entre capturar patrones con una cámara digital y con la cámara de un celular?
¿Qué beneficios y limitaciones tiene el uso de una cámara web en la adquisición de patrones?
¿Por qué es importante estandarizar las condiciones de iluminación al capturar patrones con cámaras?
¿Qué papel juegan los ángulos de captura en el reconocimiento de patrones faciales?
¿Cómo afecta la resolución de una cámara a la precisión de los patrones adquiridos?
¿Qué pruebas se pueden aplicar para validar que un patrón obtenido manualmente es representativo?
¿Cómo se pueden organizar y clasificar los patrones obtenidos de diferentes fuentes manuales?
¿De qué manera se podría combinar la adquisición de patrones de Internet con los obtenidos de cámaras para enriquecer la base de datos?
¿Qué errores comunes pueden ocurrir durante la adquisición manual de patrones y cómo evitarlos?
¿Qué ventajas tiene programar la adquisición de patrones directamente desde Internet frente a la descarga manual?
¿Qué técnicas se pueden usar en programación para filtrar imágenes irrelevantes de Internet al construir un banco de patrones?
¿Cómo se puede automatizar la captura de imágenes desde una cámara web mediante programación?
¿Qué librerías o lenguajes de programación resultan más útiles para la adquisición de patrones de rostros?
¿Cómo puede la programación ayudar a mantener actualizado un banco de patrones en tiempo real?
¿Qué desafíos técnicos existen al programar un sistema de captura continua con cámaras digitales o celulares?
¿De qué manera se asegura la calidad de los patrones adquiridos automáticamente por programación?
¿Qué protocolos de validación se pueden implementar para verificar la integridad de los patrones adquiridos?
¿Cómo puede la programación facilitar la clasificación automática de los patrones adquiridos?
¿Qué riesgos existen al adquirir datos de Internet mediante programación y cómo se pueden mitigar?
¿Qué importancia tiene la estandarización de formatos (JPG, PNG, etc.) al adquirir patrones por programación?
¿Cómo puede un algoritmo diferenciar entre un patrón válido y uno que no cumple con los criterios de reconocimiento?
¿Qué ventajas aporta combinar la adquisición manual y la adquisición programada en la construcción de un banco de patrones?
El preprocesado de los datos es la primera fase en cualquier proyecto de analítica de datos o inteligencia artificial.
Su objetivo es preparar los datos para que puedan ser usados de manera eficiente en modelos de análisis, clasificación o visualización.
En este punto se hace una selección de variables para dos propósitos principales:
Definición:
Consiste en identificar qué atributos o características de los datos (variables independientes) son útiles para diferenciar y predecir una categoría o clase.
Ejemplo:
Si tenemos un dataset de frutas con variables: color, peso, tamaño, textura, origen, y la clase a predecir es el tipo de fruta, no todas las variables son útiles.
Útiles para clasificar: color, peso, tamaño, textura (porque diferencian manzana, plátano y naranja).
No útiles: origen (importado o local no cambia la fruta).
Importancia:
Usar variables irrelevantes aumenta el ruido en los datos y hace que el modelo se confunda.
Usar solo las variables relevantes mejora la precisión y eficiencia del modelo.
Métodos comunes de selección de variables para clasificación:
Manual o por criterio experto → elegir variables según el conocimiento del problema.
Estadísticos → correlación, chi-cuadrado, ANOVA.
Automatizados en machine learning → algoritmos como Árboles de Decisión, Random Forest (importancia de variables), PCA (análisis de componentes principales).
Definición:
Es la elección de variables que permiten visualizar los datos de manera clara, ya sea en gráficos, mapas de dispersión o diagramas.
Ejemplo:
Para representar frutas en una gráfica, puede bastar con peso y tamaño, coloreando los puntos según la clase de fruta.
No siempre se necesitan todas las variables: con 2 o 3 bien escogidas ya se puede observar un patrón.
Importancia:
La representación gráfica ayuda a detectar relaciones entre variables.
Permite observar tendencias, agrupaciones y anomalías antes de aplicar modelos de análisis.
Técnicas de representación más usadas:
Gráficos 2D/3D de dispersión (ejemplo: Peso vs Tamaño).
Histogramas y diagramas de barras (para ver distribución de una variable).
Diagramas de caja (boxplots) (para ver la variabilidad de los datos).
Reducción de dimensionalidad (PCA, t-SNE) cuando hay muchas variables.
Clasificación → busca predecir o separar clases (¿qué fruta es?).
Representación → busca visualizar y entender los datos (¿cómo se distribuyen las frutas?).
Revisión de los datos → detectar datos faltantes, inconsistencias o errores.
Selección de variables relevantes → elegir qué atributos son útiles y descartar los irrelevantes.
Normalización o estandarización (si se requiere) → ajustar las escalas de los datos (ejemplo: peso en gramos y tamaño en cm).
Codificación de variables categóricas → transformar variables no numéricas (ejemplo: “color = rojo, verde, amarillo” a valores numéricos).
Preparación para análisis → definir variables de entrada (X) y variable de salida (Y).
Cuando diseñes el ejercicio, ten en cuenta:
Teoría básica a explicar:
Qué es preprocesado.
Qué significa selección de variables.
Diferencia entre selección para clasificación y representación.
Aplicación en el ejercicio:
Da un dataset pequeño (como el de frutas).
Pide que seleccionen variables para clasificación (qué atributos sirven para identificar la fruta).
Pide que seleccionen variables para representación (qué atributos sirven para hacer una gráfica clara).
Contexto:
Tienes un pequeño conjunto de datos con información de frutas recolectadas en una tienda. El objetivo es clasificar el tipo de fruta y también representar visualmente sus características.
Objetivo: determinar qué variables sirven para diferenciar a las frutas.
Variables candidatas:
Color → ayuda a diferenciar (manzana roja/verde, plátano amarillo, naranja naranja).
Peso → sí ayuda (plátano es más ligero y largo, naranja más pesada).
Tamaño → útil para distinguir entre frutas largas (plátano) y redondas (manzana/naranja).
Textura → útil (naranja es rugosa, manzana y plátano no).
Origen → no aporta mucho (local/importado no cambia la clase de fruta).
Variables seleccionadas: Color, Peso, Tamaño, Textura.
Variable descartada: Origen.
Objetivo: elegir variables fáciles de graficar en 2D o 3D para visualizar el dataset.
Opción 1: Graficar Peso (eje X) vs Tamaño (eje Y).
Los puntos se colorean según la clase de fruta (manzana, plátano, naranja).
Opción 2: Representar Peso y Tamaño y usar el color de la fruta como atributo visual.
Variables seleccionadas para representación: Peso, Tamaño, Color (para diferenciar en la gráfica).
Observa la tabla de datos.
Selecciona las variables que consideres útiles para clasificar las frutas. Explica por qué.
Selecciona las variables que usarías para representar los datos en una gráfica. Explica tu elección.
(Opcional si usan software) Haz un gráfico de dispersión con Peso vs Tamaño y colorea cada fruta por su clase.
Con esto ya tienes un ejercicio completo del punto A: incluye dataset, variables candidatas, selección, justificación y actividad final.
El proceso de modelado de datos es un conjunto de pasos que permiten transformar información del mundo real en representaciones estructuradas y útiles para análisis, predicción o reconocimiento. Las etapas principales son:
Adquisición de datos – Obtener la información necesaria.
Pre-procesamiento – Limpiar y preparar los datos.
Extracción de características – Seleccionar las variables más relevantes.
Reconocimiento – Usar modelos o algoritmos para identificar patrones.
Cada etapa es crucial: si se falla en una, las siguientes se verán afectadas.
Es la fase inicial en la que se recopila la información que servirá como materia prima para el modelado.
Fuentes de datos:
Sensores físicos (cámaras, micrófonos, sensores de temperatura, etc.)
Bases de datos existentes (registros médicos, financieros, industriales)
API y servicios web (Twitter API, Google Maps API)
Captura manual (encuestas, formularios, entrevistas)
Aspectos clave:
Definir qué datos son relevantes para el problema.
Garantizar la calidad (evitar datos incompletos o erróneos).
Respetar normativas de privacidad y ética.
Ejemplo: En un sistema de reconocimiento facial, la adquisición implica tomar fotografías o videos de los rostros desde diferentes ángulos.
Consiste en preparar los datos para que puedan ser procesados por los algoritmos de modelado.
Tareas comunes:
Limpieza de datos: Eliminar valores nulos, duplicados o inconsistentes.
Normalización: Escalar valores para que estén en rangos comparables.
Filtrado: Eliminar ruido o información irrelevante.
Conversión de formatos: Unificar tipos de archivo (por ejemplo, convertir imágenes a un mismo tamaño y formato).
Ejemplo: En el reconocimiento de voz, filtrar el ruido de fondo antes de extraer características.
En esta etapa se seleccionan o calculan los atributos más representativos que describen los datos.
Objetivo: Reducir la complejidad y conservar la información más útil para el modelo.
Métodos comunes:
Análisis estadístico (media, desviación estándar, correlaciones).
Transformaciones matemáticas (Fourier, Wavelet).
Técnicas de reducción de dimensionalidad (PCA, LDA).
Identificación de patrones clave (bordes, colores, frecuencias).
Ejemplo: En visión por computadora, detectar bordes y contornos para identificar objetos.
Es la fase donde se aplican modelos o algoritmos para identificar patrones, clasificar datos o hacer predicciones.
Técnicas:
Modelos estadísticos (regresión, Bayes)
Aprendizaje automático (árboles de decisión, SVM, redes neuronales)
Comparación con bases de datos (matching de huellas, reconocimiento facial)
Ejemplo: Un sistema biométrico compara una huella digital recién capturada con una base de datos para autenticar a un usuario.
Adquisición → 2. Pre-procesamiento → 3. Extracción de características → 4. Reconocimiento
El sistema físico es la representación real del fenómeno, proceso o entorno que se busca modelar. El especialista cumple un papel esencial, ya que identifica qué elementos son relevantes para la construcción del modelo.
Relaciones
El especialista determina las interacciones entre los elementos del sistema físico.
Estas relaciones pueden ser:
Causales: una variable afecta directamente a otra (ejemplo: temperatura → expansión de un material).
Correlativas: los valores cambian de forma conjunta, aunque sin relación de causa-efecto directa.
Jerárquicas: cuando existen niveles de organización (ejemplo: empresa → departamento → empleados).
Datos obtenidos
El especialista recopila los datos relevantes para describir el comportamiento del sistema.
Los datos pueden ser:
Cuantitativos: valores numéricos como medidas de peso, temperatura, tiempo, velocidad.
Cualitativos: descripciones categóricas como tipo de objeto, condición de un proceso, atributos de un usuario.
Se evalúa su representatividad, es decir, que realmente describan el fenómeno que se busca modelar.
Los sistemas de medición son el conjunto de instrumentos, métodos y procedimientos que permiten capturar los datos de manera objetiva y confiable. Estos complementan al trabajo del especialista.
Datos obtenidos
Provienen de sensores, instrumentos de laboratorio, cuestionarios, registros digitales o bases de datos existentes.
Se clasifican según su origen:
Primarios: recolectados directamente del fenómeno (ejemplo: medición con sensores de humedad en un invernadero).
Secundarios: obtenidos de fuentes ya existentes (ejemplo: estadísticas gubernamentales).
Validación de los datos
Es el proceso de asegurar que los datos capturados sean confiables, completos y consistentes.
Incluye:
Detección de valores atípicos o erróneos.
Revisión de la calibración de los instrumentos.
Comparación con fuentes de referencia.
Definición del modelo a seguir: personas, objetos y caracteres
Se identifican los elementos del modelo según el objetivo del estudio:
Personas: roles, características demográficas, comportamientos.
Objetos: máquinas, herramientas, productos o cualquier entidad física.
Caracteres: atributos cualitativos o cuantitativos que describen a personas u objetos (ejemplo: edad, género, tamaño, color, capacidad).
Funcionalidad
Se determina cómo los datos obtenidos serán utilizados dentro del modelo.
Ejemplos:
Predecir comportamientos (modelos predictivos).
Optimizar procesos (modelos de eficiencia).
Simular escenarios (modelos de simulación).
La funcionalidad asegura que los datos recolectados no sean solo información aislada, sino que contribuyan directamente a la finalidad del modelado.
Alumno: Juan Pérez Ramírez
Materia: Reconocimiento de patrones
Trabajo: Proceso de Modelado de Patrones
Fecha: 26/08/2025
(Representado en texto, pero en la entrega real sería un gráfico con símbolos de flujo)
Inicio
↓
Definición del problema
↓
Sistema físico modelado por especialista
• Definición de variables
• Establecimiento de relaciones
↓
Diseño del sistema de medición
• Selección de instrumentos
• Calibración
• Validación
↓
Identificación de datos
• Fuentes y tipos de datos
↓
Estandarización de datos obtenidos
• Formatos y unidades
↓
Preprocesamiento de datos
• Limpieza y detección de errores
↓
Análisis de datos
• Exploración
• Modelado estadístico / Machine learning
↓
Identificación de resultados
• Interpretación de métricas
• Validación de hipótesis
↓
Análisis Spin-off
• Nuevos usos y mejoras del modelo
↓
Comunicación de hallazgos
↓
Fin
El modelado de patrones permite comprender y predecir el comportamiento de un sistema mediante datos obtenidos de un sistema físico y medidos a través de instrumentos adecuados. Este reporte presenta la identificación de datos, el análisis aplicado y los resultados obtenidos, con el objetivo de mostrar un proceso estructurado de modelado de datos.
El sistema elegido es el consumo eléctrico de un motor trifásico industrial. El especialista define que las variables principales son: voltaje, corriente, potencia activa, potencia reactiva y temperatura. Las relaciones entre estas variables permiten establecer un modelo de eficiencia energética.
Se utilizan sensores calibrados de voltaje y corriente, un medidor de potencia y un sensor de temperatura con control de precisión ±0.5 °C. La validez de los datos depende de la calibración y de la frecuencia de muestreo.
Fuentes: Sensores conectados a motor, registros de mantenimiento y consumo eléctrico histórico.
Tipos: Datos cuantitativos continuos (voltaje, corriente, temperatura), categóricos (modo de operación).
Criterios de calidad: Precisión de medición, ausencia de valores perdidos, coherencia temporal.
Preprocesamiento: Se eliminan registros con fallos de sensor (<2%).
Exploración: Gráficas de tendencia y correlación entre potencia activa y temperatura.
Modelado: Se ajusta un modelo de regresión múltiple para predecir eficiencia en función de temperatura, voltaje y corriente.
Validación: Se utiliza 70% de datos para entrenamiento y 30% para prueba; el R² = 0.89 indica buen ajuste.
El aumento de temperatura reduce la eficiencia del motor en un 0.4% por cada grado adicional.
El voltaje estable es la variable crítica para mantener la eficiencia.
Se detectaron anomalías en 5% de las lecturas que podrían indicar fallos incipientes.
El modelo desarrollado permite anticipar condiciones de pérdida de eficiencia en el motor. Se recomienda instalar un sistema de alerta temprana que avise cuando la temperatura sobrepase los 60°C.
Definición del problema: objetivo, alcance, variables principales.
Sistema físico: supuestos, parámetros críticos, relaciones definidas.
Sistemas de medición: selección de instrumentos, calibración, protocolos.
Identificación de datos: fuentes confiables, diccionario de datos.
Preprocesamiento: limpieza, estandarización, detección de atípicos.
Análisis: selección de técnica, métricas de validación.
Resultados: interpretación clara, comunicación y recomendaciones.
Relaciones: correlación entre voltaje y temperatura; dependencia de eficiencia respecto a variables eléctricas.
Estandarización de datos obtenidos: normalización de unidades (kWh, °C), formatos homogéneos (CSV, SQL).
Análisis spin-off:
Posible aplicación del modelo para detectar fallos eléctricos en otros motores.
Uso del mismo sistema de medición para crear un tablero de monitoreo en tiempo real.
Extender el análisis a consumo energético total de la planta.
Montgomery, D. C., & Runger, G. C. (2018). Applied Statistics and Probability for Engineers. Wiley.
ISO 50001:2018 – Energy management systems.
Smith, J. (2022). Data Preprocessing Techniques in Industrial Monitoring. IEEE Transactions on Industrial Informatics.
Con este ejemplo el alumno cubre:
Diagrama de flujo (con lógica y bloques requeridos).
Reporte con las tres partes clave (datos, análisis, resultados).
Relación de elementos indispensables y complementarios.
Citas y redacción correcta.