Desarrolla ampliamente los siguientes puntos de teoría en tu libreta
A. Exploración de datos
• Análisis estadístico
• Visualización de datos
• Identificación de valores atípicos
• Datos faltantes
B. Limpieza de datos.
• Manejo de valores faltantes
• Imputación de datos
• Eliminación de duplicados
• Corrección de errores
C. Transformación de datos
• Normalización
• Estandarización
• Discretización
• Codificación de variables categóricas
Investiga y desarrolla los siguientes algoritmos
1 # Importar las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
2 # SUBIR EL ARCHIVO DE CSV
from google.colab import files
uploaded = files.upload()
3 # Cargar el conjunto de datos del Titanic
titanic_data = pd.read_csv('titanic.csv')
EJECUTAR LOS SIGUIENTES CODIGOS PARA MUESTRA
# Mostrar las primeras filas del conjunto de datos
print(titanic_data.head())
# Información general sobre el conjunto de datos
print(titanic_data.info())
# Estadísticas descriptivas del conjunto de datos
print(titanic_data.describe())
# Visualizar la distribución de edades
sns.histplot(titanic_data['Age'].dropna(), kde=False, bins=30)
plt.title('Distribución de Edades en el Titanic')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()
# Visualizar la proporción de sobrevivientes por género
sns.countplot(x='Survived', hue='Sex', data=titanic_data)
plt.title('Sobrevivientes en el Titanic por Género')
plt.xlabel('Sobrevivió')
plt.ylabel('Conteo')
plt.show()
# Calcular la tasa de supervivencia por clase
class_survival_rate = titanic_data.groupby('Pclass')['Survived'].mean()
print(class_survival_rate)
# Visualizar la tasa de supervivencia por clase
sns.barplot(x=class_survival_rate.index, y=class_survival_rate.values)
plt.title('Tasa de Supervivencia por Clase en el Titanic')
plt.xlabel('Clase')
plt.ylabel('Tasa de Supervivencia')
plt.show()
# Importar las bibliotecas necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
# Ejecuta la siguiente celda y selecciona el archivo de tu equipo
from google.colab import files
uploaded = files.upload()
# Cargar el conjunto de datos del Titanic
titanic_data = pd.read_csv('titanic.csv')
# Mostrar las primeras filas del conjunto de datos
print(titanic_data.head())
# Información general sobre el conjunto de datos
print(titanic_data.info())
# Estadísticas descriptivas del conjunto de datos
print(titanic_data.describe())
# Visualizar la distribución de edades
sns.histplot(titanic_data['Age'].dropna(), kde=False, bins=30)
plt.title('Distribución de Edades en el Titanic')
plt.xlabel('Edad')
plt.ylabel('Frecuencia')
plt.show()
# Visualizar la proporción de sobrevivientes por género
sns.countplot(x='Survived', hue='Sex', data=titanic_data)
plt.title('Sobrevivientes en el Titanic por Género')
plt.xlabel('Sobrevivió')
plt.ylabel('Conteo')
plt.show()
# Calcular la tasa de supervivencia por clase
class_survival_rate = titanic_data.groupby('Pclass')['Survived'].mean()
print(class_survival_rate)
# Visualizar la tasa de supervivencia por clase
sns.barplot(x=class_survival_rate.index, y=class_survival_rate.values)
plt.title('Tasa de Supervivencia por Clase en el Titanic')
plt.xlabel('Clase')
plt.ylabel('Tasa de Supervivencia')
plt.show()