Estadistica Practica Para Ciencia De Datos Y Python High Quality -

Aprenderás a usar librerías esenciales como Pandas y SciPy no solo para limpiar datos, sino para detectar anomalías y entender la distribución real de tu información antes de entrenar cualquier modelo.

import matplotlib.pyplot as plt import seaborn as sns # Generar datos normales datos_normales = np.random.normal(loc=0, scale=1, size=1000) # Gráfico de densidad sns.kdeplot(datos_normales, fill=True) plt.title("Distribución Normal") plt.show() # Test de normalidad Shapiro-Wilk stat, p_value = stats.shapiro(datos_normales) print(f"P-valor del test de Shapiro: p_value") # Si p_value > 0.05, se asume normalidad Use code with caution. 3. Muestreo y el Teorema del Límite Central (TLC)

statistical_report(df, 'total_bill', 'sex')

# Cálculo de probabilidad con Poisson # Si el promedio de fallos de un software es de 3 por semana, ¿cuál es la probabilidad de que falle exactamente 5 veces? prob_5_fallos = stats.poisson.pmf(k=5, mu=3) print(f"Probabilidad de exactamente 5 fallos: prob_5_fallos * 100:.2f%") Use code with caution. Share public link

La permite tomar decisiones sobre una población grande analizando una muestra pequeña. Técnicas de Muestreo Muestreo Aleatorio Simple: Seleccionar muestras al azar. Aprenderás a usar librerías esenciales como Pandas y

# Load sample data df = sns.load_dataset('tips')

El valor central. Robusta frente a valores atípicos. Moda: El valor que se repite con mayor frecuencia. Medidas de Variabilidad Indican qué tan dispersos están los datos.

🚀 3 Razones por las que este enfoque cambia las reglas del juego:

¿Te gustaría profundizar en algún tema en particular, como el muestreo o los modelos de regresión con ejemplos prácticos? Estadistica Practica Para Ciencia De Datos Con R Y Python Muestreo y el Teorema del Límite Central (TLC)

Nominales (ej. color, país) y ordinales (ej. nivel de satisfacción: bajo, medio, alto). Medidas de Tendencia Central y Variabilidad

df_multi = pd.DataFrame('exp': exp, 'educ': educ, 'salario': salario) X_multi = sm.add_constant(df_multi[['exp', 'educ']]) modelo_multi = sm.OLS(df_multi['salario'], X_multi).fit() print(modelo_multi.summary())

El TCL es fundamental: la distribución de las medias muestrales tiende a una normal, independientemente de la distribución original, si n es grande. Comprobémoslo:

# Simulación de conversión Web A (Control) vs Web B (Tratamiento) grupo_A = np.random.normal(loc=5.0, scale=1.0, size=100) grupo_B = np.random.normal(loc=5.4, scale=1.0, size=100) t_stat, p_val = stats.ttest_ind(grupo_A, grupo_B) print(f"Estadístico t: t_stat:.4f") print(f"P-Value: p_val:.4f") if p_val < 0.05: print("Resultado Estadísticamente Significativo: Rechazamos H0") else: print("No hay evidencia suficiente para rechazar H0") Use code with caution. 6. Regresión y Modelado Estadístico ax = plt.subplots(1

# Población con distribución uniforme (no normal) poblacion = np.random.uniform(0, 10, size=100000)

Observa cómo la media (256) es engañosa por el outlier 1100. La mediana (172.5) representa mejor el centro de los datos. : Nunca confíes solo en la media.

residuos = modelo_multi.resid fig, ax = plt.subplots(1,2, figsize=(12,4)) sns.histplot(residuos, kde=True, ax=ax[0]) stats.probplot(residuos, dist="norm", plot=ax[1]) ax[0].set_title('Histograma de residuos') ax[1].set_title('Q-Q plot') plt.show()