import pandas as pd
import numpy as np

Vamos a trabajar con el dataset del titanic:

titanic = pd.read_csv('titanic/train.csv')
PassengerId Survived Pclass Name Sex Age SibSp Parch Ticket Fare Cabin Embarked
0 1 0 3 Braund, Mr. Owen Harris male 22.0 1 0 A/5 21171 7.2500 NaN S
1 2 1 1 Cumings, Mrs. John Bradley (Florence Briggs Th... female 38.0 1 0 PC 17599 71.2833 C85 C
2 3 1 3 Heikkinen, Miss. Laina female 26.0 0 0 STON/O2. 3101282 7.9250 NaN S
3 4 1 1 Futrelle, Mrs. Jacques Heath (Lily May Peel) female 35.0 1 0 113803 53.1000 C123 S
4 5 0 3 Allen, Mr. William Henry male 35.0 0 0 373450 8.0500 NaN S

Información básica de las columnas:

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
PassengerId    891 non-null int64
Survived       891 non-null int64
Pclass         891 non-null int64
Name           891 non-null object
Sex            891 non-null object
Age            714 non-null float64
SibSp          891 non-null int64
Parch          891 non-null int64
Ticket         891 non-null object
Fare           891 non-null float64
Cabin          204 non-null object
Embarked       889 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 83.6+ KB

Seleccionamos dos columnas para estudiar las odds ratio y las proporciones

dt = titanic[['Survived','Sex']]
Survived Sex
0 0 male
1 1 female
2 1 female
3 1 female
4 0 male

Vamos a ver el porcentaje de mujeres y hombres:

male      577
female    314
Name: Sex, dtype: int64
male      64.758698
female    35.241302
Name: Sex, dtype: float64

Podemos hacer un bar plot:

import seaborn as sns
<matplotlib.axes._subplots.AxesSubplot at 0x7f16a5a91278>

Podemos sacar una tabla como la de antes:

pd.crosstab(index=dt['Survived'],columns=dt['Sex'], margins=True) # margins para sacar los totales
Sex female male All
0 81 468 549
1 233 109 342
All 314 577 891

Podemos hacer la tabla con las proporciones/probabilidades de cada clase:

pd.crosstab(index=dt['Survived'],columns=dt['Sex'], margins=True).apply(lambda r: r*100/len(dt))
Sex female male All
0 9.090909 52.525253 61.616162
1 26.150393 12.233446 38.383838
All 35.241302 64.758698 100.000000

Igual pero relativo por cada fila:

pd.crosstab(index=dt['Survived'],columns=dt['Sex']).apply(lambda r: r*100/r.sum(), axis=1)
Sex female male
0 14.754098 85.245902
1 68.128655 31.871345
# De los que sobreviven cuántos son hombres

Relativo por columnas:

pd.crosstab(index=dt['Survived'],columns=dt['Sex']).apply(lambda r: r*100/r.sum(), axis=0)
Sex female male
0 25.796178 81.109185
1 74.203822 18.890815
# De los hombres, cuántos sobreviven

Podemos hacer otro barplot:

pd.crosstab(index=dt['Survived'],columns=dt['Sex']).apply(lambda r: r*100/r.sum(), axis=0).plot(kind='bar')
<matplotlib.axes._subplots.AxesSubplot at 0x7f16a5741748>

Vamos a calcular odds y proporciones:

# Odds mujer
# Odds hombre
# Odds ratio
Hay funciones que calculan los odds ratio (pero no entraremos demasiado)

import scipy.stats as stats
oddsratio, pvalue =stats.fisher_exact(table)


El modelo:

Survived Sex
0 0 male
1 1 female
2 1 female
3 1 female
4 0 male

Para transformar la variable Sex en unos y ceros usamos get_dummies:

Survived Sex_female Sex_male
0 0 0 1
1 1 1 0
2 1 1 0
3 1 1 0
4 0 0 1

Como es redundante tiramos una:

Survived Sex_male
0 0 1
1 1 0
2 1 0
3 1 0
4 0 1

Hagamos la regresión logística:

from sklearn.linear_model import LogisticRegression
# Definimos el modelo
logreg=LogisticRegression(random_state=0, solver='lbfgs') #Se puede fijar un solver
# parámetros del modelo
{'C': 1.0,
 'class_weight': None,
 'dual': False,
 'fit_intercept': True,
 'intercept_scaling': 1,
 'max_iter': 100,
 'multi_class': 'warn',
 'n_jobs': None,
 'penalty': 'l2',
 'random_state': 0,
 'solver': 'lbfgs',
 'tol': 0.0001,
 'verbose': 0,
 'warm_start': False}
# Definimos X e y
X = dt.drop('Survived',axis=1) # Para que me de un dataframe y no una serie
# Ajustamos
logreg =,y)

Coeficientes del modelo: $\beta$ = coef_, $\alpha$ = intercept_.

$$p=\frac{1}{1+e^{-(\alpha+\beta x)}}$$
print('alpha: ', logreg.intercept_)
print('beta: ', logreg.coef_)
alpha:  [1.01628767]
beta:  [[-2.44597988]]

Odds de la mujer: $e^\alpha$.

In [50]:

Odds del hombre: $e^{\alpha+\beta}$

In [52]:

Odds ratio: $e^\beta$

# Predecimos
y_pred = logreg.predict(X)

Hagamos la confusion matrix:

from sklearn.metrics import confusion_matrix
array([[468, 109],
       [ 81, 233]])

La precisión del modelo la podemos medir con su accuracy. Se puede obtener con .score, que nos evalúa unos datos sobre un modelo y calcula el error o con accuracy_score que calcula la accuracy entre un vector de y reales otro de predichas

from sklearn.metrics import accuracy_score

Hagamos otro ejemplo con más variables:

Survived Sex Age Pclass
0 0 male 22.0 3
1 1 female 38.0 1
2 1 female 26.0 3
3 1 female 35.0 1
4 0 male 35.0 3
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
Survived    891 non-null int64
Sex         891 non-null object
Age         714 non-null float64
Pclass      891 non-null int64
dtypes: float64(1), int64(2), object(1)
memory usage: 27.9+ KB
# Me voy a transformar Pclass en string porque es una variable categórica
dt.Pclass=dt.Pclass.apply(lambda x: str(x))
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
Survived    891 non-null int64
Sex         891 non-null object
Age         714 non-null float64
Pclass      891 non-null object
dtypes: float64(1), int64(1), object(2)
memory usage: 27.9+ KB
# Me saco los dummies de las variables categóricas
Survived Age Sex_female Sex_male Pclass_1 Pclass_2 Pclass_3
0 0 22.0 0 1 0 0 1
1 1 38.0 1 0 1 0 0
2 1 26.0 1 0 0 0 1
3 1 35.0 1 0 1 0 0
4 0 35.0 0 1 0 0 1
# Filtramos las clases que sobran
Survived Age Sex_male Pclass_1 Pclass_2
0 0 22.0 1 0 0
1 1 38.0 0 1 0
2 1 26.0 0 0 0
3 1 35.0 0 1 0
4 0 35.0 1 0 0

Voy a tratar con los NaN

Survived      0
Age         177
Sex_male      0
Pclass_1      0
Pclass_2      0
dtype: int64
# Me quito los NaN

Hacemos el modelo:

# Seleccionamos X e y
X=dt.drop('Survived', axis=1)
# Definir:
logreg= LogisticRegression(random_state=0,solver='lbfgs')

# Ajustar:,y)

# Predecimos
array([0, 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 1,
       0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1,
       0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0,
       1, 1, 0, 0, 0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0,
       0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1,
       0, 1, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1,
       0, 1, 1, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 1,
       1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1,
       0, 0, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0,
       0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0,
       0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       1, 0, 1, 1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0, 1, 0,
       1, 0, 0, 1, 0, 1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 1, 0, 1, 1, 0,
       0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0,
       1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0,
       0, 1, 1, 1, 0, 0, 0, 1, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0,
       1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       1, 1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0,
       1, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0,
       1, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 0, 1,
       0, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1,
       1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0, 0, 1,
       1, 0, 1, 0, 0, 0, 0, 1, 1, 0])

Me ha predicho la variable target como unos y ceros, pero me puede interesar ver cómo lo predice como probabilidades. (Básicamente fija un umbral de 0,5 y devuelve 1 si la probabilidad es mayor que el umbral y 0 en caso contrario).

array([[0.88081218, 0.11918782],
       [0.10117928, 0.89882072],
       [0.43713259, 0.56286741],
       [0.05569741, 0.94430259],
       [0.44933092, 0.55066908],
       [0.91216125, 0.08783875]])

Podemos sacar la accuracy:

In [81]:


logreg.coef_, logreg.intercept_
(array([[-0.03401702, -2.38901944,  2.33958631,  1.12651064]]),

Hay varios coeficientes ($\beta_1, \beta_2, \beta_3, \beta_4$), uno por cada variable y el otro es el $\alpha$.

Por último, hallemos la ROC curve:

from sklearn.metrics import roc_curve, auc
fpr, tpr, threshold = roc_curve(y,probs[:,1])
roc_auc = auc(fpr,tpr)
import matplotlib.pyplot as plt
plt.title('Receiver Operating Characteristic')
plt.plot(fpr,tpr, 'b', label = 'AUC = %0.2f' % roc_auc)
plt.legend(loc = 'lower right')
plt.plot([0,1],[0,1], 'r--')
plt.ylabel('True Positive Rate')
plt.xlabel('False Positive Rate')
