FINAL_practica_fundamentos.Rmd

---
title: "Fundamentos análisis de datos - Práctica final"
output:
  html_document:
    df_print: paged
    code_folding: hide
---

**David Durán Prieto**

**Gerardo Adrián Aguirre Vivar**

**Ana Jiménez Santamaría**

***

## 1. Contexto

El data set que ha sido elegido proviene de una encuesta realizada por la PSA (Philippine Statistics Authority) donde se recogen los gastos e ingresos por familia en las Islas Filipinas. Contiene más de 40000 observaciones y 60 variables, que han sido agrupadas en las siguientes categorías:

* Gastos
* Datos demográficos de familias
* Datos demográficos de la persona principal en la toma de decisiones
* Estructura de la casa
* Número de bienes adquiridos

Durante varios años, identificar un modelo de clasificación socio-económico óptimo en Filipinas ha sido un tema difícil de abordar. A día de hoy, ningun modelo ha sido aceptado de forma global, y los diferentes organismos gubernamentales que existen utilizan sus propios modelos. Por ello, el presente trabajo se plantea un objetivo: diseñar un modelo que consiga abordar el problema y resolverlo de manera eficaz.

## 2. Objetivo - Pregunta - Target

*Objetivo*: Predecir los ingresos de una familia filipina, basándse en los datos disponibles.
*Pregunta*: A partir de un modelo de regresión lineal múltiple, ¿qué variables son las más adecuadas para predecir los ingresos?
*Target*: La variable respuesta es el total de ingresos de cada familia filipina (Total.Household.Income) 

## 3. Procedimiento

El análisis de dividirá en dos fases:

* La primera fase consistirá en un análisis exploratorio de los datos para entender mejor el significado y la relevancia de cada una de las variables. Se estudiarán puntos clave como el nivel de correlación entre la variable de interés y las demás. Por ello, **para cada variable estudiada**, se planteará:

    * ¿Se considerará esta variable al predecir los ingresos familiares? Es decir, ¿formará parte del modelo diseñado?
    * Si es así, ¿cómo de relevante es esta variable a la hora de determinar la variable respuesta?

* La segunda fase consistirá en la elaboración de un modelo de regresión lineal múltiple con las variables predictoras seleccionadas.

***
## 4. Análisis exploratorio de los datos

### 4.1. Procesado inicial

Antes de proceder con la visualización gráfica de las variables (para tener una visión de la distribución de nuestros datos), será realizado un preprocesamiento y limpieza del conjunto de datos. Serán etiquetados como NA aquellos valores que así deban considerarse; se eliminarán ciertas variables por no presentar interés para el objetivo planteado o por no estar bien categorizadas, y por último, seran preparados los conjuntos de test/validación y de train. Este último se utilizará para entrenar el modelo de predicción, que será después evaluado con el conjunto de test/validación.


```{r setup, include=FALSE}
knitr::opts_chunk$set(echo = TRUE)
options(scipen=999)

```


```{r warning=FALSE, message=FALSE}

# ----- Se cargan las librerías que serán necesarias ------

library(dplyr)
library(tidyr)
library(ggplot2)
library(forcats)
library(GGally)
library(gridExtra)
library(egg)
library(VIM)
library(vcd)
library(Hmisc)
library(readr)
library(moments)
library(caret)
library(gmodels)
library(reshape)
library(ggcorrplot)
library(knitr)
library(kableExtra)

```

A continuación, se realizará un resumen de los estadísticos principales de las **variables numéricas**. Curiosamente, solo se encuentran datos faltantes en las variables categóricas, que más adelante se tratarán.

```{r warning=FALSE}
# ----- Carga de datos -----

datos<-read.csv('Family Income and Expenditure.csv',stringsAsFactors = TRUE)
datos$Electricity<-as.factor(datos$Electricity)
datos_occupation <- datos

```

```{r warning=FALSE}
# ----- Resumen numérico de las variables -----

kable(summary(datos),caption="Summary del conjunto de datos") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

```

```{r warning=FALSE}

# ----- División de variables en categóricas y numéricas -----

nums <- datos %>%
  select_if(is.numeric)

cat <- datos %>%
  select_if(is.factor)

```


A la luz de la escasa documentación referida al conjunto de datos, ha sido imposible descifrar el significado de algunas variables. Por ejemplo, la variable Agricultural.Household.indicator posee 3 valores **0, 1 y 2**. Por ello, se decide eliminar del estudio aquellas cuya interpretación es desconocida.

```{r warning=FALSE}

# ----- Eliminación de variables del dataset -----

datos<-datos%>%select(-Agricultural.Household.indicator,-Members.with.age.less.than.5.year.old,-Members.with.age.5...17.years.old,-Household.Head.Occupation)
```


Una vez descartadas aquellas variables, se irán etiquetando como NA todos aquellos valores considerados erróneos o no recogidos (missing values). Estos vendrán normalmente etiquetados por `unknown`, `not applicable` o `0`. Sin embargo, en este último caso es necesario tener cuidado, ya que algunas variables pueden tomar valor 0 y esto ser correcto, debido al tipo de datos que son (valores socio-económicos).

Además, se categorizarán ciertas variables, seleccionando las posibles categorías que podrán adquirir.

### Corrección de valores en variables y categorización

La función summary ofrece un resumen de cada variable del data set. De esta forma, se podrá inspeccionar fácilmente infomación como los estadísticos básicos en variables numéricas, o la proporción de cada tipo de categorías dentro de las variables categóricas.

Este primer paso no busca un análisis exahustivo de los datos, sino más bien un contacto inicial que permita detectar anomalías a primera vista. Se comentarán sólo los resultados destacables.


```{r warning=FALSE}

# -----Corrección de valores en variables y categorización -----


kable(summary(datos$Main.Source.of.Income),caption="Summary de Main.Source.of.Income") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Main.Source.of.Income = factor(datos$Main.Source.of.Income,ordered=TRUE,levels=(c('Other sources of Income'
                                                                            , 'Enterpreneurial Activities'
                                                                            , 'Wage/Salaries')))

#--------------------------------------------------


kable(summary(datos$Household.Head.Marital.Status),caption="Summary de Household.Head.Marital.Status") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Household.Head.Marital.Status[which(datos$Household.Head.Marital.Status=='Unknown')] <-NA # Se etiqueta como NA el valor "Unknown" (desconocido)
datos$Household.Head.Marital.Status<-fct_drop(datos$Household.Head.Marital.Status)


datos$Household.Head.Marital.Status = 
  factor(datos$Household.Head.Marital.Status,ordered=TRUE,levels=
           (c('Single'
              ,'Widowed'
              ,'Annulled'
              ,'Divorced/Separated'
              ,'Married')))

#---------------------------------------------------------------------------------------------------------------------------------------------


kable(summary(datos$Household.Head.Class.of.Worker),caption="Summary de Household.Head.Class.of.Worker") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Household.Head.Class.of.Worker = 
  factor(datos$Household.Head.Class.of.Worker,ordered=TRUE,levels=
           (c('Worked without pay in own family-operated farm or business'
              ,'Employer in own family-operated farm or business'
              ,'Worked with pay in own family-operated farm or business'
              ,'Self-employed wihout any employee'
              ,'Worked for private household'
              ,'Worked for private establishment'
              ,'Worked for government/government corporation')))


#---------------------------------------------------------------------------------------------------------------------------------------------

datos$Type.of.Household = 
  factor(datos$Type.of.Household,ordered=TRUE,levels=
           (c('Single Family'
              ,'Two or More Nonrelated Persons/Members'
              ,'Extended Family')))
kable(levels(datos$Type.of.Household),caption="Summary de Type.of.Household") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")
#---------------------------------------------------------------------------------------------------------------------------------------------

datos$Type.of.Building.House = 
  factor(datos$Type.of.Building.House,ordered=TRUE,levels=
           (c('Other building unit (e.g. cave, boat)'
              ,'Institutional living quarter'
              ,'Commercial/industrial/agricultural building'
              ,'Single house'
              ,'Duplex'
              ,'Multi-unit residential')))
kable(levels(datos$Type.of.Building.House),caption="Summary de Type.of.Building.House") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------

kable(summary(datos$Type.of.Roof),caption="Summary de Type.of.Roof") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Type.of.Roof[which(datos$Type.of.Roof=='Not Applicable')] <-NA # Se etiqueta como NA el valor "Not Applicable" (no aplicable)
datos$Type.of.Roof<-fct_drop(datos$Type.of.Roof)

datos$Type.of.Roof = 
  factor(datos$Type.of.Roof,ordered=TRUE,levels=
           (c('Salvaged/makeshift materials'
              ,'Light material (cogon,nipa,anahaw)'
              ,'Mixed but predominantly salvaged materials'
              ,'Mixed but predominantly light materials'
              ,'Mixed but predominantly strong materials'
              ,'Strong material(galvanized,iron,al,tile,concrete,brick,stone,asbestos)')))


#---------------------------------------------------------------------------------------------------------------------------------------------


kable(summary(datos$Type.of.Walls),caption="Summary de Type.of.Walls") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Type.of.Walls[which(datos$Type.of.Walls=='Not applicable')] <-NA # Se etiqueta como NA el valor "Not Applicable" (no aplicable)
datos$Type.of.Walls<-fct_drop(datos$Type.of.Walls)

datos$Type.of.Walls= 
  factor(datos$Type.of.Walls,ordered=TRUE,levels=
           (c('Salvaged'
              ,'Very Light'
              ,'Light'
              ,'Strong'
              ,'Quite Strong')))


#---------------------------------------------------------------------------------------------------------------------------------------------

kable(summary(datos$Toilet.Facilities),caption="Summary de Toilet.Facilities") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Toilet.Facilities= 
  factor(datos$Toilet.Facilities,ordered=TRUE,levels=
           (c('None'
              ,'Others'
              ,'Open pit'
              ,'Closed pit'
              ,'Water-sealed, other depository, shared with other household'
              ,'Water-sealed, other depository, used exclusively by household'
              ,'Water-sealed, sewer septic tank, shared with other household'
              ,'Water-sealed, sewer septic tank, used exclusively by household')))


#---------------------------------------------------------------------------------------------------------------------------------------------
kable(summary(datos$Main.Source.of.Water.Supply),caption="Summary de Main.Source.of.Water.Supply") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Main.Source.of.Water.Supply= 
  factor(datos$Main.Source.of.Water.Supply,ordered=TRUE,levels=
           (c('Others'
              ,'Dug well'
              ,'Lake, river, rain and others'
              ,'Unprotected spring, river, stream, etc'
              ,'Protected spring, river, stream, etc'
              ,'Tubed/piped shallow well'
              ,'Shared, tubed/piped deep well'
              ,'Own use, tubed/piped deep well'
              ,'Peddler'
              ,'Shared, faucet, community water system'
              ,'Own use, faucet, community water system')))


#---------------------------------------------------------------------------------------------------------------------------------------------
kable(summary(datos$Tenure.Status),caption="Summary de Tenure.Status") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

datos$Tenure.Status[which(datos$Tenure.Status=='Not Applicable')] <-NA # Se etiqueta como NA el valor "Not Applicable" (no aplicable)
datos$Tenure.Status<-fct_drop(datos$Tenure.Status)

```

La  variable "Electricity" es un claro ejemplo de la importancia de no tratar como NA todos aquellos valores iguales a `0`. Puesto que no existe ninguna descripción de las variables del dataset, más allá del propio nombre, se trata de ver a qué se refieren esos `0`. A continuación, se muestra una representación gráfica de la variable:


```{r warning=FALSE}

#---------------------------------------------------------------------------------------------------------------------------------------------

kable(summary(datos$Electricity),caption="Summary de Electricity") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

ggplot(datos, aes(x=Number.of.Airconditioner,fill= Electricity)) + geom_bar(position = "dodge")


```

A la vista de la gráfica, se concluye que todos los usuarios que tienen aire acondicionado, tienen un 1 en Electricity, y que ningún usuario con un 0 tiene aire acondicionado, por lo que es posible afirmar que el 1 corresponde a tener electricidad, y el 0 a no tenerla. 


Para clarificar, será categorizada con valores de "Si" y "No", que sustituirán a los unos y ceros, respectivamente.

```{r warning=FALSE}

# Sustitución de 0/1 por No/Si
datos$Electricity<-fct_recode(datos$Electricity,Si='1',No='0')
```

El último grupo de variables corresponde al número de bienes adquiridos. Dichas variables son marcadas como numéricas, pero sus rangos son muy reducidos con respecto a las demás. Se inspecciona más a fondo estas variables viendo sus principales estadísticos:

```{r warning=FALSE}
#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.bedrooms)),caption="Summary de Number.of.bedrooms") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Refrigerator.Freezer)),caption="Summary de Number.of.Refrigerator.Freezer") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Washing.Machine)),caption="Summary de Number.of.Washing.Machine") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Airconditioner)),caption="Summary de Number.of.Airconditioner") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Car..Jeep..Van)),caption="Summary de Number.of.Car..Jeep..Van") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.CD.VCD.DVD)),caption="Summary de Number.of.CD.VCD.DVD") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Cellular.phone)),caption="Summary de Number.of.Cellular.phone") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Component.Stereo.set)),caption="Summary de Number.of.Component.Stereo.set") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Landline.wireless.telephones)),caption="Summary de Number.of.Landline.wireless.telephones") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Personal.Computer)),caption="Summary de Number.of.Personal.Computer") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Motorcycle.Tricycle)),caption="Summary de Number.of.Motorcycle.Tricycle") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Stove.with.Oven.Gas.Range)),caption="Summary de Number.of.Stove.with.Oven.Gas.Range") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Television)),caption="Summary de Number.of.Television") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------
kable(c(summary(datos$Number.of.Motorized.Banca)),caption="Summary de Number.of.Motorized.Banca") %>%
  kable_styling() %>%
  scroll_box(width = "100%", height = "100%")

#---------------------------------------------------------------------------------------------------------------------------------------------

```

Una vez están los datos ordenados, y debido a que el volumen de la muestra inicial podría ser un problema al tratar con ellos, se procede a realizar un muestreo de 10000 observaciones con muestreo aleatorio simple, fijando una semilla aleatoria.

Se divide la muestra de 10000 observaciones en dos conjuntos: uno de train y otro de test/validación (70%-30%). Se trabajará con el conjunto de train, mientras que el de test será reservado para la parte final (evaluación del modelo).

```{r warning=FALSE}

# ----- Creación de una muestra del conjunto inicial de datos con muestreo aleatorio simple sin reemplazamiento -----

set.seed(300)
datos_s <- datos %>%
  sample_n(size=10000,replace=FALSE)

# División de la muestra de 10000 observaciones en dos conjuntos: uno de train y otro de test (70%-30%)

training <- createDataPartition(pull(datos_s, Total.Household.Income ),
                                p = 0.7, list = FALSE, times = 1)

datos_training <- slice(datos_s, training)
datos_testing <- slice(datos_s, -training)

var_train_cat <- datos_training%>%select_if(is.factor)
var_train_num <- datos_training%>%select_if(is.numeric)

```

### 4.2. Análisis variables cualitativas

Para estudiar más a fondo las variables cualitativas, es conveniente ver sus frecuencias absolutas, una a una, con ayuda de la función `table()`. Sacar la frecuencia absoluta de cada variable cualitativa es importante para determinar cuán homogénea es la población (por ejemplo, tipo de trabajo, sexo o tipo de casas más comunes). Además, al disponer de variables muy específicas sobre la estructura de la casa y bienes básicos del hogar, podrá verse fácilmente si la mayoría de la población dispone de una calidad de vida digna, o por el contrario, tiende a estar en niveles de pobreza alarmantes (por ejemplo, tener electricidad o no tener).


Region:

```{r warning=FALSE}

# ----- Frecuencias absolutas y relativas ------

# Frecuencias absolutas - función table() (tabla de contingencia)

table(var_train_cat$Region)


```

Main.Source.of.Income

```{r warning=FALSE}

table(var_train_cat$Main.Source.of.Income)

```

Household.Head.Job.or.Business.Indicator

```{r warning=FALSE}

table(var_train_cat$Household.Head.Job.or.Business.Indicator)

```

Household.Head.Sex

```{r warning=FALSE}

table(var_train_cat$Household.Head.Sex)


```

Household.Head.Marital.Status

```{r warning=FALSE}

table(var_train_cat$Household.Head.Marital.Status)


```

Household.Head.Job.or.Business.Indicator

```{r warning=FALSE}

table(var_train_cat$Household.Head.Job.or.Business.Indicator)

```

Household.Head.Class.of.Worker

```{r warning=FALSE}

table(var_train_cat$Household.Head.Class.of.Worker)

```

Type.of.Household

```{r warning=FALSE}

table(var_train_cat$Type.of.Household)

```

Type.of.Building.House

```{r warning=FALSE}

table(var_train_cat$Type.of.Building.House)

```

Type.of.Roof

```{r warning=FALSE}

table(var_train_cat$Type.of.Roof)

```

Type.of.Walls

```{r warning=FALSE}

table(var_train_cat$Type.of.Walls)

```

Tenure.Status

```{r warning=FALSE}

table(var_train_cat$Tenure.Status)

```

Toilet.Facilities

```{r warning=FALSE}

table(var_train_cat$Toilet.Facilities)

```

Electricity

```{r warning=FALSE}

table(var_train_cat$Electricity)

```

Main.Source.of.Water.Supply

```{r warning=FALSE}

table(var_train_cat$Main.Source.of.Water.Supply)

```

Number.of.Motorcycle.Tricycle

```{r warning=FALSE}

table(var_train_cat$Number.of.Motorcycle.Tricycle)

```

Household.Head.Highest.Grade.Completed

```{r warning=FALSE}

table(var_train_cat$Household.Head.Highest.Grade.Completed)

```

Seguidamente, serán visualizadas las frecuencias relativas, esta vez utilizando la función `prop.table()`


Region:

```{r warning=FALSE}

# ----- Frecuencias absolutas y relativas ------

# Frecuencias relativas - función prop.table()

prop.table(table(var_train_cat$Region))


```

Main.Source.of.Income:

```{r warning=FALSE}

prop.table(table(var_train_cat$Main.Source.of.Income))

```

Household.Head.Job.or.Business.Indicator

```{r warning=FALSE}

prop.table(table(var_train_cat$Household.Head.Job.or.Business.Indicator))

```

Household.Head.Sex

```{r warning=FALSE}

prop.table(table(var_train_cat$Household.Head.Sex))


```

Household.Head.Marital.Status

```{r warning=FALSE}

prop.table(table(var_train_cat$Household.Head.Marital.Status))


```

Household.Head.Job.or.Business.Indicator

```{r warning=FALSE}

prop.table(table(var_train_cat$Household.Head.Job.or.Business.Indicator))

```

Household.Head.Class.of.Worker

```{r warning=FALSE}

prop.table(table(var_train_cat$Household.Head.Class.of.Worker))

```

Type.of.Household

```{r warning=FALSE}

prop.table(table(var_train_cat$Type.of.Household))

```

Type.of.Building.House

```{r warning=FALSE}

prop.table(table(var_train_cat$Type.of.Building.House))

```

Type.of.Roof

```{r warning=FALSE}

prop.table(table(var_train_cat$Type.of.Roof))

```

Type.of.Walls

```{r warning=FALSE}

prop.table(table(var_train_cat$Type.of.Walls))

```

Tenure.Status

```{r warning=FALSE}

prop.table(table(var_train_cat$Tenure.Status))

```

Toilet.Facilities

```{r warning=FALSE}

prop.table(table(var_train_cat$Toilet.Facilities))

```

Electricity

```{r warning=FALSE}

prop.table(table(var_train_cat$Electricity))

```

Main.Source.of.Water.Supply

```{r warning=FALSE}

prop.table(table(var_train_cat$Main.Source.of.Water.Supply))

```

Number.of.Motorcycle.Tricycle

```{r warning=FALSE}

prop.table(table(var_train_cat$Number.of.Motorcycle.Tricycle))

```

Household.Head.Highest.Grade.Completed

```{r warning=FALSE}

prop.table(table(var_train_cat$Household.Head.Highest.Grade.Completed))

```

Al examinar las visualizaciones, la variable categórica `electricity` llama la atención. Se procede a comparar la variable electricity por regiones, ya que puede dar una idea acerca de en qué regiones puede existir mayor nivel de pobreza. Esto se realiza mediante la función `cross-table`, que nos mostrará las frecuencias absolutas, relativas en relación a la fila, frecuencias relativas en relación a la columna y frecuencias relativas globales:

```{r warning=FALSE}

CrossTable(var_train_cat$Region, var_train_cat$Electricity, prop.chisq = FALSE)

```

Se incorpora al análisis una tercera variable que suscita interés en el estudio: la variable `Sex`, que indica el sexo de la persona que toma las decisiones en el hogar.

# Tabla de contingencia region-sexo:

```{r warning=FALSE}

# ----- Estudio de frecuencias multidimensionales -----

# Análisis de la variable electricity/región/sexo

ftable(var_train_cat$Region, var_train_cat$Household.Head.Sex, var_train_cat$Electricity)

```


### Gráficos EDA con variables cualitativas individuales

Tras haber realizado un análisis inicial de cada variable del data set, es hora de visualizar algunos de los datos que más llamativos. De las variables preseleccionadas, se destacan los `ingresos`, la `región` y el `tipo de trabajo` como puntos clave para modelar mejor la distribución de esta población. 

Más adelante, cuando sean visualizados algunos de los datos de las variables combinados, y se planteen algunas preguntas de interés, podrán sacarse algunas conclusiones sobre las características más relevantes de la población filipina (véase apartado 4.4 Representación datos cualitativos y cuantitativos).


```{r warning=FALSE}

# ----- Gráficos EDA con variables cualitativas individuales -----

ggplot(datos, aes(Region)) + geom_bar() + ggtitle("Núm. familias. por Región") + theme(axis.text.x = element_text(angle = 90, hjust = 1))
ggplot(datos, aes(Main.Source.of.Income)) + geom_bar() + ggtitle("Núm. familias. por fuente de ingresos")

```

```{r warning=FALSE}

# ----- Visualización de datos cualitativos -----

barplot(table(datos$Region), col = c("lightblue","yellow", "cadetblue4"),
        main = "Diagrama de barras de las frecuencias absolutas\n de la variable \"Region\"")


barplot(prop.table(table(datos$Household.Head.Class.of.Worker,datos$Main.Source.of.Income)),
        beside = TRUE, col = c("chocolate","cornsilk1","cornflowerblue","blueviolet", "darkgoldenrod1", "coral", "brown", "chartreuse4"),
        legend.text = T, main = "Frecuencias relativas de fuente de\n ingresos por tipo de trabajo",
        ylim = c(0,1))

```

### 4.3. Análisis variables cuantitativas

Se dispone a ver la distribución y densidad de cada una de las variables cuantitativas sin transformar, es decir, las variables "en crudo". De esta manera, se pretende identificar aquellas con los datos más sesgados, y poder observar las distribuciones y rangos que presentan. Se irán visualizando las distribuciones de las variables, agrupadas de 6 en 6 para facilitar la visualización.

```{r warning=FALSE, message=FALSE}

# ----- Histograma de las variables cuantitativas sin transformar -----

# Primeras 6 variables

p1 <- qplot(var_train_num$Total.Household.Income,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Total Household Income", 
      xlab = "Total Household Income",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(10000,12000000))
p2 <- qplot(var_train_num$Total.Food.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Total Food Expenditure", 
      xlab = "Total Food Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(2000,800000))
p3 <- qplot(var_train_num$Bread.and.Cereals.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Bread.and.Cereals.Expenditure", 
      xlab = "Bread.and.Cereals.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,350000))
p4 <- qplot(var_train_num$Total.Rice.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Total Rice Expenditure", 
      xlab = "Total Rice Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,350000))
p5 <- qplot(var_train_num$Meat.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Meat.Expenditure", 
      xlab = "Meat.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,270000))
p6 <- qplot(var_train_num$Total.Fish.and..marine.products.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Total.Fish.and..marine.products.Expenditure", 
      xlab = "Total.Fish.and..marine.products.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,190000))

grid.arrange(p1,p2,p3,p4,p5,p6,nrow=2)


# Siguientes 6 variables


d1 <- qplot(var_train_num$Fruit.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Fruit.Expenditure", 
      xlab = "Fruit.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,70000))
d2 <- qplot(var_train_num$Vegetables.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Vegetables.Expenditure", 
      xlab = "Vegetables.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,80000))
d3 <- qplot(var_train_num$Restaurant.and.hotels.Expenditure,
      geom="histogram",
      binwidth = 5000,
      main = "Histogram for Restaurant.and.hotels.Expenditure", 
      xlab = "Restaurant.and.hotels.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-5000,520000))
d4 <- qplot(var_train_num$Alcoholic.Beverages.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Alcoholic.Beverages.Expenditure", 
      xlab = "Alcoholic.Beverages.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,36000))
d5 <- qplot(var_train_num$Tobacco.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Tobacco.Expenditure", 
      xlab = "Tobacco.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,100000))
d6 <- qplot(var_train_num$Clothing..Footwear.and.Other.Wear.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Clothing..Footwear.and.Other.Wear.Expenditure", 
      xlab = "Clothing..Footwear.and.Other.Wear.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-10000,360000))
	  
	  
grid.arrange(d1,d2,d3,d4,d5,d6,nrow=2)


# Siguientes 6 variables

h1 <- qplot(var_train_num$Housing.and.water.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Housing.and.water.Expenditure", 
      xlab = "Housing.and.water.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(2000,842000))
h2 <- qplot(var_train_num$Imputed.House.Rental.Value,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Imputed.House.Rental.Value", 
      xlab = "Imputed.House.Rental.Value",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,730000))
h3 <- qplot(var_train_num$Medical.Care.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Medical.Care.Expenditure", 
      xlab = "Medical.Care.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-10000,1000000))
h4 <- qplot(var_train_num$Transportation.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Transportation.Expenditure", 
      xlab = "Transportation.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-10000,500000))
h5 <- qplot(var_train_num$Communication.Expenditure,
      geom="histogram",
      binwidth = 1000,
      main = "Histogram for Communication.Expenditure", 
      xlab = "Communication.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1000,100000))
h6 <- qplot(var_train_num$Education.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Education.Expenditure", 
      xlab = "Education.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-10000,340000))

grid.arrange(h1,h2,h3,h4,h5,h6,nrow=2)


# Siguientes 6 variables


s1 <- qplot(var_train_num$Miscellaneous.Goods.and.Services.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Miscellaneous.Goods.and.Services.Expenditure", 
      xlab = "Miscellaneous.Goods.and.Services.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-10000,320000))
s2 <- qplot(var_train_num$Special.Occasions.Expenditure,
      geom="histogram",
      binwidth = 10000,
      main = "Histogram for Special.Occasions.Expenditure", 
      xlab = "Special.Occasions.Expenditure",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-10000,310000))
s3 <- qplot(var_train_num$Crop.Farming.and.Gardening.expenses,
      geom="histogram",
      binwidth = 100000,
      main = "Histogram for Crop.Farming.and.Gardening.expenses", 
      xlab = "Crop.Farming.and.Gardening.expenses",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-100000,3800000))
s4 <- qplot(var_train_num$Total.Income.from.Entrepreneurial.Acitivites,
      geom="histogram",
      binwidth = 100000,
      main = "Histogram for Total.Income.from.Entrepreneurial.Acitivites", 
      xlab = "Total.Income.from.Entrepreneurial.Acitivites",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-100000,4800000))
s5 <- qplot(var_train_num$Household.Head.Age,
      geom="histogram",
      binwidth = 5,
      main = "Histogram for Household.Head.Age", 
      xlab = "Household.Head.Age",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(10,100))
s6 <- qplot(var_train_num$Total.Number.of.Family.members,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Total.Number.of.Family.members", 
      xlab = "Total.Number.of.Family.members",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,23))
	  
	  
grid.arrange(s1,s2,s3,s4,s5,s6,nrow=2)


# Otras 6 variables


g1 <- qplot(var_train_num$Total.number.of.family.members.employed,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Total.number.of.family.members.employed", 
      xlab = "Total.number.of.family.members.employed",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,10))
g2 <- qplot(var_train_num$House.Floor.Area,
      geom="histogram",
      binwidth = 25,
      main = "Histogram for House.Floor.Area", 
      xlab = "House.Floor.Area",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-25,1000))
g3 <- qplot(var_train_num$House.Age,
      geom="histogram",
      binwidth = 5,
      main = "Histogram for House.Age", 
      xlab = "House.Age",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,130))
g4 <- qplot(var_train_num$Number.of.bedrooms,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.bedrooms", 
      xlab = "Number.of.bedrooms",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,10))
g5 <- qplot(var_train_num$Number.of.Television,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Television", 
      xlab = "Number.of.Television",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))
g6 <- qplot(var_train_num$Number.of.CD.VCD.DVD,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.CD.VCD.DVD", 
      xlab = "Number.of.CD.VCD.DVD",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))
	  
	  
grid.arrange(g1,g2,g3,g4,g5,g6,nrow=2)


# Siguientes 6 variables


o1 <- qplot(var_train_num$Number.of.Component.Stereo.set,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Component.Stereo.set", 
      xlab = "Number.of.Component.Stereo.set",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))
o2 <- qplot(var_train_num$Number.of.Refrigerator.Freezer,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Refrigerator.Freezer", 
      xlab = "Number.of.Refrigerator.Freezer",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))
o3 <- qplot(var_train_num$Number.of.Washing.Machine,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Washing.Machine", 
      xlab = "Number.of.Washing.Machine",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,5))
o4 <- qplot(var_train_num$Number.of.Airconditioner,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Airconditioner", 
      xlab = "Number.of.Airconditioner",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))
o5 <- qplot(var_train_num$Number.of.Car..Jeep..Van,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Car..Jeep..Van", 
      xlab = "Number.of.Car..Jeep..Van",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,6))
o6 <- qplot(var_train_num$Number.of.Landline.wireless.telephones,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Landline.wireless.telephones", 
      xlab = "Number.of.Landline.wireless.telephones",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))
	  
grid.arrange(o1,o2,o3,o4,o5,o6,nrow=2)
	  
	  
# Últimas 5 variables

	  
w1 <- qplot(var_train_num$Number.of.Cellular.phone,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Cellular.phone", 
      xlab = "Number.of.Cellular.phone",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,12))
	  
w2 <- qplot(var_train_num$Number.of.Personal.Computer,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Personal.Computer", 
      xlab = "Number.of.Personal.Computer",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,8))
w3 <- qplot(var_train_num$Number.of.Stove.with.Oven.Gas.Range,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Stove.with.Oven.Gas.Range", 
      xlab = "Number.of.Stove.with.Oven.Gas.Range",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,4))
w4 <- qplot(var_train_num$Number.of.Motorized.Banca,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Motorized.Banca", 
      xlab = "Number.of.Motorized.Banca",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,5))
w5 <- qplot(var_train_num$Number.of.Motorcycle.Tricycle,
      geom="histogram",
      binwidth = 1,
      main = "Histogram for Number.of.Motorcycle.Tricycle", 
      xlab = "Number.of.Motorcycle.Tricycle",  
      fill=I("blue"), 
      col=I("red"), 
      xlim=c(-1,7))

grid.arrange(w1,w2,w3,w4,w5,nrow=2)


```

Puede observarse que la mayoría de las variables están sesgadas a la derecha, una característica común cuando tratamos con datos socioeconómicos. A simple vista, muy pocas tienen una distribución simétrica, como sea el caso de la distribución normal de la variable "House.Age".

### 4.4. Representación datos cualitativos y cuantitativos

Como parte final del análisis exploratorio de datos, se muestran algunas visualizaciones interesantes sobre el tipo de población filipina en 2017. Viendo estas gráficas, podría afirmarse que se trata de una población mayormente agraria, en la que abundan los trabajos de campo. Además, las familias de la Región `NAT` son aquellas que más gastos tienen.

Para esta sección, han sido planteadas una serie de preguntas interesantes que pueden ser respondidas a través de visualizaciones:

**¿Qué porcentaje de la población tiene unos ingresos inferiores a 400000$ anuales** 

La mayoría ronda por debajo de los 400000 pesos filipinos por familia al año (en torno al 85%). A continuación, se realiza una subdivisión del conjunto de datos en 3 subconjuntos: familias con ingresos inferiores a 400000 pesos filipinos, familias con ingresos entre 400000 y 1100000 pesos filipinos, y el resto. Mediante diagramas de caja (boxplot) se observa como esta división permite tener 3 grupos de familias en función de sus ingresos sin valores atípicos (gráficas 2 y 3), pese a observar mayor dispersión (desigualdad de ingresos) en el grupo más favorecido económicamente.

```{r message=FALSE, warning=FALSE}

grupo1 <- datos_training %>%
  filter(Total.Household.Income < 400000)

ceros_restaurant <- datos_training %>% filter(Restaurant.and.hotels.Expenditure < 1)

grupo2y3 <- datos_training %>%
  filter(Total.Household.Income >= 400000)

grupo2 <- grupo2y3 %>%
  filter(Total.Household.Income < 1000000)

grupo3 <- grupo2y3 %>%
  filter(Total.Household.Income >= 1000000)


boxplot(datos_training$Total.Household.Income,
        border = c("red"),
        title="Diagrama de caja del conjunto de datos")

boxplot(grupo1$Total.Household.Income,
        border = c("red"),
        title="Diagrama de caja del grupo más desfavorecido económicamente")

boxplot(grupo2$Total.Household.Income,
        border = c("blue"),
        title="Diagrama de caja del grupo con ingresos 'medios'")

boxplot(grupo3$Total.Household.Income,
        border = c("green"),
        title="Diagrama de caja del grupo más favorecido económicamente")


```

**Cuál es la relación entre el consumo de comida y ropa respecto a los ingresos familiares?** 

Se decide filtrar por regiones y visualizar la cantidad de ingresos por familia a partir del tamaño de las burbujas.

**Bubble plot para ver la relación entre consumo de comida y de ropa respecto a los ingresos (tamaño de la burbuja) dividido por regiones (ciudades)**


```{r warning=FALSE}

datos_training %>%
  ggplot(aes(x=Clothing..Footwear.and.Other.Wear.Expenditure, y=Total.Food.Expenditure, size = Total.Household.Income, color = Region, scientific=F)) +
    geom_point(alpha=0.5) +
    scale_size(range = c(.1, 24), name="Ingresos")

```


**¿Cuáles son las profesiones más comunes de una familia Filipina?** 

Como se indicaba al principio de esta sección, la mayoría es una población agraria.

```{r message=FALSE, warning=FALSE}

# Profesiones más comúnes en Filipinas

by_common_jobs <- datos_occupation %>%na.omit()%>%
  group_by(Household.Head.Occupation) %>%
  summarise(Total = n()) %>%
  arrange(desc(Total)) %>%
  head(20) %>% ungroup()


ggplot(data = by_common_jobs) + geom_bar(mapping = aes(x = Household.Head.Occupation, y = Total), stat = "identity") + labs(title="Trabajos más comunes en familias filipinas") + theme(axis.text.x = element_text(angle = 30, hjust = 1))
```

**¿Cuáles son las regiones de Filipinas con más gastos?** 

Los datos tienen un gran número de valores atípicos, por lo que para ver el boxplot es necesario aplicar un logaritmo en base 10. Vemos que las familias de las regiones `CAR` y `NCR` son aquellas que más gastos tienen

```{r warning=FALSE}

# Región y gastos

by_region_educ <- datos_occupation %>%
  group_by(Region, Education.Expenditure, Housing.and.water.Expenditure) %>% 
  summarise(Total = n()) %>%
  arrange(desc(Total)) %>% ungroup()


# Para ver el boxplot es necesario transformar la variable

ggplot(by_region_educ, aes(x=Region, y=Education.Expenditure)) + geom_boxplot(color="black", fill="orange", alpha = 0.6) + scale_y_log10() + labs(title="Gasto de educación por regiones") + theme(axis.text.x = element_text(angle = 30, hjust = 1))


```

## 5. Imputación de datos faltantes y tratamiento de variables

### 5.1 Método KNN

Una vez hecho el análisis EDA, con un mejor conocimiento de los datos disponibles, es hora de empezar a prepararlos para diseñar el modelo. 

El primer paso es un diagnóstico de valores faltantes, que tendremos que imputar con valores factibles.

Se recuerda que, a partir de ahora, se trabajará con el conjunto de datos `train`, ya que los datos `test` no serán utilizados hasta la última parte de este trabajo. Además, a la vista del apartado 4.4., se decide trabajar con el grupo 1, para evitar tener una segmentación de la población.

**Cálculo del número total de NA en el conjunto de datos de train**
  
  
```{r warning=FALSE}


datos_training <- grupo1
var_train_cat <- datos_training%>%select_if(is.factor)
var_train_num <- datos_training%>%select_if(is.numeric)

# ----- Detección e imputación de datos faltantes -----

# Cálculo del número total de NA en el conjunto de datos de train

length(which(is.na(datos_training)))
```

**Cálculo del número total de filas que contienen al menos un NA en el conjunto de datos de train**

```{r warning=FALSE}
# Cálculo del número total de filas que contienen al menos un NA en el conjunto de datos de train

length(which(!complete.cases(datos_training)))

```

Se observa que existen bastantes valores NA en el conjunto, pero todos corresponden a las variables cualitativas. Se muestra gráficamente como se distribuyen los NA en el conjunto de datos correspondiente a las variables cualitativas.

**Número de NA en el conjunto de variables cuantitativas**

```{r}
length(which(is.na(var_train_num)))
```

**Número de NA en el conjunto de variables cualitativas**

```{r}
length(which(is.na(var_train_cat)))
```

```{r warning=FALSE}

# Número de NA en el conjunto de variables cuantitativas y en el conjunto de las cualitativas


# Visualización gráfica de la distribución de NA en el conjunto de datos correspondiente a las variables cualitativas

aggr_plot<-aggr(var_train_cat
                ,numbers=TRUE,sortVars=TRUE,
                labels=names(var_train_cat)
                ,cex.axis=.7,gap=3
                ,ylab=c('Histograma de datos faltantes','Patrones de datos faltantes'),
                only.miss=TRUE)


# Tabla de contingencias de las variables cuyos NA serán imputados

table_pre_Tenure<-prop.table(table(var_train_cat$Tenure.Status))
table_pre_Worker<-prop.table(table(var_train_cat$Household.Head.Class.of.Worker))
table_pre_Walls<-prop.table(table(var_train_cat$Type.of.Walls))
table_pre_Roof<-prop.table(table(var_train_cat$Type.of.Roof))

# Summary de las 4 variables cuyos NA serán imputados

summary_Tenure <- summary(var_train_cat$Tenure.Status)
summary_Worker <- summary(var_train_cat$Household.Head.Class.of.Worker)
summary_Walls<-summary(var_train_cat$Type.of.Walls)
summary_Roof<-summary(var_train_cat$Type.of.Roof)

```

Al decidir qué método de imputación de datos faltantes utilizar, es conveniente tener en cuenta que se está trabajando tratando con variables categóricas, y que el modelo a diseñar será una regresión lineal múltiple.

Por ello, una buena opción es el método no lineal KNN (k nearest neighbors), el cual calcula la distancia del elemento nuevo a cada uno de los existentes, y ordena dichas distancias de menor a mayor para ir seleccionando el grupo al que pertenece. Por lo tanto, dicho grupo será aquel que tenga una menor distacia con la mayor frecuencia.

```{r warning=FALSE}

# Imputación de los valores NA usando el método no lineal kNN (k nearest neighbors)

var_train_cat <- VIM::kNN(var_train_cat,variable='Tenure.Status',impNA=TRUE)
var_train_cat$Tenure.Status_imp<-NULL
var_train_cat <- VIM::kNN(var_train_cat,variable='Household.Head.Class.of.Worker',impNA=TRUE)
var_train_cat$Household.Head.Class.of.Worker_imp<-NULL
var_train_cat <- VIM::kNN(var_train_cat,variable='Type.of.Walls',impNA=TRUE)
var_train_cat$Type.of.Walls_imp<-NULL
var_train_cat <- VIM::kNN(var_train_cat,variable='Type.of.Roof',impNA=TRUE)
var_train_cat$Type.of.Roof_imp<-NULL


# Comprobación de que se han eliminado todos los NA del conjunto de variables categóricas

length(which(is.na(var_train_cat)))

# Calculamos las tablas de contingencia tras haber imputado los NA con kNN

table_pos_Tenure<-prop.table(table(var_train_cat$Tenure.Status))
table_pos_Worker<-prop.table(table(var_train_cat$Household.Head.Class.of.Worker))
table_pos_Walls<-prop.table(table(var_train_cat$Type.of.Walls))
table_pos_Roof<-prop.table(table(var_train_cat$Type.of.Roof))

```

Finalmente, se comprueba que las proporciones no se han visto afectadas por la imputación,. Para ello, se restan las proporciones antes y después de imputar, y se comprueba que la variación es muy pequeña.

```{r warning=FALSE}
# Comprobación de que las proporciones no se han visto afectadas por la imputación

porc_dif_Tenure <- (table_pos_Tenure*100)-(table_pre_Tenure*100)
porc_dif_Worker <- (table_pos_Worker*100)-(table_pre_Worker*100)
porc_dif_Walls <- (table_pos_Walls*100)-(table_pre_Walls*100)
porc_dif_Roof <- (table_pos_Roof*100)-(table_pre_Roof*100)


porc_dif_Tenure
porc_dif_Worker
porc_dif_Walls 
porc_dif_Roof
```

Variable porc_dif_Tenure

```{r warning=FALSE}
porc_dif_Tenure
```

Variable porc_dif_Worker

```{r warning=FALSE}
porc_dif_Worker
```

Variable porc_dif_Walls

```{r warning=FALSE}
porc_dif_Walls 
```

Variable porc_dif_Roof

```{r warning=FALSE}
porc_dif_Roof
```


### 5.2 Transformación de variables

Para utilizar un modelo de regresión lineal múltiple, es muy conveniente que se cumplan las siquientes condiciones:

* Las variables tienen que tener distribución normal (en la medida de lo posible).
* Las variables no deben estar altamente correlacionadas entre sí.

Por lo tanto, para poder aplicar un modelo de regresión multiple a las variables numéricas del presente trabajo, es necesario plantear una transformación para que se acerquen lo más posible a una distribución normal. Se recuerda que durante el análisis eda, se constató que la mayoría de las variables mostraban un sesgo a la derecha, lo cual podría estropear el diseño del modelo (distribuciones no normales).

A continuación, se procede a aplicar una transformación a las variables: el logaritmo decimal. Se irán mostrando los histogramas de cada variable tras realizar la transformación, de manera que sea posible apreciar aquellas distribuciones que se han conseguido acercar a la distribución normal.

NOTA: todos los valores iguales a 0, cuya transformación resulta en -Infinito, han sido imputados a un valor 0, para no entorpecer la visualización.

```{r warning=FALSE, message=FALSE}

# Transformación logarítmica, que produce que los valores iguales a 0 se transformen a -Inf (por la definición del logaritmo)

var_train_num_Log<- log10(var_train_num)

# Se imputan los valores -Infinito a valor 0, para no entorpecer la visualización y el procesado

Log_sin_inf <- replace(var_train_num_Log,var_train_num_Log=="-Inf",0) 

# Histogramas de las variables cuantitativas transformadas con el logaritmo


qplot(Log_sin_inf[1:7000,1],
      geom="histogram",
      main = "Histogram for Total Household Income", 
      xlab = "Total Household Income",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,2],
      geom="histogram",
      main = "Histogram for Total Food Expenditure", 
      xlab = "Total Food Expenditure",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,3],
      geom="histogram",
      main = "Histogram for Bread.and.Cereals.Expenditure", 
      xlab = "Bread.and.Cereals.Expenditure",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,4],
      geom="histogram",
      main = "Histogram for Total Rice Expenditure", 
      xlab = "Total Rice Expenditure",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,5],
      geom="histogram",
      main = "Histogram for Meat.Expenditure", 
      xlab = "Meat.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,6],
      geom="histogram",
      main = "Histogram for Total.Fish.and..marine.products.Expenditure", 
      xlab = "Total.Fish.and..marine.products.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,7],
      geom="histogram",
      main = "Histogram for Fruit.Expenditure", 
      xlab = "Fruit.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,8],
      geom="histogram",
      main = "Histogram for Vegetables.Expenditure", 
      xlab = "Vegetables.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,9],
      geom="histogram",
      main = "Histogram for Restaurant.and.hotels.Expenditure", 
      xlab = "Restaurant.and.hotels.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,10],
      geom="histogram",
      main = "Histogram for Alcoholic.Beverages.Expenditure", 
      xlab = "Alcoholic.Beverages.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,11],
      geom="histogram",
      main = "Histogram for Tobacco.Expenditure", 
      xlab = "Tobacco.Expenditure",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,12],
      geom="histogram",
      main = "Histogram for Clothing..Footwear.and.Other.Wear.Expenditure", 
      xlab = "Clothing..Footwear.and.Other.Wear.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,13],
      geom="histogram",
      main = "Histogram for Housing.and.water.Expenditure", 
      xlab = "Housing.and.water.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,14],
      geom="histogram",
      main = "Histogram for Imputed.House.Rental.Value", 
      xlab = "Imputed.House.Rental.Value",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,15],
      geom="histogram",
      main = "Histogram for Medical.Care.Expenditure", 
      xlab = "Medical.Care.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,16],
      geom="histogram",
      main = "Histogram for Transportation.Expenditure", 
      xlab = "Transportation.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,17],
      geom="histogram",
      main = "Histogram for Communication.Expenditure", 
      xlab = "Communication.Expenditure",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,18],
      geom="histogram",
      main = "Histogram for Education.Expenditure", 
      xlab = "Education.Expenditure",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,19],
      geom="histogram",
      main = "Histogram for Miscellaneous.Goods.and.Services.Expenditure", 
      xlab = "Miscellaneous.Goods.and.Services.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,20],
      geom="histogram",
      main = "Histogram for Special.Occasions.Expenditure", 
      xlab = "Special.Occasions.Expenditure",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,21],
      geom="histogram",
      main = "Histogram for Crop.Farming.and.Gardening.expenses", 
      xlab = "Crop.Farming.and.Gardening.expenses",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,22],
      geom="histogram",
      main = "Histogram for Total.Income.from.Entrepreneurial.Acitivites", 
      xlab = "Total.Income.from.Entrepreneurial.Acitivites",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,23],
      geom="histogram",
      main = "Histogram for Household.Head.Age", 
      xlab = "Household.Head.Age",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,24],
      geom="histogram",
      main = "Histogram for Total.Number.of.Family.members", 
      xlab = "Total.Number.of.Family.members",  
      fill=I("blue"), 
      col=I("red"))
	  
	  
qplot(Log_sin_inf[1:7000,25],
      geom="histogram",
      main = "Histogram for Total.number.of.family.members.employed", 
      xlab = "Total.number.of.family.members.employed",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,26],
      geom="histogram",
      main = "Histogram for House.Floor.Area", 
      xlab = "House.Floor.Area",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,27],
      geom="histogram",
      main = "Histogram for House.Age", 
      xlab = "House.Age",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,28],
      geom="histogram",
      main = "Histogram for Number.of.bedrooms", 
      xlab = "Number.of.bedrooms",  
      fill=I("blue"), 
      col=I("red"))


qplot(Log_sin_inf[1:7000,29],
      geom="histogram",
      main = "Histogram for Number.of.Television", 
      xlab = "Number.of.Television",  
      fill=I("blue"), 
      col=I("red"))


qplot(Log_sin_inf[1:7000,30],
      geom="histogram",
      main = "Histogram for Number.of.CD.VCD.DVD", 
      xlab = "Number.of.CD.VCD.DVD",  
      fill=I("blue"), 
      col=I("red"))
	  
qplot(Log_sin_inf[1:7000,31],
      geom="histogram",
      main = "Histogram for Number.of.Component.Stereo.set", 
      xlab = "Number.of.Component.Stereo.set",  
      fill=I("blue"), 
      col=I("red"))


qplot(Log_sin_inf[1:7000,32],
      geom="histogram",
      main = "Histogram for Number.of.Refrigerator.Freezer", 
      xlab = "Number.of.Refrigerator.Freezer",  
      fill=I("blue"), 
      col=I("red")) 


qplot(Log_sin_inf[1:7000,33],
      geom="histogram",
      main = "Histogram for Number.of.Washing.Machine", 
      xlab = "Number.of.Washing.Machine",  
      fill=I("blue"), 
      col=I("red"))


qplot(Log_sin_inf[1:7000,34],
      geom="histogram",
      main = "Histogram for Number.of.Airconditioner", 
      xlab = "Number.of.Airconditioner",  
      fill=I("blue"), 
      col=I("red"))


qplot(Log_sin_inf[1:7000,35],
      geom="histogram",
      main = "Histogram for Number.of.Car..Jeep..Van", 
      xlab = "Number.of.Car..Jeep..Van",  
      fill=I("blue"), 
      col=I("red")) 


qplot(Log_sin_inf[1:7000,36],
      geom="histogram",
      main = "Histogram for Number.of.Landline.wireless.telephones", 
      xlab = "Number.of.Landline.wireless.telephones",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,37],
      geom="histogram",
      main = "Histogram for Number.of.Cellular.phone", 
      xlab = "Number.of.Cellular.phone",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,38],
      geom="histogram",
      main = "Histogram for Number.of.Personal.Computer", 
      xlab = "Number.of.Personal.Computer",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,39],
      geom="histogram",
      main = "Histogram for Number.of.Stove.with.Oven.Gas.Range", 
      xlab = "Number.of.Stove.with.Oven.Gas.Range",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,40],
      geom="histogram",
      main = "Histogram for Number.of.Motorized.Banca", 
      xlab = "Number.of.Motorized.Banca",  
      fill=I("blue"), 
      col=I("red"))

qplot(Log_sin_inf[1:7000,41],
      geom="histogram",
      main = "Histogram for Number.of.Motorcycle.Tricycle", 
      xlab = "Number.of.Motorcycle.Tricycle",  
      fill=I("blue"), 
      col=I("red"))

```

Con esta transformación, se consiguen buenos resultados en general. Muchas variables adquieren distribuciones normales o casi normales, lo que permitirá poder utilizarlas en el diseño del modelo. Sin embargo, hay otras que supondrían un problema, pues tienen distribuciones muy asimétricas.

Algunas variables presentan un porcentaje muy alto de valores iguales a 0, lo que produce un polo en el extremo izquierdo de la distribución. Esto es debido a que la población filipina cuenta con un gran número de familias que viven en condiciones extremas de pobreza (aunque desde 2018, su situación económica está mejorando considerablemente).

En el siguiente apartado, se tendrá en cuenta lo analizado, para descartar aquellas variables cuya distribución no encaje con los requisitos, y partiendo del conjunto de datos transformados logarítmicamente.


## 6. Análisis de correlación

Recordamos las condiciones  óptimas de cualquier modelo de regresión lineal múltiple:

* Las variables tienen que tener distribución normal y ser simétricas
* Las variables no pueden estar altamente correlacionadas entre sí

Por lo tanto, y a la vista del apartado anterior, se partirá del conjunto de variables transformadas logarítmicamente. Además, serán descartadas aquellas variables con distribuciones claramente asimétricas. Después, mediante un análisis de la correlación entre pares de las variables matrices, se rechazarán las variables altamente correladas entre sí a la hora de diseñar el modelo de regresión lineal múltiple.


```{r warning=FALSE}

# ----- Descarte de variables que no tienen distribuciones normales/simétricas -----
#-Imputed.House.Rental.Value, 
#-Restaurant.and.hotels.Expenditure,
Log_reduced <- Log_sin_inf%>%select(
-Imputed.House.Rental.Value, 
-Alcoholic.Beverages.Expenditure,    
-Tobacco.Expenditure,                          
-Restaurant.and.hotels.Expenditure,     
-Medical.Care.Expenditure,                     
-Communication.Expenditure,                   
-Education.Expenditure,                        
-Total.number.of.family.members.employed,  
-Special.Occasions.Expenditure,              
-Crop.Farming.and.Gardening.expenses,
-Total.Income.from.Entrepreneurial.Acitivites,
-Number.of.bedrooms,                           
-Number.of.Television,                         
-Number.of.CD.VCD.DVD,                       
-Number.of.Component.Stereo.set,                
-Number.of.Refrigerator.Freezer,              
-Number.of.Washing.Machine,                    
-Number.of.Airconditioner,                     
-Number.of.Car..Jeep..Van,                      
-Number.of.Landline.wireless.telephones,       
-Number.of.Cellular.phone,                      
-Number.of.Personal.Computer,                 
-Number.of.Stove.with.Oven.Gas.Range,           
-Number.of.Motorized.Banca,                   
-Number.of.Motorcycle.Tricycle)

# Cálculo de la matriz de correlaciones cruzadas

cor_matrix_log_reduced <- round(cor(Log_reduced),4)

```

Una vez seleccionadas solo aquellas variables que tienen distribuciones simétricas, se procede a mostrar un mapa de calor de la matriz de correlaciones cruzadas:

```{r warning=FALSE}
#----- Mapa de calor de la matriz de correlaciones cruzadas----------

mapa_corr <- melt(cor_matrix_log_reduced)
ggplot(data = mapa_corr, aes(x =X1, y =X2, fill =value)) + geom_tile() + theme(axis.text.x = element_text(angle = 60, vjust= 1, size = 6, hjust = 1)) + theme(axis.text.y = element_text( vjust= 1, size = 5, hjust = 1))


```

## 7. Selección de variables y modelo

Es conveniente evitar variables altamente correlacionadas entre sí, descartando de cada par la que más correlada esté con todas las demás. En el análisis no se incluirá la variable a predecir ("Total.Household.Income").

Se aplica un **umbral de valor absoluto igual a 0.5**, para filtar aquellas variables correladas entre sí por encima de él.

```{r warning=FALSE}

# ----- Selección de variables ----- #

# Subconjunto sin la variable "income" a predecir

sin_income_log <- Log_reduced[,c(2:length(Log_reduced))]

# Descarte de variables altamente correlacionadas (findCorrelation)

index_log<-findCorrelation(cor(sin_income_log),cutoff =.5,verbose = TRUE,exact = TRUE)

sin_income_log <- sin_income_log%>%select(-index_log)


# Con el nuevo conjunto de variables, se calcula la matriz de correlación

new_var_train_log<-cbind(Total.Household.Income=Log_reduced[,1],sin_income_log)

cor_mat_log<-cor(new_var_train_log)

cor_mat_log<-cor_mat_log[,order(cor_mat_log[1,],decreasing = T)]

```

Mapa de calor tras descartar ciertas variables y ordenando el resto de variables seleccionadas frente al income por valor de correlación descendente (fijarse en la última fila de la matriz):

```{r warning=FALSE}

ggcorrplot(t(cor_mat_log), method = "circle") # Representación gráfica del mapa de calor


# Se escogerán las que tengan una correlación > de 0.5 con respecto al "Total.Household.Income"

Variables_ordenadas<-data.frame(t(cor_mat_log)[,'Total.Household.Income']) # Es para quedarse con la columna ordenada
colnames(Variables_ordenadas)<-'Coef. Corr'
View(Variables_ordenadas)

```


## 8. Ajuste, interpretación y diagnosis del modelo de regresión lineal múltiple

Se realiza la regresión lineal múltiple con las variables cuyo valor de correlación con el Income es superior a 0.4. Después, se calculan los residuos, los valores ajustados, y se visualizan:

```{r warning=FALSE}

# Se realiza la regresión lineal múltiple con las variables cuyo valor de correlación con el Income es superior a 0.4
RLM<-lm(Total.Household.Income~Housing.and.water.Expenditure
          +Transportation.Expenditure
          +Clothing..Footwear.and.Other.Wear.Expenditure
          +Fruit.Expenditure
          ,data=new_var_train_log)


# Cálculo de residuos del modelo

residuos <-(residuals(RLM))

# Calculo de los valores ajustados con las observaciones de entrenamiento

valores.ajustados <- (fitted(RLM))

# Verificación de la no relación lineal entre valores predichos y  residuos

plot(valores.ajustados, residuos,col="black")


```

# Resumen del modelo diseñado:

```{r warning=FALSE}

# Valores de los betas estimados en la regresión lineal múltiple

summary(RLM)

```

* El gráfico de dispersión no arroja buenos resultados. La información que de él se obtiene es que, para cada valor predicho, la varianza no es constante. Este gráfico también podría estar informando de que las variables seleccionadas para el modelo de regresión lineal no son quizá las más adecuadas.

* Se obtiene un R-squared de 0.6747, lo cual parece indicar que con las variables elegidas se estaría explicando casi el 70% de la varianza de los ingresos (variable a predecir).

* Las estimaciones de los betas tienen asociados un p-valor más pequeño que un nivel de significancia de 0.05, lo que indica que es muy poco probable que los betas estimados sean nulos. 

* El p-valor asociado al F-statistic es muy pequeño, menor que el nivel de significancia 0.05, por lo queel modelo es estadísticamente significativo y que las variables elegidas explican algo de la variable a predecir.

Para comprobar que el resultado es correcto, se observa en la próxima gráfica si los residuos siguen una distribución normal. Para ello, se representa el gráfico Q-Q que compara los cuantiles teóricos de una normal con los calculados. Cuantos más puntos caigan en la recta, mejor. Además, se realiza un test de normalidad con las siguientes hipótesis:

* H0: los datos proceden de una distribución normal

* H1: los datos no proceden de una distribución normal

```{r warning=FALSE, message=FALSE}

qqnorm(residuos)

qqline(residuos)
ks.test(residuos,pnorm,mean=mean(residuos),sd=sd(residuos))
residuos<-as.data.frame(residuos)
ggplot(residuos, aes(x=residuos)) + 
 geom_histogram(color='blue',fill='orange',aes(y=..density..), alpha=0.5, 
                position="identity")+
 geom_density(color='red',alpha=.2) 
residuos%>%summarise(media=mean(residuos),
                            max=max(residuos),
                            min=min(residuos),
                            sd=sd(residuos),
                            var=var(residuos))
```

Si se observan el histograma y el gráfico Q-Q, parece que los residuos siguen una distribución normal. Sin embargo, en el test de normalidad se obtiene un p-valor muy pequeño, cercano al nivel de significancia alpha = 0.05.


# Validación del modelo

Utilizando el conjunto de test (30% de las observaciones) separado al principio, se evaluará el modelo, para ver sus prestaciones a la hora de calcular los ingresos.

Visualizamos los residuos obtenidos:

```{r warning=FALSE}

# Del conjunto de test, se seleccionan las variables adecuadas

pre_datos_testing_original <- datos_testing %>% filter(Total.Household.Income < 400000)


pre_datos_testing <- pre_datos_testing_original%>%select(Housing.and.water.Expenditure,
                                                Transportation.Expenditure
          ,Clothing..Footwear.and.Other.Wear.Expenditure
        ,Fruit.Expenditure)


# Es necesario transformar logarítmicamente el conjunto de test antes de usarlo para validar, pues el conjunto de train estaba transformado logarítmicamente

pre_datos_testing<-log10(pre_datos_testing)


# Quitamos los valores -Inf transformandolos a 0

pre_datos_testing <- replace(pre_datos_testing,pre_datos_testing=="-Inf",0) 


# Predicción con el modelo de RLM calculado

predichos_log <- predict(RLM,pre_datos_testing)

# Calculo de los residuos en el dominio transformado (log10)
valores_reales_log<-log10(pre_datos_testing_original$Total.Household.Income)
residuos_log<-valores_reales_log  -predichos_log
```


Es conveniente representar los residuos frente a los valores predichos en el dominio transformado (log10)

```{r warning=FALSE}
# Es conveniente representar los residuos frente a los valores predichos en el dominio transformado (log10)
plot(predichos_log,residuos_log)
```

Se puede observar que el gráfico no varía mucho con respecto al mismo gráfico representado anteriormente (utilizando el conjunto de training):

```{r warning=FALSE}
df_comp_log10<-data.frame(predichos_log10=predichos_log,Valores_reales_log=valores_reales_log)

# Se obtienen, en un vector, los valores reales para compararlos con los predichos. Para ello, se calculan sus residuos

Valores_reales<-(pre_datos_testing_original$Total.Household.Income)

Valores_predichos<-10^(predichos_log)

# Calculamos los residuos

residuos<-Valores_reales-Valores_predichos

```


Son representados en un gráfico de dispersión los valores predichos por el modelo con los residuos en unidades normales (deshaciendo el logaritmo)

```{r warning=FALSE}
# Representamos en un gráfico de dispersión los valores predichos por el modelo con los residuos en unidades normales (deshaciendo el logaritmo)
plot(Valores_predichos,residuos)
```

Se muestra una comparativa entre los valores predichos y los reales:

```{r warning=FALSE}
#Comprobamos los valores predichos y originales en los dos dataFrames siguientes:
df_com_original<-data.frame(predichos=Valores_predichos,reales=Valores_reales,residuos=residuos)

#Originales
df_com_original

#Queremos ver cuanto nos equivocamos viendo los residuos
df_com_original%>%summarise(media=mean(residuos),
                            max=max(residuos),
                            min=min(residuos),
                            sd=sd(residuos),
                            var=var(residuos))
```

Se debe tener en cuenta que los valores de ingresos (predichos y reales) están en moneda filipina, y que la equivalencia a euros es: 1 peso filipino --> 0.018 euros. 

A la vista del máximo y del mínimo del valor absoluto de los residuos, se puede comprobar que este modelo llega a equivocarse en un máximo de 313226.72 que son: `r 313226.72 * 0.018` euros.


Para comprobar la normalidad de los residuos, se utiliza el gráfico Q-Q que compara los cuantiles teóricos de una normal con los calculados. Cuantos más puntos caigan en la recta, mejor.

Llegados hasta este punto, resulta interesante mostrar el gráfico Q-Q, histograma y test de normalidad para los residuos.

* Datos transformados logarítmicamente:

```{r warning=FALSE, message=FALSE}
# Unidades logarítmicas
qqnorm(residuos_log)
qqline(residuos_log)
ks.test(residuos_log,pnorm,mean=mean(residuos_log),sd=sd(residuos_log))
residuos_log<-as.data.frame(residuos_log)
ggplot(residuos_log, aes(x=residuos_log)) + 
 geom_histogram(color='blue',fill='orange',aes(y=..density..), alpha=0.5, 
                position="identity")+
 geom_density(color='red',alpha=.2) 
residuos_log%>%summarise(media=mean(residuos_log),
                            max=max(residuos_log),
                            min=min(residuos_log),
                            sd=sd(residuos_log),
                            var=var(residuos_log))
```

* Datos sin transformar (en su escala original)

```{r warning=FALSE, message=FALSE}
# Unidades normales
qqnorm(residuos)
qqline(residuos)
ks.test(residuos,pnorm,mean=mean(residuos),sd=sd(residuos))
residuos<-as.data.frame(residuos)
ggplot(residuos, aes(x=residuos)) + 
 geom_histogram(color='blue',fill='orange',aes(y=..density..), alpha=0.5, 
                position="identity")+
 geom_density(color='red',alpha=.2) 
residuos%>%summarise(media=mean(residuos),
                            max=max(residuos),
                            min=min(residuos),
                            sd=sd(residuos),
                            var=var(residuos))
```

## Conclusiones

A lo largo del análisis, han sido descubiertas cosas interesantes que han sido de gran ayuda a la hora de definir un modelo de regresión lineal adecuado a los datos:

* La población filipina es una *población generalmente pobre*, y con muchas desigualdades. Esto conduce a encontrarse con muchos valores atípicos (familias más ricas) y problemas para definir un modelo integrando todos los elementos del data set.

* Existen *dos o más comportamientos diferentes* dentro del data set. Esto significa que, para desarrollar un modelo lógico que sea capaz de predecir los ingresos de una familia, deberemos diferenciar entre la familia filipina común (equivalente al 85% y mayoritariamente pobre) y la familia filipina de clase alta (aquellas que suponen valores atípicos y no son representativas de la situación económica más extendida).

* Al analizar una población con tanto nivel de pobreza, debemos entender que hay variables predictoras de los ingresos que en otras sociedades con menor desigualdad y menor escasez económica, si podrían tener significancia, pero en este tipo de datos no la tienen. Por ejemplo, variables como los gastos en ropa, en comunicación, o en bienes de lujo, cuentan con un alto porcentaje de ceros (0). El problema radica en entender que para este tipo de poblaciones, las cuales no gastan practicamente nada fuera de primera necesidad, existen otras variables más adecuadas para predecir los ingresos.


La población filipina debe tratarse como una población pobre, con variables predictoras del nivel de ingresos algo diferentes a otro tipo de población con menores desigualdades, o en todo caso más "lineales": niveles de ingresos más repartidos entre clases (que exista clase baja, media-baja, media, media alta y alta).