Estudio estadstico inferencial del incremento de Homicidios Intencionales para determinar la afectacin en el comportamiento delictual a la poblacin nacional a partir de la base de datos de Homicidio Intencional utilizando programacin en R.

 

Inferential statistical study of the increase in Intentional Homicide to determine the affectation of criminal behavior in the national population from the Intentional Homicide database using programming in R.

 

Estudo estatstico inferencial do aumento dos Homicdios Intencionais para determinar a afetao do comportamento criminoso na populao nacional a partir da base de dados de Homicdios Intencionais utilizando programao em R.

Juan Carlos Yungn Cazar I
jyungan@espoch.edu.ec
https://orcid.org/0000-0001-5682-0399     
,Katherine Adriana Merino Villa II
kathetine.merino@espoch.edu.ec
https://orcid.org/0009-0001-0616-9611
Edgar Gualberto Salazar lvarez III
edgar.salazar@espoch.edu.ec
https://orcid.org/0000-0003-0988-0641    
,Diego Alejandro Cceres Veintimilla IV
diego.caceres@espoch.edu.ec
 https://orcid.org/0000-0003-0498-1240
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Correspondencia: jyungan@espoch.edu.ec

 

 

Ciencias Tecnologas de la Informacin y la Comunicacin

Artculo de Investigacin

* Recibido: 23 de junio de 2023 *Aceptado: 12 de julio de 2023 * Publicado: 28 de agosto de 2023

 

        I.          Escuela Superior Politcnica de Chimborazo, Riobamba, Ecuador.

      II.          Ingeniera en Electrnica Telecomunicaciones y Redes Escuela Superior Politcnica de Chimborazo, Riobamba, Ecuador.

     III.          Escuela Superior Politcnica de Chimborazo. Riobamba, Ecuador.

     IV.          Escuela Superior Politcnica de Chimborazo. Riobamba, Ecuador.

 


Resumen

La programacin estadstica en R es un enfoque clave en la ciencia de datos que involucra el uso del lenguaje de programacin R para realizar anlisis estadsticos, manipulacin de datos, visualizacin y generacin de informes. Es ampliamente utilizado por profesionales en diversas disciplinas para analizar y comprender conjuntos de datos complejos. El proceso de recoleccin, almacenamiento, anlisis y visualizacin de datos contenidos en Bases de Datos gubernamentales en Ecuador mediante la programacin estadstica en R puede desglosarse de la siguiente manera: Se inicia accediendo a las Bases de Datos pblicas. Los datos recolectados se importan y almacenan en el entorno de trabajo de R. Es comn que los datos requieran preparacin antes del anlisis. Esto incluye la limpieza de valores atpicos, el tratamiento de valores faltantes y la transformacin de datos en el formato adecuado para su anlisis. Una vez que los datos estn preparados, se pueden realizar anlisis estadsticos utilizando diversas tcnicas, como estadsticas descriptivas, pruebas de hiptesis, anlisis de regresin, clustering, entre otros. La visualizacin de datos es fundamental para comunicar los resultados de manera efectiva. R proporciona paquetes como ggplot2, que permiten crear grficos de alta calidad. La generacin de Informes se lo realiza utilizando la herramienta R Markdown. Una vez que se han realizado los anlisis y generado los informes, los resultados pueden ser compartidos.

Palabras Clave: Programacin estadstica; Bases de datos estructuradas; prueba de hiptesis; ndices de homicidio.

 

Abstract

Statistical programming in R is a key approach in data science that involves using the R programming language to perform statistical analysis, data manipulation, visualization, and report generation. It is widely used by professionals in various disciplines to analyze and understand complex data sets. The process of collection, storage, analysis and visualization of data contained in government databases in Ecuador through statistical programming in R can be broken down as follows: It begins by accessing public databases. The collected data is imported and stored in the R framework. It is common for the data to require preparation before analysis. This includes cleaning outliers, handling missing values, and transforming data into the appropriate format for analysis. Once the data is prepared, statistical analyzes can be performed using various techniques, such as descriptive statistics, hypothesis testing, regression analysis, clustering, among others. Data visualization is critical to communicating results effectively. R provides packages such as ggplot2, which allow you to create high-quality plots. Report generation is done using the R Markdown tool. Once the analyzes have been carried out and the reports generated, the results can be shared.

Keywords: Statistical programming; Structured databases; hypothesis testing; homicide rates.

 

Resumo

A programao estatstica em R uma abordagem chave na cincia de dados que envolve o uso da linguagem de programao R para realizar anlise estatstica, manipulao de dados, visualizao e gerao de relatrios. amplamente utilizado por profissionais de diversas disciplinas para analisar e compreender conjuntos de dados complexos. O processo de coleta, armazenamento, anlise e visualizao dos dados contidos nas bases de dados governamentais do Equador atravs da programao estatstica em R pode ser dividido da seguinte forma: Comea pelo acesso s bases de dados pblicas. Os dados coletados so importados e armazenados na estrutura R. comum que os dados exijam preparao antes da anlise. Isso inclui a limpeza de valores discrepantes, o tratamento de valores ausentes e a transformao de dados no formato apropriado para anlise. Uma vez preparados os dados, as anlises estatsticas podem ser realizadas utilizando diversas tcnicas, como estatstica descritiva, teste de hipteses, anlise de regresso, agrupamento, entre outras. A visualizao de dados fundamental para comunicar resultados de forma eficaz. R fornece pacotes como ggplot2, que permitem criar grficos de alta qualidade. A gerao do relatrio feita atravs da ferramenta R Markdown. Uma vez realizadas as anlises e gerados os relatrios, os resultados podem ser compartilhados.

Palavras-chave: Programao estatstica; bases de dados estruturadas; testes de hiptesis; taxas de homicdios.

Introduccin

La programacin estadstica inferencial en R se erige como una herramienta poderosa para extraer conocimientos profundos de los datos. R es un lenguaje de programacin y un entorno especializado en estadsticas y anlisis de datos, que permite realizar anlisis inferenciales con eficiencia y precisin.

En este contexto, la utilizacin de bases de datos estructuradas cobra vital importancia. Estas bases organizan la informacin en tablas con filas y columnas, lo que facilita la gestin y manipulacin de datos. R se integra de manera perfecta con bases de datos estructuradas, permitiendo la conexin directa y la extraccin de informacin relevante para el anlisis estadstico.

Mediante la programacin estadstica inferencial en R, es posible realizar estimaciones de parmetros, pruebas de hiptesis y modelado predictivo a partir de los datos estructurados. Las libreras y funciones especializadas en estadsticas de R proporcionan las herramientas necesarias para llevar a cabo anlisis sofisticados y visualizar los resultados de manera efectiva.

 

Estadstica Inferencial - Descripcin Contrastes de Hiptesis.

Muchos problemas requieren decidir si se acepta o rechaza un enunciado acerca de algn parmetro (estadstico). Para esto, se considera hiptesis, y el procedimiento para la toma de decisiones en torno a probar o no la hiptesis, recibe el nombre de prueba de hiptesis. (Triola, 2004)

 

Contrastar una hiptesis consiste en probar un valor observado con un valor definido por el investigador, los mismos que se han desarrollado en muchos campos tales como:

       Agricultura, para decidir que fertilizante entrega los mejores resultados

       Medicina, para probar si un medicamento es mejor que otro

       Industria, para validar procesos orientados a mejorar y mantener estndares de calidad

       Entre muchos otros.

 

Metodologa

Algoritmo para realizar una prueba de hiptesis:

1.               Definir el valor a contrastar, por lo general es un valor determinado a priori por experiencia, regulaciones o experiencias realizadas anteriormente.

2.               Definir la hiptesis nula y la alternativa

3.               Determinar el nivel de error de la prueba (esto refiere al Error tipo I)

4.               Determinar la distribucin de contraste, por lo general depende del nmero de observaciones con que estemos trabajando

5.               Definir una regin de aceptacin o rechazo

6.               Estimar el valor a contrastar de las observaciones disponibles

7.               Decidir si aceptar o no la hiptesis nula.

 

Modelo para aplicar contraste de hiptesis

En el Ecuador a partir del ao 2018, se tiene un incremento en los Homicidios Intencionales (HI), afectando este comportamiento delictual a la poblacin nacional, estamos interesados en poder comprobar si este fenmeno delictual afecta a personas jvenes o no, y si afecta a hombres y mujeres jvenes. Para esto se plantear dos tipos de Contrastes de hiptesis:

       La primera comprobaremos si la media de las edades de fallecidos es igual a la edad de jvenes que segn la Organizacin Mundial de la Salud (OMS), se consideran personas jvenes, las comprendidas entre 10 y los 24 aos, para el propsito de nuestro anlisis consideraremos el punto medio es decir 17 aos en relacin con el total de fallecidos.

       Otra prueba que realizaremos consistir en probar si las edades medias que se tiene en HI son iguales en hombres y mujeres. (Santana, 2014)

 

Planteamiento del estudio:

El estudio consistir en dos actividades, la primera probaremos si el promedio de edad de HI en Ecuador es igual a la edad de jvenes definido anteriormente en 17 aos, es decir nuestra prueba es la siguiente:

Esa ser nuestra primera estimacin, y la segunda consiste en:

El segundo contraste considera dos poblaciones de Hombres y Mujeres de HI, se quiere probar si la edad de los HI es iguale entre hombres y mujeres as:

 

Tipo de base de datos a recabar para el estudio

Para ejecutar los dos contrastes planteados, se procedi a recabar la base de datos de Homicidios Intencionales, anonimizada para guardar la reserva de la informacin sensible las variables a considerar es la edad y sexo de la vctima, se tiene los datos en el periodo de 2018 hasta el 2021, desde Medicina Legal, institucin que realiza el protocolo de autopsia sobre toda muerte violenta y particularmente sobre los homicidios intencionales. (Hernndez, 2022)

 

Desarrollo del estudio

Para ejecutar los dos Contrastes de hiptesis, se utilizar la base de datos de Homicidio Intencional, por edad y sexo de la vctima desde el ao 2018 hasta el ao 2021 que consta de 6362 registros. Iniciamos con un anlisis exploratorio, iniciamos con un histograma (Donoso 2023)

Grfica 1. Edad de homicidios intencionales

La figura muestra el histograma de las edades en aos de los Homicidios intencionales registrados entre el 2018 y 2021 en Ecuador.

 

Contraste de la prueba:

data: pruebah$EDAD

t = 103.36, df = 6300, p-value < 2.2e-16

alternative hypothesis: true mean is not equal to 17

95 percent confidence interval:

34.24478 34.91154

sample estimates:

mean of x

34.57816

La prueba rechaza H0 con un nivel de error muy bajo, esto es los homicidios intencionales no se tiene en personas jvenes de 17 aos, la media estimada es de 35 aos aproximadamente.

Ahora realicemos la prueba de hiptesis para determinar si las edades en hombres y mujeres son iguales.

Para esto consideramos dos muestras independientes Hombres y Mujeres (Bruce, 2022)

Grfica 2. Edad de homicidios intencionales en hombres y mujeres

 

Se presenta un histograma de homicidios intencionales en hombres y mujeres segn la edad.

 

data: HombresHI and MujeresHI

t = 0.52708, df = 6294, p-value = 0.5982

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

-0.7756959 1.3462156

sample estimates:

mean of x mean of y

34.61383 34.32857

 

Al contrastar la prueba se tiene que no se rechaza la igualdad de edades medias, esto ya que, el p-valor es del 0.5982, esto indica que las edades en homicidios intencionales son similares entre hombres y mujeres. (Vsquez, 2022).

 

Discusin y resultados

Para la realizacin del presente taller, se trabaj con una base de datos reales de homicidios intencionales, adicional a esto para la prueba de la muestra total de edades como para la prueba de igualdad de edades medias entre hombres y mujeres, consideramos que provienen de una distribucin normal, as como la varianza desconocida pero constante y finita.

Los principales resultados que se obtuvo fue que la edad de los homicidios difiere de la edad de joven que es 17 aos, esto hace suponer que el comportamiento de este tipo de violencia puede estar asociado a diferentes factores que puede aumentar conforme aumenta la edad as en la prueba se tiene que el promedio de homicidios se tiene alrededor de los 34 aos.

Adicional a esto, al comparar la edad media de hombres y mujeres, se tiene que son iguales, lo que indica que las edades en hombres y mujeres que sufren este tipo de violencia es la misma, lo interesante sera profundizar el anlisis y poder determinar si existen otros factores asociados a este fenmeno delictual que pueda diferenciar el comportamiento en hombres y mujeres.

 

Conclusiones

1.     La programacin estadstica inferencial en R emerge como una herramienta poderosa para extraer conocimientos profundos de los datos. R, como lenguaje y entorno especializado en estadsticas y anlisis de datos, posibilita realizar anlisis inferenciales con precisin y eficiencia.

2.     La utilizacin de bases de datos estructuradas cobra vital importancia en este contexto. Estas bases organizan la informacin en tablas, facilitando la manipulacin y gestin de datos. La integracin fluida entre R y bases de datos estructuradas permite conexiones directas y extraccin de informacin relevante para anlisis estadsticos.

3.     La programacin estadstica inferencial en R permite realizar estimaciones de parmetros, pruebas de hiptesis y modelado predictivo a partir de datos estructurados. Las libreras y funciones especializadas en estadsticas de R proporcionan las herramientas necesarias para anlisis sofisticados y visualizacin efectiva de resultados.

4.     Los contrastes de hiptesis son esenciales para la toma de decisiones en diferentes campos como agricultura, medicina e industria. En este contexto, el texto presenta ejemplos especficos de contraste de hiptesis, como la comparacin de edades de vctimas de homicidios intencionales con una definicin de personas jvenes y la comparacin de edades entre hombres y mujeres.

5.     El anlisis de los homicidios intencionales en Ecuador revela que las edades de las vctimas difieren de la definicin de jvenes, lo que sugiere que el fenmeno delictual puede estar asociado a diversos factores a medida que aumenta la edad. Adems, se concluye que las edades medias de hombres y mujeres vctimas son similares, lo que plantea la posibilidad de profundizar en factores que puedan influir en este comportamiento delictivo diferencial entre gneros.

 

 

 

 

 

 

 

 

 

 

 

 

 

Referencias

Triola, F. M. (2004). Probabilidad y estadstica - Mario F. Triola - Google Libros. In Probabilidad y estadstica (Vol. 1).

Santana Seplveda, S., & Mateos Farfn, E. (2014). El arte de programar en R: un lenguaje para la estadstica.

Donoso, M. E. A., Maurisaca, N. E. C., & Reyes, J. E. A. (2022). Anlisis de Correspondencias Mltiples para el Estudio de los Homicidios Intencionales en el Ecuador. Revista Politcnica, 50(3), 43-52.

Hernndez Bringas, H. (2022). Homicidios en Amrica Latina y el Caribe: magnitud y factores asociados. Notas de poblacin.

Bruce, P., Bruce, A., & Gedeck, P. (2022). Estadstica prctica para ciencia de datos con R y Python. Marcombo.

Vsquez Snchez, E., & Ortiz Basauri, G. M. (2022). Estadstica Inferencial en la lgica de la investigacin cientfica.

 

 

 

 

 

 

 

 

 

 

2023 por los autores. Este artculo es de acceso abierto y distribuido segn los trminos y condiciones de la licencia Creative Commons Atribucin-NoComercial-CompartirIgual 4.0 Internacional (CC BY-NC-SA 4.0)

(https://creativecommons.org/licenses/by-nc-sa/4.0/).

Enlaces de Referencia

  • Por el momento, no existen enlaces de referencia
';





Polo del Conocimiento              

Revista Científico-Académica Multidisciplinaria

ISSN: 2550-682X

Casa Editora del Polo                                                 

Manta - Ecuador       

Dirección: Ciudadela El Palmar, II Etapa,  Manta - Manabí - Ecuador.

Código Postal: 130801

Teléfonos: 056051775/0991871420

Email: polodelconocimientorevista@gmail.com / director@polodelconocimiento.com

URL: https://www.polodelconocimiento.com/