Cualquier consulta u observación es bienvenida en mi perfil de Github o en LinkedIn
El presente repositorio contiene el analisis de datos del internet fijo de Argentina entre 2014 y 2022, teniendo en cuenta variables como accesos, valocidad de baja y cobertura a nivel nacional y regional. El proyecto va desde la extracción de datos consultando una API gubernamental, pasando por una limpieza y analisis exploratorio de los datos, hasta la elaboración de una base de datos y de dashboards para comunicar los hallazgos encontrados.
raw_data
: Los datos sin procesar usados en este proyecto se tomaron directamente de la API gubernamental, pero si hay problemas de red en el servidor, hay una copia de seguridad en el archivoraw_data.zip
en la raíz de este repositorio.processed_data/
: contiene los datos transformados y limpios en formato CSV.notebooks/
: Incluye notebooks de Python para limpieza de datos, EDA y visualización. También hay un script de python que importa los datos de la API directamente.sql/
: Scripts de SQL de limpiezas menores, creación de dimensiones y relación de tablas.img/
: Incluye imágenes utilizadas en el readme.visualizations/
: Incluye graficos de Python, dashboards y archivos de Power BI para visualización de datos.
Los datos usados en este analisis fueron extraidos del Ente Nacional de Comunicaciones correspondientes al area de Acceso a Internet. Para esto, se consultó la documentación de la API para hallar la dirección de los datasets que se accede despues de solicitar una llave de autenticación. La información disponible en el servidor esta en tres presentanciones: datasets, los cuales son archivos de excel donde pueden existar mas de una tabla por archivo; datastreams, que son archivos csv que contienen una tabla por archivo. Estos datastream son desgloses de los dataset. Por ultimo, visualizaciones, como su nombre lo indica, son representaciones visuales de los datastream.
El link del dataset esta subrayado en azul, los datastream en rojo y las visualizaciones en amarillo
Como los datastreams ya estaban en .csv, se usaron estos como objetivo de extracción en lugar de los datasets que estan formato .xlsx Dirección de API usada para extraer datos de datastreams
El glosario de terminos que aparecen en las tablas se puede consultar en este enlace.
La mayoria de los archivos extraidos de la API tenian una buena integridad, por lo tanto se realizaron pocas operaciones sobre los dataframes. Las mayores transformaciones involucraron union (merge) de tablas para resumir el numero de archivos y 'despivotear' (melt) columnas en filas. Tambien se borraron las comas (entre otros caracteres especiales) de las todas las cifras donde estaban presentes para que no hayan problemas de interpretación de miles, millares y punto decimales.
Una vez comprobada la integridad de los datos y definidos los archivos, se realizó un analisis exploratorio de datos para investigar graficamente el comportamiento de la variables del dataset. Se encontraron hallazgos como el progreso continuo de accesos en las provincias, excepto en la Ciudad Federal, que registra un ligero estancamiento:
Accesos por año en las provincas de la region central
Este ligero estancamiento se explica por la gran cobertura de la ciudad en terminos de internet fijo, puede decirse que ha llegado a un techo.
Accesos por cada 100 hogares en las provincas de la region central
Este comportamiento tambien se observa al comparar las proporciones de los accesos. La proporcion de accesos de la Capital Federal disminuye con el tiempo, pero no es porque los accesos disminuyan, es porque los accesos se mantienen casi constantes mientras crecen en el resto del pais.
Otro comportamiento resaltable es de la provincia de San Luis. Los accesos de esta provincia se dispararon en el 2017, la razon de esto puede deberse a programas de inversion publicos o privado o a un cambio en la metodologia de medición.
La velocidad de bajada promedio tambien tiene una tendencia particular en San Luis, es la unica provincia donde baja en los ultimos periodos medidos.
En el contexto nacional, se presenta una bajada significativa en el rango de velocidad de 1 - 6 Mbps y una subida de +30 Mbps, esto potenciado por la presencia mayor de la fibra optica en el pais.
En terminos de accesos totales, el comportamiento teniendo en cuenta los trimestres es el esperado: conforme transucurren los trimestres, cada vez aumentan mas los accesos pues el ultimo trimestre recoge los resultados de los anteriores. Hay excepciones que se perciben en el segundo grafico de lineas, donde se notan disminuciones de accesos en algunos trimestres, la mas notoria en el ultimo trimestre del 2019.
Mapa de Accesos por cada 100 hogares con Plotly
Mapa de Accesos con Matplotlib
El analisis mas completo para las variables de velocidad, accesos y cobertura en todas las provincias puede encontrarse en el notebook dedidaco al EDA.
Los archivos .csv fueron importados a una base de datos para que sean usados por Power BI mas adelante. El motor usado fue MySQL 8.0.28 al cual se le introdujeron las tablas por medio del wizard de Workbench.
La codificación UTF-8 de MySQL no pudo reconocer tildes, por lo tanto, ademas de la creación de una tabla dimensional de provincias, se le realizó una pequeña limpieza antes de usar esos datos en Power BI.
Una vez lista la base de datos, se utilizó Power BI y su conexión con MySQL para realizar la toma de tablas de dicha base y la elaboración de dashboards que faciliten la lectura y analisis de los datos.
Conexión a una base de datos local desde Power BI
Usuario y Password de la base de datos local
Para complementar el analisis, también se importaron directamente a Power BI los archivos .csv de la población de Argentina y de los accesos de internet movil a través de los años, ademas de una tabla dimensional de provincias con información de latitud y longitud para realizar mapas de cobertura.
Los datos disponibles no disponen de fecha especificas, los atributos de tiempo corresponden a año y trimestre, para facilitar el uso de filtros, se creara una columna "fechaSimulada" en cada tabla con año y trimestre y luego se enlaza con una tabla dimensional de calendario.
FechaSimulada = DATE([Año], 3 * ([Trimestre] - 1 ) + 1, 1)
Los dashboards realizados con este modelo se muestran a continuación:
Dashboard de Accesos y Cobertura
Dashboard de Tipos de Conexion
El archivo .pbix esta en la carpeta de visualizations si se requiero un vistazo mas profundo,
- API Georef
- CAPAS SIG
- Población, total - Argentina
- Definiciones y conceptos
- Datos Abiertos de ENACOM
- Junar - Documentación de API v2
- En la Argentina ya hay más de 7 millones de accesos fijos a internet
- El 11,9 % de las conexiones a internet en Argentina son por fibra óptica
- Pandas, requests fueron las librerias usadas para la extracción y limpieza de datos.
- Matplotlib, Seaborn, Plotly fueron las librerias usadas para la visualización de datos.
- Power BI como herramienta de creación de dashboards.
- MySQL como motor de bases de datos.
- Visual Studio Code es el editor de código usado en este proyecto.