¿Te gustaría aprender Base de Datos con SQL Server?
Tenemos los diplomados que necesitas.¡Haz clic aquí!

Formatos de archivos

De seguro sabes que la data se puede almacenar en diferentes formatos de archivo. Éstos son algunos de los más comunes y utilizados:

CSV: (Comma Separated Values), si, son esos archivos cuyos valores están separados por comas. Es posible que hayas abierto este tipo de archivo con Excel antes. Los CSV separan los datos con un delimitador, un signo de puntuación que sirve para separar diferentes datos.

SQL: SQL (Structured Query Language) o Lenguaje Estructurado de Consulta, almacena datos en tablas relacionales. Si va de la derecha a una columna a la izquierda, obtendrá diferentes puntos de datos en la misma entidad (por ejemplo, una persona tendrá un valor en las categorías (columnas) EDAD, GENERO y ESTATURA).

JSON: Javascript Object Notation es un formato de archivo muy utilizado para el intercambio de datos ligero entre sistemas de software y además su estructura es legible por humanos, es decir, si abrimos este archivo, de seguro que sabrás interpretar la información que contiene.

Microsoft Excel

Excel es a menudo la herramienta de entrada a la ciencia de datos, y algo que cada científico de datos puede beneficiarse de su aprendizaje.

Excel le permite manipular fácilmente los datos, ademas podrás realizar ecuaciones en datos sin necesidad de aplicar conocimientos de programación en absoluto. Es una herramienta útil para los analistas de datos que quieren obtener resultados sin programación.

Excel es fácil de empezar, y es un programa que cualquiera que esté en analyticsintuitivamente entenderá. Puede ser útil para comunicar datos a personas que pueden no tener ninguna habilidad de programación: todavía deben ser capaces de jugar con los datos.

Por ejemplo, puedes utilizar excel para hacer lo siguiente: Importar de un pequeño conjunto de datos sobre las estadísticas de los resultados de los partidos de fútbol del campeonato local y hacer un gráfico de los máximos goleadores de la liga.

SQL

Todo proyecto de Data Science necesita datos. SQL es un lenguaje de programación especialmente diseñado para manipular y extraer datos de sistemas gestores de bases de datos relacionales, como MySQL, SQL Server, Oracle, etc.

SQL es la herramienta más popular utilizada por los analistas y científicos de datos.

La mayoría de los datos en el mundo se almacenan en tablas que requieren SQL para acceder. Podrás filtrar y ordenar los datos con él.

Por ejemplo, puedes utilizar SQL para realizar una consulta cuyo objetivo sea seleccionar los diez productos más vendidos en la temporada de invierno de una base de datos SQL de una Tienda Comercial.

Python

Python es un poderoso y versátil lenguaje de programación utilizado para múltiples propósitos, desde la creación de sitios y aplicaciones web hasta para proyectos Data Science. Python tiene muchas bibliotecas de código dedicadas a facilitar el trabajo de la ciencia de datos. Python es un lenguaje de programación versátil con una sintaxis simple que es fácil de aprender.

Python es el lenguaje de programación más popular que se enseña en las universidades de Estados Unidos y otros países con un desarrollo acelerado en proyectos tecnológicos.

Muchos científicos de datos usan Python para resolver sus problemas: el 40% de los encuestados en una encuesta definitiva de ciencia de datos realizada por O’Reilly utilizó Python, que era más del 36% que utilizó Excel.

Los ingenieros de datos y los científicos de datos utilizan Python para proyectos de conjuntos de datos de tamaño mediano a grande.

Por ejemplo puedes utilizar Python para consultar tweets de celebridades y luego hacer un análisis de las palabras más frecuentes que se utilizan al aplicar las reglas de programación.

Lenguaje de programación R

R es un entorno y lenguaje de programación diseñado para el análisis de datos. R brilla cuando se trata de construir modelos estadísticos y mostrar los resultados.

R es un elemento básico en la comunidad de ciencias de la información porque está diseñado explícitamente para las necesidades de ciencias de la información. Es el entorno de programación más popular en ciencias de la información con el 43% de los profesionales de datos que lo utilizan.

R es un entorno en el que se puede aplicar una amplia variedad de técnicas estadísticas y gráficas.

La comunidad aporta paquetes que, de forma similar a Python, pueden extender las funciones básicas de la base de código R para que puedan aplicarse a problemas específicos, como medir métricas financieras o analizar datos climáticos.

Los ingenieros de datos y los científicos de datos utilizarán R para conjuntos de datos de tamaño mediano a complejo.

Por ejemplo, puedes utilizar R para representar gráficamente los movimientos del mercado bursátil en los últimos cinco años.

Herramientas Big Data

¿Te imaginas cuánta información almacena Facebook en este momento?. Cuando hablamos de Big Data, hacemos referencia al almacenamiento de grandes volúmenes de datos y a los procedimientos usados para analizar la información y encontrar patrones repetitivos dentro de esos datos.

Cualquier conjunto de datos que es demasiado grande para herramientas de datos convencionales como SQL y Excel puede considerarse Big Data, de acuerdo con McKinsey. La definición más simple es que Big Data son aquellos datos que no caben en su computadora.

Entre las herramientas más usadas en proyectos de Big Data, tenemos:

Hadoop

La historia de Hadoop se inicia cuando Google descubre que requiere urgentemente de una solución que les permita continuar procesando datos al ritmo que crecía de manera exponencial su famoso buscador y todo su ecosistema.

Usando Hadoop, puedes almacenar tus datos en varios servidores mientras lo controlas desde uno.

La solución es una tecnología llamada MapReduce. MapReduce es una abstracción elegante que gestiona una serie de ordenadores como si fuera un único servidor central. Esto le permite almacenar datos en varios equipos, pero procesarlo a través de uno.

Hadoop es un ecosistema de herramientas open source que te permitirán almacenar enormes volúmenes de datos en diferentes servidores. Además le permite administrar mucho más datos de lo que puede en una sola computadora.

Los científicos de datos utilizan Hadoop para manejar grandes conjuntos de datos.

Por ejemplo usando Hadoop podrás almacenar conjuntos de datos masivos que se actualizan en tiempo real, como por ejemplo el número de likes que generan los usuarios de Facebook.

NoSQL

NoSQL hace referencia a los sistemas gestores de base de datos que difieren de almacenar la información de manera relacionada, es decir, administran base de datos con datos no integrados.

NoSQL incluye una gran cantidad de soluciones de almacenamiento de datos que separan grandes conjuntos de datos en trozos manejables.

NoSQL fue una tendencia iniciada por Google para hacer frente a las cantidades increíblemente grandes de datos que estaban almacenando. La información la almacenan en documentos de manera estructurada en el formato JSON, este formato es muy popular para el intercambio de datos entre sistemas. Las soluciones como MongoDB han creado bases de datos que pueden manipularse como tablas SQL, pero que pueden almacenar los datos con menos estructura y densidad.

Los científicos de datos utilizan base de datos NoSQL para almacenar grandes conjuntos de datos, como por ejemplo para almacenar bases de datos de sitios web que tienen millones de usuarios registrados.

Te esperamos en los siguientes artículos en donde hablaremos mas acerca de estos temas, los cuales hoy en día son de vital importancia en el mundo de la tecnología.

¿Te gustaría aprender Base de Datos con SQL Server?
Tenemos los diplomados que necesitas.¡Haz clic aquí!
About Author

NGuerrero

0 0 votos
Article Rating
Suscribir
Notificar de
guest
0 Comments
Comentarios.
Ver todos los comentarios
0
¿Te gusta este articulo? por favor comentax