cómo eliminar los caracteres no deseados de sus datos

Usar las funciones de programación r para limpiar los datos
En nuestro reciente post Tutorial de Python: ¿Cómo puedo eliminar los personajes no deseados que caminamos a través de los conceptos detrás de la limpieza de datos.

Demostramos varios enfoques diferentes de la depuración de datos, y también se mostró el uso de expresiones regulares.

Aquí vemos ese enfoque usando rstudio y las siguientes funciones:

Cómo abordar la limpieza de datos

Al eliminar los caracteres no deseados, quiere asegurarse de que tiene una lista definida de lo que no debe aparecer y le causará errores. También es esencial entender el tipo de errores de datos que pueden ocurrir de la siguiente manera:

  • Errores de entrada de datos
  • Las columnas de datos tienen un formato incorrecto, por ejemplo, los números de teléfono que tienen caracteres no numéricos
  • Los datos que faltan son necesarios, por ejemplo, valores nulos
  • Datos que no tienen sentido, por ejemplo, una fecha de nacimiento que está más allá del rango de lo que normalmente se esperaría ver
  • Valores duplicados para el mismo dato. El problema aquí es que esto puede inflar el no de los errores de los datos, y no dar una cuenta verdadera de los errores reales.

En el siguiente vídeo utilizamos el código de programación r utilizando las funciones anteriores, pero también utilizamos una declaración if para comprobar si un carácter no deseado está en el conjunto de datos primero, antes de proceder a eliminarlo y devolver los datos limpios.

Algunas de las estrategias para ayudar a contrarrestar los errores de los datos podrían incluir

  • Eliminar las entradas manuales
  • Los controles en el punto de entrada de los datos, por ejemplo para las fechas, sólo permiten formatos de fecha en el campo.
  • Reducir la duplicación de los datos a través de múltiples sistemas, reduce el número de lugares en los que pueden ocurrir diferencias de datos.
  • Si la integración de diferentes sistemas con los mismos datos en una red, realiza una limpieza de datos de antemano, reduce el trabajo necesario después para limpiar los problemas que conlleva.

 

R Tutorial: Cómo pasar datos entre funciones

Al empezar a mirar las funciones y después de haberlas probado en Python y Javascript, se vio rápidamente cómo los lenguajes de programación son tan similares.

Excepto por la sintaxis que se utiliza en cada uno, la programación es bastante similar.

El propósito de este video es:

  • Empieza a usar las funciones desde el principio.
  • No complique demasiado el ejemplo, manténgalo fácil de seguir.

Cómo escribir el código para pasar datos entre funciones

Como este es un video corto, el código que se utilizó para hacerlo es bastante sencillo

# crear una función
function.a <- function(){
  newvarb <- 2
}

function.b <- function(){
  newvarb <- function.a()*2 # esto toma el valor de la función a y lo multiplica por dos
}
print(function.b()) # Imprime el valor de la función b

A continuación se muestra el video que te llevará a través de cada línea, y muestra el resultado que buscamos lograr

¿Cómo podemos usar esto en nuestros proyectos

No importa qué lenguaje de programación use o elija aprender, el concepto de funciones aparecerá de alguna forma. Su capacidad para ejecutar rápidamente un proceso repetible y devolver un valor, que puede ser llamado desde cualquier lugar de un programa, permite al programador reducir su tiempo de codificación rápidamente y reducir las tareas repetitivas que sólo necesitan ejecutarse una vez.

Este video tiene un equivalente en Python, y puedes verlo aquí Funciones de Python - pasando datos entre ellos

Data Analytics Irlanda

Tutorial de R - Cómo ordenar las listas usando rstudio

Estás bromeando; ¡podemos ordenar las listas!
Sí, hemos conseguido traerles el innovador vídeo que ayudará a transformar su proyecto. Este vídeo es sólo una visión introductoria de cómo completar un tipo de lista, pero no todo es lo que parece.

Un par de cosas a tener en cuenta:

  • Crear una lista en Rstudio significa que es una lista que es todo.
  • Es necesario crear un vector para que una especie de los datos puedan dar el resultado deseado que se necesita.

Así que usando..:

#crea la lista
imprimir ("Ejemplo 1")
lista1 <-

te hará empezar, pero hay más que esto, sigue leyendo.

Cómo hemos solucionado esto...

Como verán en el siguiente video, hemos tomado una lista inicial y la hemos convertido en un vector usando la función c() en rstudio.

Algunas de las funciones utilizadas para clasificar son las siguientes:

  • clasificar
  • sort.int

El video explica las formas de usarlas, y algunas de las advertencias que debes tener en cuenta también.

 

 

Dejándote con este pensamiento final

Este video tiene un equivalente en pitón, así que si quieres ver cómo lo completamos allí, mira esta entrada del blog Cómo ordenar las listasen pitón

Análisis de datos Irlanda

R - Cómo comprobar que un archivo existe y no está vacío

Aquí hay otra forma de comprobar si un archivo está vacío, esta vez en R!
En el pasado reciente, publicamos acerca de Cómo comprobar si un archivo está vacío en Python, este post busca construir sobre eso y mostrarte en R Programación cómo obtener el mismo efecto.

Cuando se observan los dos lenguajes de programación, que aunque los conceptos son prácticamente iguales, la sintaxis utilizada para lograr el resultado puede ser ligeramente diferente; por lo tanto, ¡debes recordar en qué lenguaje estás cuando escribes el código!

Asegúrate de que los archivos existen y ábrelos, debes estar seguro de que están ahí 🙂

Como paso preliminar comprobamos si el archivo existe usando:

si(archivo.existe("archivo vacíoa.txt")
... el resto de su código

 

Entonces vamos a ver si el archivo está vacío o no. El código completo puede verse aquí.

Información adicional para ayudarte en el camino.

He referido este sitio antes, tiene algunas explicaciones muy útiles de las diferentes funciones y métodos, para los archivos de documentación Check R

Data Analytics Irlanda

 

R - Cómo abrir un archivo

¡¿En el estudio R has estado buscando por todas partes cómo abrir un archivo?! Bueno, no busques más ya que tenemos un video que responderá a tus preguntas.

Hoy vamos a cubrir las siguientes formas de acceso a los archivos:

  • tabla de lectura
  • read_excel
  • read.csv
  • readLines

Ya sea que tenga un archivo txt, CSV o XLSX, este video le ayudará a obtener su información para que pueda completar el análisis de los datos.

¿Qué pueden hacer esas funciones por usted, vamos a profundizar un poco más?

De la documentación que se encuentra aquí R Documentación - lea la tabla, podrá ver que esta función crea un marco de datos basado en el archivo que ha abierto. También le permite probar la función.

Si la Documentación R - leer excel es lo tuyo, entonces verás aquí que hace lo que dice en la lata, y también tiene algunas validaciones adicionales disponibles si las necesitas.

Si buscas una función casi idéntica a read.table, entonces read.csv es la única excepto por los valores por defecto. Se puede encontrar información adicional aquí en la Documentación R - más sobre read.csv

Por último, pero no por ello menos importante, R Documentation - readLines es una forma útil de abrir un archivo y puede utilizarse para leer parte o todo el texto de un archivo.

Envolviéndolo

Esta entrada del blog ha descrito una excelente elección de cómo abrir un archivo, y de hecho, la documentación anterior ayudará a explicarlo con más detalle. Hay un equivalente en Python de esto, y puedes obtenerlo en el siguiente enlace Python - Cómo importar datos de archivos

Data Analytics Irlanda

 

¿Qué es el lenguaje de programación r

El Proyecto R de Informática Estadística es beneficioso para cualquiera que necesite un análisis estadístico realizado en un conjunto de datos.

El lenguaje es

  • Código abierto para que cualquiera pueda usarlo.
  • Y puede funcionar en varias plataformas para cualquier sistema operativo en uso.
  • R puede funcionar con otros paquetes similares; un ejemplo fue Python, que puede ejecutarse dentro de R.
  • Como resultado, obtienes el poder del lado estadístico de R y la amplia variedad de funcionalidad de Python.

Una introducción a R más

Para empezar, hemos introducido algunas funciones fundamentales en este vídeo, y damos un recorrido por algunas de las pantallas que son visibles a medida que se trabaja en el proyecto de análisis de datos. Algunas de las cosas que verán:

  • Creando variables
  • Adición de variables
  • Escribir variables en un archivo CSV
  • Estamos guardando las variables en un archivo txt.
  • Asegurarse de que no hay cabeceras en el archivo.
  • Cargar datos de un archivo e imprimir su contenido en la pantalla.

https://www.youtube.com/watch?v=uZWF1RCbXHU[/embedyt]

Cómo hemos llegado hasta aquí

Para empezar y poder escribir su primer programa de R, un par de pasos como sigue:

  • Instale la R desde aquí, el sitio oficial del lenguaje R.
  • Para una excelente interfaz de usuario Instale R Studio

Ambas instalaciones son gratuitas y bien soportadas, fáciles de descargar y fáciles de instalar.

Data Analytics Irlanda