Análisis de datos con R

Contextualización y presentación de R y Rstudio



Traducido por

Softwares estadísticos

SAS, SPAD, SPSS… y R


Desde principios de la década de 2000, un nuevo software está ganando importancia y se está estableciendo gradualmente como un punto de referencia, al igual que los tres principales software de análisis de datos que dominan el mercado.

Se puede imaginar que los usuarios de software estadístico convergerán gradualmente hacia el software (lenguaje) R.

Software Propietarios son…

Pagando

Licencia SPSS Base edition

No son multiplataforma



Software/Sistemas Windows MacOS Linux BSD Otros Unix
SAS terminado no
SPAD no no no no
SPSS no no no
Stata no no

https://en.wikipedia.org/wiki/Comparison_of_statistical_packages

Son especializados


    • SPSS : orientado a las ciencias sociales
    • SPAD : orientado a la toma de decisiones
    • Stata : orientado a economistas y epidemiólogos
    • SAS : bastante completo, pero limitado en algunas áreas (ex: gráfica)


Ofrecen poco o nada de análisis de redes, de análisis de secuencias y lexicometría (excepto SPAD)… Y muy pocas funcionalidades de valorización.

Son limitados

La gestión centralizada inducida por los límites de:

    • Sostenibilidad
    • Libertad de uso
    • Compatibilidad con otros programas (formatos de salida)
    • Actualización y compatibilidad entre versiones
    • Desarrollo de nuevas funcionalidades
    • Idiomas disponibles (software y ayuda)
    • Recursos de información disponibles

Son obstáculos para :


    • La capacitación
    • La práctica
    • El trabajo colaborativo
    • El trabajo interdisciplinario
    • El trabajo reproducible


Por eso usamos R

Hermanos enemigos


Dos lenguajes utilizados para el análisis y el procesamiento de datos.
Muy a menudo se comparan por sus similares funcionalidades

La elección entre R o Python depende principalmente de
¿Quién soy y qué quiero hacer?

Dos comunidades

diferentes…

    • Comunidad accesible e inclusiva
    • Documentación rica y estructurada
    • Disciplina : análisis de datos
    • Profesiones : investigación & desarrollo


Especificaciones

R tiene tanto cerebro…

    • Más fácil de manejar (EDI Rstudio)
    • Análisis estadístico
    • Representación gráfica
    • Valorización (markdown, aplicación…)

Por los usuarios menos avanzados en la programación,
especializados en el análisis de datos

Historia de R


R se basa en el lenguaje de programación S, creado en 1988

    • 1992: R. Gentleman y R. Ihaka están comenzando el desarrollo (proyecto de investigación)
    • 1993: Primeras versiones binarias de R publicadas en Statlib
    • 1995: R se distribuyó por primera vez como software de código abierto, bajo la licencia GPL2
    • 1997: Creación del R core group. Creación del CRAN (por K. Jornik and F. Leisch)
    • 1999: El sitio web de R r-project.org es fundado. Primera reunión en persona del R core team
    • 2000: R 1.0.0 publicado. John Chambers (creador del lenguaje S), se une al R Core team
    • 2001: Creación de R News (que se convertirá en el R Journal)
    • 2003: Creación de la R Foundation
    • 2004: Primera Conferencia UseR! (Viena)
    • 2004: R 2.0.0 publicado
    • 2009: Primera edición del R Journal
    • 2013: R 3.0.0 publicado
    • 2015: Creación del R Consortium (con la participación de la R Foundation)

https://blog.revolutionanalytics.com/2017/10/updated-history-of-r.html

Apoyos importantes


Es el resultado de 30 años de investigación y desarrollo.


Varios agentes económicos importantes financian el desarrollo de R, como Microsoft, Google, Oracle, Esri


https://www.r-consortium.org/members.

Libre y multi-plataforma


    • R es un lenguaje y software libre (código abierto)


    • Es parte de la lista de paquetes de GNU GPLv3


    • R es multi-plataforma


Software/Sistemas Windows MacOS Linux BSD Otros Unix
R

Desarrollo ilimitado


R ofrece 2292 funciones estadísticas y gráficas estándar (primitivas)

Sobre esta base común, se pueden añadir muchas paquetes, puestas a disposición a través el Comprehensive R Archive Network (CRAN) :

    • Paquete quanteda - análisis de textos
    • Paquete igraph - análisis de la red
    • Paquete sf - manipulación de datos espaciales
    • Paquete shiny - aplicaciones web interactivas


R tiene una estructura modular que permite una amplia gama de posibles aplicaciones. La expansión sólo está limitada por las contribuciones.

Desarrollo ilimitado


Número de paquetes disponibles en el CRAN

Versátil


Los paquetes disponibles permiten operar en toda la cadena de procesamiento.De la recopilación de datos a la valorización de los resultados (gráfico, documento, sitio web…)


Esta versatilidad permite que R complemente, compita o incluso sustituya toda una gama de programas informáticos existentes.

Versátil


Una gran comunidad de usuarios…

https://benubah.github.io/r-community-explorer/rugs.html

…y de compañía

https://data-flair.training/blogs/r-careers/

Fiable


    • Implicación de importantes actores económicos (R Consortium)
    • Comunidad involucrada e importante
    • El funcionamiento de un software de código abierto es verificable
    • Todos los softwares tienen fallas, pero…


La información circula muy fácilmente en la comunidad de usuarios de software libre.

Trabajo reproducible


    • Un solo software para todas las etapas de procesamiento
    • Los trabajos son fácilmente archivados y compartidos (script)
    • Todo lo que necesitas es un ordenador para reproducirlos…


Reproducibilidad es el compartir y la transparencia

Los inconvenientes


    • R es sobre todo un lenguaje de programación


    • R y los recursos clave están en inglés


    • La interfaz es rudimentaria

¿Qué es Rstudio?


RStudio es una empresa que desarrolla y publica software y servicios basados en el lenguaje R. Es el protagonista privado más importante de la comunidad R.

Rstudio (o empleado) ha desarrollado varios paquetes de referencia. Ejemplos:

    • rmarkdown (producción de documentos)
    • shiny & flexdashboard (aplicación web & tablero de mandos)
    • ggplot2 (representación gráfica)
    • dplyr & tidyr (Manejo de tablas)
    • stringr (Manejo de cadena de caracteres)


Rstudio también ofrece un Entorno de Desarrollo Integrado (EDI), que facilita enormemente el uso de R.

Interfaz rudimentaria de R

Interfaz R en windows

EDI Rstudio

El EDI Rstudio

Puntos fuertes del EDI


    • Creación del proyecto
    • Funciones convertidas en botones
    • Autocompletado
    • Atajos de teclado


Porque es conveniente, completo y en constante evolución

¡Utiliza el entorno de RStudio!

Instalación

Instalar R


La instalación de R y el EDI de Rstudio se hace como cualquier otro software. Conéctese en CRAN para descargar R.


https://cran.r-project.org/

Instalar el EDI Rstudio

Descargue la versión ‘Desktop’ en la página web de Rstudio

https://rstudio.com/products/rstudio/download/

¡Vamos, vamos!

Sólo abre Rstudio (no R) para empezar

Diapositivas libres (CC BY 3.0)


Consulta:


Código fuente:


Documentación



Para los francófonos, encuentro en rzine.fr

Agradecimientos


Timothée Giraud (CNRS)

Violaine Jurie (Université de Paris)

Francois Rebaudo (IRD)

Bruno Condori (USDA/ARS)



REVEAL.JS