La ciencia de los datos se refiere a un área emergente de trabajo preocupada en la recolección, preparación, análisis, visualización, manejo y preservación de grandes cantidades de información. Aunque el nombre “Ciencia de los datos” sugiere una conexión directa con áreas como bases de datos y ciencias de la computación, se requieren de diversos tipos de habilidades para tratar con datos, con información, incluyendo habilidades no matemáticas.
Así inicial el libro de Jeffrey Stanton, de la Escuela de los Estudios de la Información, de la Universidad de Syracusa. “An Introduction to Data Science” está disponible de forma gratuita . El trabajo está bajo la licencia Creative Commons como un PDF o bien, como un libro interactivo a través de iTunes.
A través del libro podrán hallarse muchos ejemplos de aplicaciones de la ciencia de los datos, implementadas en el lenguaje R. Para los principiantes de este lenguaje incluso se tiene un capítulo que los introduce a las estructuras de datos más comunes e incluso más, profundizando en tópicos como el análisis de los datos de Twitter, o bien, el trabajar con Hadoop a través de RHadoop, así como la creación de mapas de información. Se puede además descargar el código en R para su uso específico (también con licencia de código abierto).
Es claro que aquí hablamos de manejo de datos, una ciencia que en general no se ha establecido formalmente, pero debido a la cantidad de información que cada veza está más disponible, quizás ha llegado el momento de formalizar estas cuestiones en una nueva ciencia.
Referencias: