Bienvenida la ciencia de datos al hacking cívico

Hace poco tuve un interesante reencuentro con Paul Krugman, el famoso Economista ganador de un nobel, con su post “Tarnished Silver”: que publicó hace ya casi 5 meses, acerca de Nate Silver. Por si no lo conoces, Nate es el rockstar del área denominada “Data Science” o “Ciencia de Datos”; se elevó a la fama debido a que consiguió predecir con una precisión de 100%, los resultados de la elección norteamericana del 2012. Hoy Nate mantiene su blog www.fivethirtyeight.com el cual es uno de los impulsores del periodismo de datos, donde ha sido reconocido por llevar estadística aplicada a la gente. Algunos ejemplos populares de esto han sido sus predicciones en el Mundial y otras increíbles visualizaciones.

Pero mi reencuentro con Krugman no fue agradable por el mensaje que compartía; en el post habla del esfuerzo de Silver de armar predicciones de temas muy diversos, en los que no tiene experiencia ni conocimiento previo. Krugman cierra su post de manera categórica: “Básicamente, pareciera que Silver está trabajando desde la premisa que … no debería de tomar en cuenta los aprendizajes previos del campo. Si no cambia esa premisa, su empresa se irá al suelo muy rápidamente”.

El impacto que tuve al enfrentar mis ideas con las de Krugman se debió a que me recordó la razón por la que me acerqué al hacking cívico y a la ciencia de datos. Hoy me dedico a aprender a hacer data science, a raíz de inspirarme en este diagrama sobre las habilidades necesarias para hacer ciencia de datos:

{% highlight yaml %} Por Drew Conway en su blog www.dataists.com, en 2010
{% endhighlight %}

Antes de entrar en temas de data science, tuve la oportunidad de experimentar en temas que iban desde formular materiales farmacéuticos hasta analizar la combustión en una flama industrial, pero en todos siempre notaba como las matemáticas y la estadística eran claves para analizar todo tipo de fenómenos. La intersección que muestra el diagrama entre matemáticas y estadística con la experiencia de un tema se muestra como “Investigación Tradicional” me parece lógico: Investigar en este contexto significa hacer una serie de experimentos controlados por las variables importantes dentro del marco de un diseño estadístico. El tercer espacio de este diagrama de Venn, el las habilidades computacionales, es el que me pareció especialmente mind blowing. El meterle hacking skills a la investigación tradicional, surge este concepto: La ciencia de datos.

No voy a repetir la frase indecible que “estamos en la era de información”; lo que sí, es que hoy más que nunca estamos más conectados, y la necesidad de sacar conclusiones de la información que tenemos disponible ya no solo es un derecho sino una obligación. No se vale que, sí tenemos datos sobre un problema y los factores que podrían tener parte, los ignoremos. Ni porque son muchos, ni porque no sabríamos qué información sacar de ahí.

Las herramientas de programación nos hacen capaces de trabajar con esa información: obtener datos a una gran escala, hacer procesos de análisis más profundos y con más herramientas, y por supuesto, visualizar de mejor manera la información para poder comunicar el tema cuestión. La ciencia de datos es esto: La forma de hacer ciencia en este siglo. Esto me quedó más claro cuando ví el proceso de ciencia de datos descrito por el profesor de bioestadística de Harvard, Joe Blitzstein.

El proceso que propone para la ciencia de datos no sólo recuerda el método científico, sino que está fundamentado en él. Pero la preocupación de Krugman sin duda es muy válida y el mismo diagrama de las habilidades para hacer ciencia de datos lo señala: Armar conclusiones sólo con lo que poquito que sabemos del tema, sin tomar en cuenta lo que la gente de ciencia se ha esforzado años, décadas o hasta siglos en entender, es trabajar en ciego y representa el gran riesgo de comunicar cosas que están fuera de toda realidad o significado. Más aún esto es imperdonable, en este momento en que la comunidad científica está tan virtualmente cerca, a tan sólo una búsqueda de google. Y no solo las personas, sino sus resultados en forma de artículos, libros o hasta presentaciones que han dado en alguna conferencia.

No puedo esperar para compartir ejemplos de grandes análisis. No sólo lo que se hace fuera de México, sino lo que se está haciendo con los datos en nuestro país. La verdad, sueño con el momento en que estas herramientas se usen en todos los niveles de gobierno, en la industria y la academia, sueño también con la colaboración de diversos perfiles, que juntos desarrollan ideas geniales y definitivamente sueño con el momento donde encontremos soluciones a los problemas que aquejan a nuestro país con estos análisis. Codeando México estará haciendo su parte de arena, trabajando en el análisis basado en datos para buscar resolver los problemas sociales que aquejan a nuestro país.