Para saber más sobre Big Data

mayo 9, 2020

Big Data. Conceptos, tecnologías y aplicaciones

El libro que tengo en las manos es una excelente aportación para el conocimiento del público en general del gran paradigma que conmueve los cimientos de nuestro mundo, el Big Data. Se trata de Big Data. Conceptos, tecnologías y aplicaciones, en la colección Qué sabemos de, escrito por dos expertos, David Ríos Insúa y David Gómez Ullate.

Comentaremos brevemente el contenido de este libro, aunque en entradas sucesivas seguiremos hablando de algunos de los temas que, al menos a mí, me han resultado tan interesantes como para querer saber más sobre ellos.

Una de las cuestiones más preocupantes del big data es que una gran parte de ese tsunami de datos lo estamos proporcionando nosotros mismos de manera gratuita y casi sin darnos cuenta, como si no nos importara. Y con esos datos, hay compañías que hacen negocios.  Google recibe 4 millones de peticiones por minuto, en Facebook compartimos 2 millones y medio de piezas por minuto, cada día enviamos 400 millones de tuits.

big data

La importancia de los datos y su análisis tiene un origen comercial, como conocer mejor a los clientes, sus gustos, como llegar mejor a ellos. Y si antiguamente (por ejemplo, Gallup) había que hacer encuestas, los avances tecnológicos (internet, móviles, GPS, …) han facilitado la tarea. Se dice que hay unos 15.000 millones de sensores distribuidos en el mundo, y no paran,

Pero estos datos se dan en bruto, tenemos que pulirlos y almacernarlos para poder usarlos. Y después tenemos que aplicar diferentes tecnologías para extraer información útil de los mismos. Y ahí es donde entran las matemáticas. Los autores muestran como una de las bases claves es la Estadística. El otro pilar es la Infomática. A lo largo del libro describen ampliamente como estas dos disciplinas interactúan en el Big Data. Y ello les lleva a hablar del aprendizaje automático (machine learning), redes neuronales, inteligencia artificial, ciberseguridad, y muchos otros temas.

Es muy relevante como las administraciones públicas están tan lejos de las grandes corporaciones empresariales y no están utilizando estas nuevas herramientas en beneficio de la sociedad; hay un enorme potencial en su uso, por ejemplo, en la medicina, tal y como detallan en uno de sus capítulos.

Aunque a veces la lectura nos produce el temor al Gran Hermano, los aspectos positivos son muchos, como ocurre casi siempre con la ciencia. El Big Data no es la panacea a todos los problemas de este mundo pero si que nos ofrece un gran cantidad de oportunidades. Enhorabuena a los autores por este magnífico libro que en apenas 134 páginas no nos da respiro.

big brother

Sobre los autores

David Ríos Insúa. Es AXA-ICMAT Chair en Análisis de Riesgos Adversarios en el ICMAT-CSIC y numerario de la Real Academia de Ciencias Exactas, Físicas y Naturales. Es catedrático de Estadística e Investigación Operativa (en excedencia). Previamente ha sido profesor o investigador en Manchester, Leeds, Duke, Purdue, Paris-Dauphine, Aalto, CNR-IMATI, IIASA, SAMSI y UPM. Entre otros, ha recibido el Premio DeGroot de la ISBA por su libro Adversarial Risk Analysis. Es asesor científico de Aisoy Robotics. Ha escrito más de 130 artículos con revisión y 15 monografías sobre sus temas de interés que incluyen la inferencia bayesiana, la ciencia de datos, el análisis de decisiones y el análisis de riesgos, y sus aplicaciones, principalmente, a seguridad y ciberseguridad.

David Gómez-Ullate Oteiza. Es investigador en la Universidad de Cádiz y profesor titular de Matemática Aplicada en la Universidad Complutense de Madrid. Su labor reciente se centra en la transferencia de conocimiento al sector industrial en ciencia de datos e inteligencia artificial. Dirige proyectos en el sector aeronáutico, seguros y biomédico aplicando técnicas de visión artificial y procesamiento de lenguaje natural.

___

Manuel de León (CSIC, Fundador del ICMAT, Real Academia de Ciencias, Real Academia Canaria de Ciencias, Real Academia Galega de Ciencias).

Fuente: madrimasd.org, 2020.



Vincúlese a nuestras Redes Sociales:

LinkedIn      YouTube      Facebook      Twitter


inteligencia de negocios

.

.

Estadística: ¿Cuál error es peor: Tipo I o Tipo II?

octubre 26, 2018

Por Eston Martz.

La gente puede cometer errores cuando realiza un test de hipótesis con análisis estadísticos. Específicamente, pueden hacer errores de Tipo I o Tipo II.

A medida que se analizan los propios datos y se hacen test de las hipótesis, la comprensión de la diferencia entre los errores de Tipo I y Tipo II se convierte en algo extremadamente importante, porque existe un riesgo de cometer cada tipo de error en cada análisis, y la cantidad del riesgo está bajo nuestro control.

Así que si se está testeando una hipótesis sobre un asunto de seguridad o calidad que podría afectar a la vida de las personas, o un proyecto que podría ahorrar millones de dólares a su negocio, ¿qué tipo de error tendría consecuencias más serias o más costosas? ¿Existe un tipo de error que sea más importante de controlar que otro?

Antes de que intentemos contestar a esta pregunta, revisemos qué son estos errores.

La hipótesis nula y los errores de Tipo I y II

Cuando los estadísticos se refieren a errores de Tipo I y Tipo II, nos referimos a las dos maneras en que se pueden realizar errores respecto a la hipótesis nula (Ho). La hipótesis nula es la posición por defecto, semejante a la idea de “inocencia hasta que se pruebe la culpabilidad”. Cualquier test de hipótesis se empieza con la asunción de que la hipótesis nula es correcta.

Cometemos un error de Tipo I si rechazamos la hipótesis nula cuando ésta es cierta. Se trata de un falso positivo, como una alarma de fuego que suena cuando no existe tal fuego.

Un error de Tipo II ocurre si nos equivocamos al rechazar el nulo cuando no es cierto. Es el caso de un falso negativo—como una alarma que falla y no suena cuando existe un fuego.

Es más fácil de comprenderlo en la tabla siguiente, semejante a la que se puede encontrar en cada texto sobre estadística:

Realidad Hipótesis nula (H0) no rechazada Hipótesis nula (H0) rechazada
H0 es cierta. Conclusión correcta. Error Tipo I (falso positivo)
H0 es falsa. Error Tipo II (falso negativo) Conclusión correcta.

Estos errores están relacionados con los conceptos estadísticos de riesgo, significancia y potencia.

estadística error tipo i o tipo ii 03

.

estadística error tipo i o tipo ii

.

Reducir el riesgo de errores estadísticos

Los estadísticos llaman al riesgo, o probabilidad, de cometer un error de Tipo I “alfa,” igual que el “nivel de significación”. En otras palabras, es la voluntad de arriesgarse rechazando la hipótesis nula cuando es cierta. Alfa normalmente se pone a 0,05, que es una posibilidad del 5 por ciento de rechazar la hipótesis nula cuando es cierta. Cuanto más pequeña sea alfa, menor es el riesgo de rechazar la hipótesis nula incorrectamente. En situaciones de vida o muerte, por ejemplo, una alfa de 0.01 reduce la probabilidad de un error Tipo I a justo un 1 por ciento.

Un error de Tipo II está relacionado con el concepto de “potencia”, y la probabilidad de cometer este error se refiere como “beta”. Podemos reducir nuestro riesgo de cometer un error Tipo II asegurando que nuestro test tiene suficiente potencia—lo que depende de si el tamaño de la muestra es suficientemente grande para detectar una diferencia cuando ésta existe.

El argumento por defecto para «Qué error es peor»

Volvamos a la cuestión de qué error, Tipo I o Tipo II, es peor. El ejemplo de referencia para ayudar a la gente a pensar sobre el tema es un acusado de un crimen que exige una sentencia muy dura.

La hipótesis nula es que el acusado es inocente. Por supuesto no se querrá librar a una persona culpable de la cárcel, pero la mayoría de la gente diría que sentenciar a una persona inocente a esa pena es una consecuencia todavía peor.

Por lo tanto, muchos textos e instructores dirán que el Tipo I (falso positivo) es peor que un error Tipo II (falso negativo). La razón se reduce a la idea que si se mantiene el status quo o asunción por defecto, al menos no se estará haciendo las cosas peor.

Y en muchos casos, eso es cierto. Pero como pasa tanto en estadística, en la aplicación nada es realmente tan blanco o negro. La analogía del acusado es muy Buena para enseñar el concepto, pero cuando se intenta hacer una regla de oro sobre qué tipo de error es peor en la práctica, se desmorona.

Pero entonces, ¿qué tipo de error es el peor?

Siento decepcionar, pero como en tantas cosas de la vida y la estadística, la respuesta más honesta a esta pregunta tiene que ser, “depende”.

En alguna situación, el error de Tipo I puede tener consecuencias menos aceptables que las que tendría un error de Tipo II. En otras, el error Tipo II podría ser menos costosos que un error Tipo I. Y, a veces, como Dan Smith indicó en Significance hace unos años, respecto a Seis Sigma y mejora de calidad, «ninguno» es la única respuesta a qué error es el peor:

La mayoría de estudiantes de Seis Sigma van a utilizar los conceptos que aprenden en el contexto de los negocios. En las empresas, cuando le cuestas a la compañía 3 millones de dólares por sugerirle un proceso alternativo cuando no hay nada de malo con el proceso actual o dejas de tener en cuenta 3 millones de dólares de ganancias cuando deberías cambiar a un nuevo proceso pero te equivocas, el resultado final es el mismo. La empresa pierde la posibilidad de obtener un beneficio adicional de 3 millones de dólares.

Mira a las potenciales consecuencias

Como no existe una regla de oro clara sobre qué tipos de errores, Tipo I o Tipo II, son peores, nuestra mejor opción al utilizar datos para verificar una hipótesis es mirar cuidadosamente a las consecuencias que podrían seguir a ambos tipos de errores. Varios expertos sugieren utilizar una tabla como la siguiente para detallar las consecuencias para un error del Tipo I y del Tipo II, en el análisis particular.

Nula Error tipo I: H0verdadero, pero rechazado Error tipo II: H0falso, pero no rechazado
Medicina A no alivia la Condición B. Medicina A no alivia la Condición B, pero no se elimina como opción de tratamiento. Medicina A alivia la Condición B, pero es eliminada como opción de tratamiento.
Consecuencias Los pacientes con Condición B, que reciben la medicina A no se alivian. Pueden experimentar empeoramiento y/o efectos secundarios hasta incluso morir. Posible litigio. Un tratamiento viable permanece inaccesible a pacientes con Condición B. Se pierden los costes del desarrollo. Provecho potencial eliminado.

Sea lo que sea lo que involucre el análisis, comprender la diferencia entre los errores de Tipo I y Tipo II, y considerar y mitigar sus respectivos riesgos como apropiados, siempre es inteligente. Para cada tipo de error, hay que asegurarse de que se responde esta pregunta: «¿Qué es lo peor que puede ocurrir?»

Para explorar este tema más extensamente, compruebe este artículo sobre el uso de cálculo de potencia y tamaño de la muestra para equilibrar el riesgo de un error de tipo II y los costes de la comprobación, o esta entrada del blog sobre considerar el alfa apropiado para su test particular.

Fuente: addlink.es

Más información:

Gonick y Smith. La estadística en comic (cap. 8)


H0 = No hay embarazo.   Ha = Sí hay embarazo.

 


Vincúlese a nuestras Redes Sociales:

Google+      LinkedIn      YouTube      Facebook      Twitter


.

.

.

Moneyball, el juego de la fortuna. Un caso de Inteligencia de Negocios.

septiembre 3, 2018

Moneyball

Fuente: https://youtu.be/Uwg5SjH-f2g – Estadística para Administración

.

Moneyball es una película de 2011 dirigida por Bennett Miller y protagonizada por Brad Pitt, Jonah Hill y Philip Seymour Hoffman. Es una adaptación de la novela Moneyball: the art of winning an unfair game (2003), basada en la historia real de Billy Beane, gerente general del equipo Oakland Athletics, quien utilizaba las estadísticas avanzadas para fichar jugadores.
Es un buen ejemplo de Inteligencia de Negocios (business intelligence).

Sinopsis

Billy Beane (Brad Pitt) es el gerente general del equipo de béisbol Oakland Athletics, que acaba de perder otra temporada más. Decidido a relanzar el equipo, y con la ayuda del joven economista Peter Brand (Jonah Hill), utilizará las estadísticas de este para fichar a los jugadores que cree más oportunos. Un método que no es compartido por sus compañeros, ni por el entrenador del equipo Art Howe (Philip Seymour Hoffman).

Argumento detallado

El gerente general de los Athletics de Oakland, Billy Beane (Brad Pitt), está molesto por la derrota de su equipo ante los Yankees de Nueva York en la postemporada del 2001. Con la inminente perdida de los jugadores estrella Johnny Damon, Jason Giambi, y Jason Isringhausen a agencia libre, Beane trata de diseñar una estrategia para armar un equipo competitivo para el 2002, pero se esfuerza por superar la nómina de jugadores limitados de Oakland. Durante una visita a los Indians de Cleveland, Beane se encuentra con Peter Brand (Jonah Hill), un joven economista graduado en Yale con ideas radicales sobre la forma de evaluar a los jugadores. Beane prueba la teoría de Brand al preguntarle si lo habría fichado (apenas salido de la escuela secundaria); Beane había sido jugador en las Grandes Ligas antes de convertirse en mánager general. Aunque los scouts consideraban a Beane un jugador fenomenal, su carrera en las Grandes Ligas fue decepcionante. Después de cierto estímulo, Brand admite que él no lo habría fichado hasta la novena ronda y que Beane probablemente debería haber aceptado una beca para estudiar en Stanford en su lugar.

Los cazatalentos del equipo son los primeros desconfiados por nuevo enfoque de Brand, sobre todo Grady Fuson – quien es despedido por Beane después de discutir con él a causa del nuevo rumbo deportivo del equipo; después critica en los medios de comunicación las decisiones tomadas por Beane y pone en duda el futuro del equipo. En lugar de basarse en la experiencia de los cazatalentos y la intuición, Brand selecciona a jugadores basados casi exclusivamente en su porcentaje de base (OBP). Al encontrar a los jugadores con un alto OBP pero con características que conducen a los cazatalentos a despedirlos, Brand reúne a un equipo de jugadores infravalorados con mucho más potencial del que se les reconoce y a un precio mucho más económico que las grandes estrellas. A pesar de las vehementes objeciones de los cazatalentos, Beane apoya la teoría de Brand y contrata a los jugadores que seleccionó, como el heterodoxo lanzador submarino Chad Bradford (Casey Bond). Tras los fichajes de agentes libres, Beane se da cuenta que también se enfrenta a la oposición de Art Howe (Philip Seymour Hoffman), mánager de los Athletics. Con las tensiones ya elevadas entre ellos a causa de una disputa contractual, Howe no tiene en cuenta la estrategia de Beane y Brand, y juega el equipo en un estilo tradicional, sin tener en cuenta las indicaciones de Beane.

A principios de la temporada, a los Athletics les va mal, por lo que Beane es fuertemente criticado y ya vaticinan el fracaso del nuevo modelo y su despido como gerente general. Beane convence al propietario a mantener el rumbo, y con el tiempo el equipo comienza a mejorar. En última instancia, los Athletics ganan 20 partidos consecutivos, estableciendo el récord de la Liga americana. Su racha se limita con una victoria sobre los Royals de Kansas City. Al igual que muchos jugadores de béisbol, Beane es supersticioso y evita asistir a los partidos. Su hija le implora que vaya al partido que supondría la victoria número 20 consecutiva contra los Royals, donde Oakland ya gana 11-0 después de la tercera entrada. Beane llega en la cuarta entrada, solo para ver que el equipo va a desintegrarse y, finalmente, permite a los Royals de igualar el marcador 11-11. Por último, los Athletics ganan, con un home-run en la última entrada por una de las selecciones de Brand, Scott Hatterberg. A pesar de todos sus éxitos en la segunda mitad de la temporada, los Ahletics pierden en la primera ronda de la postemporada, esta vez contra los Twins de Minnesota. Beane está decepcionado, pero satisfecho de haber demostrado el valor de los métodos de Brand. Beane se reúne más tarde con el propietario de los Red Sox de Boston, que se da cuenta de que el nuevo modelo utilizado por Beane es el futuro del béisbol, y se ofrece a contratar a Beane como gerente general de los Red Sox.

Para terminar, una nota de la película dice que Beane dejó pasar la oportunidad de convertirse en el gerente general de los Red Sox de Boston, a pesar de una oferta de un salario de 12,5 millones de dólares, lo que lo habría convertido en el gerente general mejor pagado en la historia del deporte. Regresa a Oakland para seguir administrando a los Oakland Athletics. Mientras tanto, dos años después de la adopción de la filosofía de fichajes utilizada en Oakland, los Red Sox de Boston ganan su primera Serie Mundial desde 1918.

Fuente: Wikipedia, 2018.

moneyball


Vincúlese a nuestras Redes Sociales:

Google+      LinkedIn      YouTube      Facebook      Twitter


inteligencia de negocios

.

.