¿Qué problemas aborda la minería de datos?
Cualquier problema para el que existan datos históricos almacenados es un problema susceptible de ser tratado mediante técnicas de Minerı́a de Datos. Sin pretender ser exhaustivos la siguiente es una lista ilustrativa:
Busqueda de lo inesperado por descripción de la realidad multivariante.
Un principio clásico de la Estadística, el principio de la parsimonia, ya no es ahora valido (si bien siempre serán preferibles los modelos simples). Para describir un fenómeno cuantas mas variables tengamos mejor, mas ricas, mas globales y mas coherentes serán las descripciones y mas fácil sera detectar lo inesperado, esto es, aquello que no habíamos previsto y que resulta valioso para entender mejor el comportamiento de algún grupo de individuos, lo cual se ve favorecido por el hecho de trabajar con muestras grandes.
Las muestras aleatorias son suficientes para describir la regularidad estadística global,pero no para detectar comportamientos particulares de sub grupos.
Búsqueda de asociaciones.
Un cierto suceso, ¿está asociado a otro suceso?, ¿podemos inferir que determinados sucesos ocurren simultáneamente más de lo que seria esperable si fuesen independientes?, ¿es posible sugerir un producto, sabiendo que otro ha sido adquirido?.
Definición de tipologı́as.
Los consumidores son, a efectos prácticos, infinitos, pero los tipos de consumidores distintos son un número mucho más pequeño. Detectar estos tipos distintos, su perfil de compra y proyectarlos sobre toda la población, es una operación imprescindible a la hora de programar una polı́tica de marketing. Por otro lado,las tipologı́as no tienen que ser necesariamente de consumo, pueden ser de opiniones, valores, condiciones de vida, etc.
Detección de ciclos temporales.
Todo consumidor sigue un ciclo de necesidades que ocasionan actos de compra distintos a lo largo de su vida. Detectar los diferentes ciclos y la fase donde se sitúa cada consumidor ayudará a crear complicidades y adecuar la oferta de productos a las necesidades y crear fidelización.
Predicción.
A menudo deberemos efectuar predicciones: ¿cuál es la probabilidad de baja de un cliente?, ¿cuál es el precio de una vivienda concreta?, ¿lloverá mañana? Estas y muchas más son preguntas que deberemos responder, para ello construiremos un modelo a partir de los datos históricos. Si la variable de respuesta es continua (p.e.la rentabilidad de un cliente) diremos que se trata de un problema de regresión, mientras que si la variable de respuesta es categórica (p.e. la compra o no de un producto)diremos que se trata de un problema de clasificación.