CARTOGRAFIADO DE DATOS. La Imagen de los datos permite brindar una representación de toda la estructura de la información en un sólo gráfico, aunque estos datos sean numéricos, alfanuméricos o textuales, precisos o imprecisos. Además permite, visualizar las relaciones multidimensionales que puedan existir entre ellos, permitiendo brindar un diagnóstico por imagen, una rápida y completa comunicación e interpretación de la información contenida en los datos.

martes, 13 de mayo de 2008

Software tratamiento de datos

Encontrarás enlaces a software que puede ser útil a estudiantes e investigadores en el campo de la Estadística (y en otros, porqué no), en un entorno Windows. No es una lista exhaustiva; sólo pretende ser útil. Normalmente la mayoría del software es de pago, pero no siempre es así y aquí se da una alternativa libre de tasas cuando ésta existe.
R es un intérprete GNU del lenguaje estadístico S que utiliza también S-plus. Aunque S-plus es un programa comercial que suele ir un paso por delante de R incorporando más funciones, la base es similar, y R puede funcionar también en modo batch consumiendo muchos menos recursos de la máquina que S-plus: puedes tener varias aplicaciones abiertas a la vez sin problemas. R es, por otro lado, algo superior en cuanto a gráficos. El código no es 100% intercambiable entre ambos, pero puede portarse sin excesiva dificultad, generalmente. Hoy en día es difícil encontrar algo mejor en el mercado que alguno de los dos, sea de pago ó no. Hay versiones precompiladas Linux, Unix, Mac y Windows 95/98/NT/ME/2000/XP. Es recomendable utilizar Emacs como interfaz de usuario (éste también puede usarse como interfaz para S-plus), aunque en las últimas versiones R ya incluye un interfaz de usuario con dos ventanas, una de input y otra de output similar al que podemos usar desde Emacs.
Referencias
XLispStat, un lenguaje estadístico veterano, inspirado en S y basado en el lenguaje de programación Lisp.
ViSta. "The Visual Statistics System", es un sistema de visualización estadística muy dinámico y altamente interactivo, que ayuda a ver lo que tus datos parecen estar diciendo y a contrastar lo que piensas que ves en ellos. Una pequeña herramienta de análisis estadístico con especial énfasis en la presentación gráfica, análisis multivariante y regresión y pensado especialmente para la enseñanza. Tiene una buena variedad de gráficos modernos, es muy rápido y extensible a través de (X)LispStat. Aunque de desarrollo más lento que otros programas como R o Gretl, sigue activo, y ahora mismo tienen una versión 7 (para Windows) en pruebas. La versión de Unix/Linux va retrasada con respecto a la de Windows.
ViSta tiene un interfaz de programación que incluye ViDAL, ("ViSta's Data Analysis Language"), y XLispStat, un lenguaje de programación orientado al objeto de carácter estadístico. Estos lenguajes pueden ser introducidos directamente desde el teclado o pueden ser ejecutados en forma de scripts
ViSta permite llevar a cabo análisis y visualización de datos estadística univariada y multivariada, incluyendo:
  • Tests univariados simples
  • Asignación de valores ausentes
  • Análisis de varianza univariado de n factores
  • Análisis de regresión (lineal, no lineal, múltiple, multivariado y análisis de redundancia)
  • Análisis de componentes principales
  • Análisis de correspondencias
  • Análisis de tablas de frecuencias (Chi-cuadrado)
  • Escalamiento multidimensional

DTM - Minería de Datos y Textos (Lebart). Estadística Exploratoria Multidimensional para datos complejos que incluyen datos numéricos y textuales.

Complementariedad de las técnicas de visualización (Análisis de componentes principales, Análisis de correspondencias simple y múltiple) y la clasificación automática (método mixto que combina clasificación jerárquica [criterio de Ward] y centros móviles [k-means]; mapas autoorganizados de Kohonen [redes neuronales SOM).
Validación de las técnicas de visualización: Re-muestreo (bootstrap, bootstrap parcial, bootstrap total, bootstrap sobre variables). Tres opciones para el bootstrap total: Tipo 1: simple corrección de señal para los ejes. Tipo 2: como tipo 1, + corrección de la rotación de ejes. Tipo 3 rotaciones procrustéennes para acercar a los réplicaciones de la muestra inicial.
Análisis de asociación y métodos vecinos. Mapas de Kohonen (SOM).
La presente versión de este programa académico informático permite desarrollar una batería de ejemplos típicos. [Están disponibles doce ejemplos de aplicación, comentados y cinco ejemplos de importación de datos]. El usuario puede usar el programa sobre sus propios datos cambiando un número muy limitado de parámetros y respetando los formatos de entradas para los datos numéricos y cualitativos, los diccionarios y los datos textuales. Los procedimientos de importación facilitan la utilización de los datos externos.
Limitaciones de esta versión: 22.500 filas (individuos, líneas), 1.000 variables (numéricas o nominales), 100.000 caracteres para las respuestas de un individuo a cuestiones abiertas (textos).

Para bajar de Intenert DTM (versión 3.8), acceder a la página de Lebart:
http://ses.telecom-paristech.fr/lebart/

  1. Software - inst_dtm.zip (1920 K) http://ses.telecom-paristech.fr/lebart/DEA/inst_dtm.zip
  2. Ejemplos - dtm_examples.zip (1400 K) http://ses.telecom-paristech.fr/lebart/DEA/dtm_examples.zip
  3. Guía de Instalación - Install_dtm.pdf (1400 K) http://ses.telecom-paristech.fr/lebart/DEA/Install_dtm.pdf
    Pronto, tutorial completo en español.....