miércoles, 29 de marzo de 2017

Tablas de contingencia y aspectos de ellas.



La tabla de contingencia

La tabla de contingencia es una tabla de doble entrada, donde en cada casilla figurará el número de casos o individuos que poseen un nivel de uno de los factores o características analizadas y otro nivel del otro factor analizado.







SEXO

HOMBRE
MUJER
MARGINAL
FUMA
SI
n11
n12
n1.
NO
n21
n22
n2.
MARGINAL
n.1
n.2
N

    donde:
          nij = número de observaciones que tienen el atributo i y j               
          ni. = número de individuos que tienen el atributo i (marginal i)                  
         n.j = número de individuos que tienen el atributo j (marginal j)

La tabla de contingencia se define por el número de atributos o variables que se analizan conjuntamente y el número de modalidades o niveles de los mismos. El ejemplo propuesto es una tabla de contingencia 2x2, ya que tiene dos atributos (FUMA Y SEXO) y cada uno de ellos tiene dos niveles. Si quisiéramos analizar conjuntamente tres variables nominales, como por ejemplo, Fumar, Sexo y Edad, y esta última variable tuviera tres niveles (<20 años, de 20 a 40 años, >40 años), obtendríamos tres tablas como la anterior, una para cada modalidad de edad y la tabla de contingencia tendría una dimensión 3×2×2.

             Las tablas de contingencia tienen dos objetivos fundamentales:

1)      Organizar la información contenida en un experimento cuando ésta es de carácter bidimensional, es decir, cuando está referida a dos factores (variables cualitativas). 






SEXO

HOMBRE
MUJER
MARGINAL
FUMA
SI
65
58
123
NO
43
67
110
MARGINAL
108
125
233

En esta tabla se puede observar en primer lugar que de los 233 individuos de los que se tiene información 108 son hombres y 125 son mujeres. Asimismo se sabe que 123 de ellos fuman y 110 no. La tabla de contingencia nos permite tener información cruzada sobre ambas variables: de los 108 hombres, 65 fuman y 43 no, mientras que en el caso de las mujeres, 58 fuman y 67 no. 


CORRELACIONES

La correlación trata de establecer la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.

Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.

Tipos de correlación:

1.- Correlación directa
La correlación directa se da cuando al aumentar una de las variables la otra aumenta.
La recta correspondiente a la nube de puntos de la distribución es una recta creciente.

2.- Correlación inversa
La correlación inversa se da cuando al aumentar una de las variables la otra disminuye.
La recta correspondiente a la nube de puntos de la distribución es una recta decreciente.

3.- Correlación nula
La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables.
En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.


Grados de correlación:

El grado de correlación indica la proximidad que hay entre los puntos de la nube de puntos. Se pueden dar tres tipos:

1. Correlación fuerte
La correlación será fuerte cuanto más cerca estén los puntos de la recta.
2. Correlación débil
La correlación será débil cuanto más separados estén los puntos de la recta.



Analisis de datos cualitativos,  Consultado el 28 de marzo de 2017, en   https://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf

Agrupacion de datos en SPSS

viernes, 17 de febrero de 2017

lunes, 30 de enero de 2017

Excel.

Investigación de conceptos. Excel

OPERACIONES BÁSICAS CON EXCEL ÁREA DE TRABAJO
Veamos algunos de los conceptos básicos de Excel: Un libro de Excel equivale a un documento de Word o archivo.
·       Una hoja es una porción del libro, formada por filas y columnas. Se sabe en qué hoja estamos trabajando si miramos su etiqueta.
·   Una columna es una selección vertical de celdas, en cada hoja hay 256 columnas nombradas con las letras de la A a la IV.
·         Una fila es una selección horizontal de celdas, desde la fila 1 a la 65536.
·         Una celda es la intersección entre una fila y una columna. La celda activa es aquella que se representa con un contorno y es donde se encuentra el cursor.
Descripción de Datos
 Al abrir el programa nos encontramos con una cuadrícula en la que podemos escribir tanto texto como números. Excel es una hoja de cálculo, lo que quiere decir que su propósito es precisamente calcular expresiones matemáticas. En las casillas o celdas de la ventana de Excel podemos introducir tanto números como expresiones. Así por ejemplo, si en la casilla A1 hemos introducido el número 5, y en la casilla A2 el número 7 y queremos calcular su suma, podemos introducir en la casilla A3 la expresión “=A1+A2” obteniendo el valor de dicha suma. Notad que el símbolo “=” indica que el programa ha de calcular la expresión que viene a continuación y no se trata de un mero texto a insertar. En ocasiones podemos ver que se intercala el símbolo “$” junto a la referencia de una celda, por ejemplo “$A$2”. Esto indica que la referencia de la celda es absoluta y no relativa; es decir, que si copiáramos la expresión en otra celda, al ser absoluta la formula quedará tal cual está, pero si es relativa (no lleva los símbolos $) modificará la fórmula que copiamos.




GRÁFICOS EN EXCEL
Excel permite crear gráficos a partir de los datos contenidos en un libro. Los gráficos permiten visualizar la información de la hoja para poder comparar datos y deducir conclusiones. TIPOS DE GRÁFICOS :
        COLUMNAS: Muestra los cambios que han sufrido los datos en el transcurso de un periodo de tiempo.
        BARRAS: Ilustran las comparaciones entre elementos individuales.
        LÍNEAS: Muestran las tendencias de los datos a intervalos.
        CIRCULAR: Muestran el tamaño proporcional de los elementos que conforman un todo.
        XY DISPERSIÓN: Muestran las relaciones entre valores numéricos de varias series de datos.
        ÁREAS: Destacan la magnitud de los datos en el transcurso del tiempo.
        ANILLOS: Al igual que un gráfico circular muestra la relación de las partes con un todo, aunque puede contener más de una serie de datos.
        RADIALES: Compara los valores de series de datos. Cada categoría tiene su propio eje de valores. Las líneas conectan todos los valores de las mismas series.
        SUPERFICIE: Son útiles para conocer las combinaciones óptimas entre dos conjuntos de datos.
        BURBUJAS: Es un gráfico de dispersión, pero con tres variables.
        COTIZACIONES: Se utiliza para ilustrar la cotización de acciones.
        CÓNICOS, CILÍNDRICOS Y PIRAMIDALES: Únicamente mejoran la presentación de gráficos de columnas y barras.




  • ESTADÍSTICAS EN EXCEL

Los datos estadísticos nacen a través de la observación o como resultado de mediciones que necesitan ser tratadas para su posterior elaboración e interpretación. Básicamente, las series de observaciones o datos pueden ser:
 · Atributos No tienen grados de intensidad (por ejemplo, solteros, casados...).
· Variables Si los tienen (1500, 1600, 1700...).
  • FRECUENCIA

 Denominamos Frecuencia Absoluta al número de observaciones o casos que representan a una categoría (bien sean atributos o variables).
Frecuencia relativa es la proporción entre el número de casos de esa categoría y el total de observaciones.
Porcentaje es la frecuencia relativa multiplicada por 100.
  • MEDICIÓN DE FENÓMENOS ESTADÍSTICOS

La complejidad y extensión de los datos estadísticos y las distribuciones de frecuencia hacen que sean necesario condensar o resumir estos datos en unos ‘índices’ representativos para realizar los estudios, comparaciones, y obtención de conclusiones.
  • MODA:  Es el Valor más repetido en la distribución o serie de datos, es decir, aquel que tiene mayor frecuencia. Su principal defecto es que no es representativo para series con intervalos muy amplios.
  • MEDIA ARITMÉTICA: Se calcula mediante la suma de sus valores divididos entre el número de valores. La gran ventaja, y a su vez desventaja, es que está calculada con todos y cada unos de los valores de esta serie, por lo que puede ser influida, y por ello desvirtuada, por valores excesivamente extraños.

La Media Aritmética se caracteriza porque la suma de las desviaciones del valor respecto a la media de una serie es igual a cero y porque la suma de los cuadrados de las desviaciones respecto a la media es siempre un valor mínimo, comparado con las de las desviaciones respecto a cualquier otro valor distinto de la media.
  • MEDIA GEOMÉTRICA: Se calcula multiplicando todas las observaciones entre sí y calculando la raíz n-ésima del resultado.
  • DEPENDENCIA LINEAL: Vamos a ver la posible relación existente entre la variable “Y” y el resto de Variables X. Llamamos Variable Dependiente a la Y, ya que su valor va a depender de los posibles valores que pueden tomar la variable independiente.


La relación de los valores de Y respecto a los valores que tome la X, la calculamos mediante el método de ‘mínimos cuadrados’, para calcular la recta que mejor se aproxima a esa relación. Este es el conocido como Método de Regresión Lineal.


http://ing.unne.edu.ar/pub/informatica/extras/excel/1IGL.pdf