Project Foreseen outcomes - PowerPoint PPT Presentation

1 / 60
About This Presentation
Title:

Project Foreseen outcomes

Description:

Aplicaci n de la fusi n de datos en las estad sticas sobre los usos de TIC ... 'El proyecto Diastasis tiene por objetivo la definici n, medida ... 9. Government ... – PowerPoint PPT presentation

Number of Views:53
Avg rating:3.0/5.0
Slides: 61
Provided by: nikolaosko
Category:

less

Transcript and Presenter's Notes

Title: Project Foreseen outcomes


1
Aplicación de la fusión de datos en las
estadísticas sobre los usos de TIC
Resultados del proyecto europeo DIASTASIS
Vicenç Meléndez IDESCAT
Toledo, 9 de Noviembre, 2005
2
Diastasis definición
El proyecto Diastasis tiene por objetivo la
definición, medida y explotación de nuevos
indicadores socio-económicos o la mejora de
los existentes mediante la combinación de
datos estadísticos sobre uso de los web con datos
socio-económicos referidos a la misma base de
usuarios de Internet
3
Diastasis Análisis y diseño mejoras en la
encuesta de uso de las TIC en hogaresesquema
Variables Socio-económicas comunes
Contenido temático indizado de las páginas
halladas en los logfiles, más información técnica
facilitada por los ISPs
Microdatos de la encuesta a los hogares sobre uso
de Internet (uso TIC)
Microdatos producida por fusion
4
Diastasis obligaciones contractuales
milestones (hitos)
  • Definición de una metodología estadística nueva
    para correlacionar datos estadísticos de uso de
    webs con datos de hogares y Pymes
  • Definición, medida y explotación de nuevos
    indicadores estadísticos y
  • Preparación de un sistema de demostración que
    funcionará durante la prueba piloto del proyecto.

5
Resumen de resultados
  • Siguiendo los objetivos prioritarios que se
    señalaban en el proyecto, se ha desarrollado una
    metodología estadística de fusión de datos, se ha
    creado una herramienta de software que ha
    implantado esta metodología y se ha dado lugar a
    resultados estadísticos concretos que han
    mejorado la base de información existente.
  • La herramienta de software software abierto,
    excepto por lo que respecta a la programación de
    la minería de datos que se contempla en el
    proyecto desarrollada, hace posible esta fusión
    de un modo profesionalizado.
  • Se ha llevado a cabo una prueba práctica de todo
    lo dicho en el proyecto, circunscrita al personal
    de laUPC
  • De manera auxiliar, se han puesto en marcha
    herramientas potentes de recogida de datos
    elemento complejo por la gran cantidad de
    información manejada - y de adecuación de la
    información en bruto al tratamiento estadístico
    eliminación de información sobrante,
    identificación de lengua, minería de datos para
    asignar categorías temáticas a las páginas
    consultadas por los individuos, etc.

6
Diastasis Analysis and Design requerimientos de
los usuarios y fuentes de datos
  • Motivación del proyecto
  • Se necesita más detalle sobre el uso de Internet
  • Se necesita más capacidad para relacionar temas
    aparentemente separados
  • Se dispone de instrumentos parciales encuestas
    oficiales en hogares
  • Se dispone de grandes cantidades de información
    digital en bruto
  • Se dispone de tecnologías que permiten aprovechar
    este hecho
  • El volumen de información digital es tan amplio
    que se puede trazar un perfil completo de los
    usuarios y se requieren, por tanto, instrumentos
    jurídicos para controlar el uso de estos datos

7
  • Desarrollo del proyecto

8
Proceso Diastasis
Log files on volonteer UPC professors and staff
ED
soft
Specific survey on UPC professors and staff
9
Encuesta
  • Las preguntas (encuesta en forma de página web)
    se agruparon en 8 módulos
  • Datos personales y del entorno de trabajo
  • Intensidad de uso de los servicios de Internet
  • Usos detallados de Internet
  • Valoración de las actividades de investigación
  • Preocupaciones respecto a Internet
  • Papel de Internet en la docencia (aspectos
    positivos)
  • Papel de Internet en la docencia (dificultades)
  • Conocimiento de lenguas

10
Fichero de conexiones a Internet
Date InfoTime Info IP address info (unique for
each participant) URL
11
Datos obtenidos automàticamente
12
Participación del usuario
  • Protocols used by IP
  • User participation in days
  • Number of total days allowed to participate in
    the pilot
  • Number of total days between first ans last day
    used by IP
  • Number of days in which IP have been used
  • Average number of participant/non participant
    users (issuing an http request or receiving an
    answer)
  • Per day (from Monday to Sunday)
  • Per hour from 9 to 9

13
Páginas descargadas
  • Pages downloaded
  • Number of captured http requests (pages) by IP
  • Number of different pages seen by IP
  • Number of captured http requests (pages) by IP by
    main languages
  • Number of secure pages seen by IP
  • Number of different secure pages seen by IP

14
Dominios accedidos
  • Domains accessed
  • Number of domains accessed by IP
  • Number of different domains accessed by IP
  • Number of different domains accessed by all users
  • 100 most used three level domains
  • Matrix of "IP-domains" for Eicstes type analysis

15
Sesiones
  • Sessions
  • Number of sessions by IP
  • Time of use according to the definition of
    session
  • Volumes of information
  • Volume of information downloaded by IP
  • Volumes of information by main type of files
    received by IP
  • Domain refers to second level domain
    irrespective of top level domain
  • Session, according to Nielsen a session
    finishes after 30 or more minuts of inactivity

16
Variables comunes
  • List of Common VariablesLabels
  • 1. TIPUSPER PDI PAS
  • 2. PDI Full professor, Ass. Professor, Full tech
    professor, Ass. Tech professor, Permanent
    contract Temporal contract Researcher, Postdoc Res
    earcher junior Reponse manquante
  • 3. PAS recPAS Civil servant PAS Laboral, Reponse
    manquante
  • 4. DEPTPAS Departament Center, General
    Services, Institute, Other place, Reponse
    manquante
  • 5. ANTIREC 1 - 5 years 6 - 15 years  15 years
  • 6. UNIESTR4 No Yes
  • 7. EDATREC 20-35 years 36-45 years more than 46
    years
  • 8. ANYUSA from 0 - 2 years from 2 - 5 years more
    than 5 years
  • 9. TEMPUSA Less than 1 hour Between 1 - 2
    hours Between 2 - 3 hours More than 3 hours
  • 10. SUBCRIT No Yes

17
Variables comunes
  • 11. PAGINA No Yes
  • 12. IMPINTDO No Yes Reponse manquante
  • 13. rACTRECER Low Fair High Reponse manquante
  • 14. rACTTRAST Low Fair High Reponse manquante
  • 15. rINTINV Low Fair High Reponse manquante
  • 16. rANGLES Low Fair High Reponse manquante
  • 17. rALEMANY Low Fair High Reponse manquante

18
Temas de clasificación
  • 1. Entertainment
  • E1 recreation S27 espectaculos_y_diversion_organiz
    aciones C7 espectacles_i_diversio_organitzacions
    E18recreation_outdoors S6 deportes_y_ocio_al_aire_
    libre C31 esports_i_lleure_a_l_aire_lliureE22
    recreation_sports S16 deportes_y_ocio C25
    esports_i_lleure E10 entertainment S19
    deportes_y_ocio_deportes C2 esports_i_lleure_espor
    ts E14 entertainment_music S4 espectaculos_y_diver
    sion_musica C10 espectacles_i_diversio_musica S12
    espectaculos_y_diversion C21 espectacles_i_diversi
    o

19
Temas de clasificación
  • 2. Arts
  • E2 arts S8arte_y_cultura C26 art_i_cultura E12
    arts_organizations S3 arte_y_cultura_organizacione
    s C29 art_i_cultura_organitzacions
  • 3. TIC (Computers and Internet)
  • E3 computers_and_internet S17 internet_y_ordenador
    es C13 internet_i_ordinadors  S24
    internet_y_ordenadores_organizaciones C19
    internet_i_ordinadors_organitzacions

20
Temas de clasificación
  • 4. Education
  • E4 education_organizations  C20
    ensenyament_i_formacio_organitzacions E17
    educationS10 educacion_y_formacion C4
    ensenyament_i_formacio
  • 5. Social sciences
  • E5 social_science_linguistics_and_human_languages
    S2 ciencias_sociales_linguistica C15
    ciencies_socials_lingueistica E20 social_science
    S29 ciencias_sociales C5 ciencies_socials  S1
    ciencias_sociales_organizaciones C17
    ciencies_socials_organitzacions
  • 6. References
  • E6 reference S14 materiales_de_consulta C16
    materials_de_consulta

21
Temas de clasificación
  • 7. Society
  • E7 society_and_culture S11 sociedad_culturas_y_gru
    pos C24 societat_cultures_i_grups  S18 sociedad
    C11 societat  S20 sociedad_religion_y_espiritualid
    ad C8 societat_religio_i_espiritualitat  S22
    sociedad_organizaciones C22 societat_organitzacion
    s  S7 sociedad_medio_ambiente_y_naturaleza C32
    societat_medi_ambient_i_natura
  • 8. Health
  • E8 health S15 salud C12 salut  S23
    salud_organizaciones C3 salut_organitzacions

22
Temas de clasificación
  • 9. Government
  • E9_government_international_organizations S30
    politica_y_gobierno_organizaciones  E13
    government S 26 politica_y_gobierno_organizaciones
    _internacionales  S9 politica_y_gobierno C1
    politica_i_govern
  • 10. Business
  • E11 business_and_economy_business_to_business  C6

23
Temas de clasificación
  • economia_i_negocis_productes_i_serveis_per_a_les_e
    mpreses E16 business_and_economyS5economia_y_negoc
    ios C9 economia_i_negocis E19 business_and_economy
    _organizations  C23 economia_i_negocis_organitzaci
    ons
  • 11. Media
  • E15 news_and_media S28 medios_de_comunicacion C28
    mitjans_de_comunicacio
  • 12. Science
  • E21 science S21 ciencia_y_tecnologia C27
    ciencia_i_tecnologia  S25 ciencia_y_tecnologia_org
    anizaciones C14 ciencia_i_tecnologia_organitzacion
    s
  • 13. Geography
  •    S13 zonas_geograficas C18 zones_geografiques

24
  • Dato estadísticos obtenidos

25
Temas legales
  • Ley Orgánica 15/1999
  • de Protección de Datos de Carácter Personal
  • Tratamiento de ficheros por los distintos
    partners, no cesión internacional de datos en
    área de igual protección de datos (Europa)
  • Límite temporal para guardar dicha información
    final del proyecto
  • Ficheros con IP codificada no real

26
Conclusiones
  • Contenidos
  • Contenidos útiles solo para la población
    universitaria
  • Se ha producido nueva información contenidos
    referentes a la temática de las páginas, datos
    tomados automáticamente (promedio de páginas,
    número de sesiones,...) páginas seguras
  • Lista más amplia de posibles datos obtenibles
    automáticamente
  • Superior a los paneles Nielsen? - Número de
    personas limitado, sesgo por forma de inclusión
    en panel, modelo de negocio que evita difusión de
    datos -

27
Conclusiones
  • Anàlisis de logs, aunque se tiene detalle, cuesta
    conceptualizar (necesidad de datos adicionales)
  • Logística i normas legales
  • Respuesta limitada (reticencia a participar en
    seguimiento?)
  • Normas jurídicas claras para dar confianza
  • Aplicar proyecto a ISP requiere infraestructura,
    ganas de participar de ISP y público
  • Número de variables comunes menor (desde punto de
    vista logístico)

28
Conclusiones
  • Metodología
  • Variables comunes poco explicativas de las
    variables específicas
  • Variables específicas con poca especificidad
    muy agregadas i generalizadas -
  • Población con comportamientos contradictorios,
    muy variada

29
Conclusiones
  • Metodología
  • Revisión a fondo de los parametros usados en KNN
    (número d ejes MCA, número de vecinos, forma de
    imputar-los)
  • Aplicación de nuevos parámetros para evaluar
    calidad de la imputacion mantenimiento de datos
    marginales, mantenimiento de las correlaciones,
    exactitud de los datos imputados
  • Se ha conseguido la preservación de la
    homogeneidad escenario real, con datos
    marginales similares, pero poca exactitud en cada
    individuo

30
  • Anexos

31
Datos sobre los usuarios de Internet
Nielsen/NetRatings WebIntercept base de 3000000
millones de usuarios Sitecensus cookies,
tags Netview Panel de 3.600 usuarios Datos
habituales de Nielsen Sessions/usuario, pàginas
vistas/usuario, pàginas únicas vistas/u.,
dominios accedidos/u, duración de las
sesiones/u. Objetivo saber que pasa en Internet
no és aleatorio
32
Webintercept
33
Sitecensus
  • TAG en las páginas
  • Cookies (són estables?) Browser based audience
    measurement
  • Logs descartados (Firewalls, caching)
  • What is actually viewed

34
Datos de RED.ES
Panel de Taylor, Nelson Sofres
El presente informe ha sido realizado con la
asistencia técnica de la empresa de investigación
de mercados Taylor Nelson Sofres y su división
especializada en nuevas tecnologías. Su alcance
temporal corresponde a la oleada VII del Estudio
sobre la demanda de servicios de
Telecomunicaciones y Sociedad de la Información
que se ofertan al segmento residencial en España,
es decir, al periodo comprendido entre Enero y
Marzo de 2005, así como a la V oleada -tercer
trimestre del año anterior- con fines
comparativos.
35
Datos RED.ES
  • CARACTERIZACIÓN DE LOS GRUPOS de usuarios
  • Usuarios Intensivos Estables
  • Incorporados
  • Usuarios Progresivos
  • Usuarios Estables
  • Usuarios Regresivos
  • Ex Usuarios

36
Indicadores anteriores solicitados por Red.es
(Observatorio SI)
  • Número de sesiones web (segmentado
    sociodemográfico)
  • Número de dominios visitados (id.)
  • Páginas vistas total y por sesión (id.)
  • Tiempo de navegación web total y por sesión
    (id.)
  • Tiempo dedicado a una página vista
  • Distribución horaria de conexión a Internet
  • Porcentaje de páginas vistas con conexiones
    seguras
  • Top ten de los sitios web

37
Indicadores solicitados por Red.es (Observatorio
SI)
  • Perfil de audiencia desde el hogar de sitios web
    de administraciones públicas
  • Clasificación de sitios web de administraciones
    públicas por audiencia única, páginas vistas,
    número de visitas y tiempo de navegación
  • Tiempo medio de navagación, número medio de
    páginas y dominios visitados por tipo de conexión
  • Uso de diferentes tipos de banda ancha en hogares

38
  • Descripcion de al metodología

39
File grafting in Diastasis
Fusion of households surveys with internet data
Common variables
Household data
Survey data
RECEPTOR FILE
Web-data
DONOR FILE
Internet data
Objective To produce a representive file
simulating complete real data survey data
(actual) with web data (imputed).
40
1. Positioning donors and receptors in the
same factorial subspace
Multivariate Descriptive Analysis PCA, MCA,
... taking as active the common variables
41
Instrumental Clustering
Partition of donors in a large number of final
classes by hierarchical clustering
42
K-nn module
  • A branch bound search of the k nearest donors
    for each receptor. A table with, say 40
    neighbours per each receptor is produced and
    stored.

Receptors
Donors
F2
D1
R1
D2
R2
D3
F1
R3
R4
D4
R5
D5
R6
D6
D7
43
The DIASTASIS process
Log files on volonteer UPC professors and staff
Specific survey on UPC professors and staff
44
Classification Process
Training docs (YahooEnglish)
Training docs (YahooSpain)
Test docs (Web Log)
45
First Impressions Web Log File
Sat Feb 1 005147 2003 010.010.010.028
http//arc6.msn.com/ADSAdClient31.dll? Sat Feb 1
005147 2003 010.010.010.028 http//svcs.microsof
t.com/svcs/mms/ads.asp? Sat Feb 1 005147 2003
010.010.010.028 http//svcs.microsoft.com/svcs/mms
/adxml main.asp? Sat Feb 1 005147 2003
010.010.010.028 http//www.msn.es/messenger/imtoda
y.xml? Sat Feb 1 005306 2003 010.010.010.028
http//www.msn.es/PIDL/CONTENT/40231/ULI-e0a57f63.
gif Sat Feb 1 005346 2003 010.010.010.028
http//www.msn.es/PIDL/CONTENT/40249/ULI-1464c6c2.
gif Sat Feb 1 025148 2003 010.010.010.028
http//svcs.microsoft.com/svcs/mms/adxml
main.asp? Sat Feb 1 025149 2003
010.010.010.028 http//arc6.msn.com/ADSAdClient31.
dll? Sat Feb 1 045150 2003 010.010.010.028
http//arc6.msn.com/ADSAdClient31.dll? ...
  • Original log file 511977 entries
  • Many pictures GIF (50.3) or JPG (12.3)
  • 91799 are text entries (17.9), 20215 unique text
    documents

46
Encuesta
  • Cuestionario

47
Encuesta
48
Encuesta
49
Encuesta
50
Encuesta
51
Encuesta
52
Encuesta
53
Encuesta
54
Encuesta
55
Encuesta
56
Encuesta
57
Encuesta
58
Encuesta
59
Encuesta
60
Encuesta
Write a Comment
User Comments (0)
About PowerShow.com