Title: Project Foreseen outcomes
1Aplicación de la fusión de datos en las
estadÃsticas sobre los usos de TIC
Resultados del proyecto europeo DIASTASIS
Vicenç Meléndez IDESCAT
Toledo, 9 de Noviembre, 2005
2Diastasis definición
El proyecto Diastasis tiene por objetivo la
definición, medida y explotación de nuevos
indicadores socio-económicos o la mejora de
los existentes mediante la combinación de
datos estadÃsticos sobre uso de los web con datos
socio-económicos referidos a la misma base de
usuarios de Internet
3Diastasis Análisis y diseño mejoras en la
encuesta de uso de las TIC en hogaresesquema
Variables Socio-económicas comunes
Contenido temático indizado de las páginas
halladas en los logfiles, más información técnica
facilitada por los ISPs
Microdatos de la encuesta a los hogares sobre uso
de Internet (uso TIC)
Microdatos producida por fusion
4Diastasis obligaciones contractuales
milestones (hitos)
- Definición de una metodologÃa estadÃstica nueva
para correlacionar datos estadÃsticos de uso de
webs con datos de hogares y Pymes - Definición, medida y explotación de nuevos
indicadores estadÃsticos y - Preparación de un sistema de demostración que
funcionará durante la prueba piloto del proyecto.
5Resumen de resultados
- Siguiendo los objetivos prioritarios que se
señalaban en el proyecto, se ha desarrollado una
metodologÃa estadÃstica de fusión de datos, se ha
creado una herramienta de software que ha
implantado esta metodologÃa y se ha dado lugar a
resultados estadÃsticos concretos que han
mejorado la base de información existente. - La herramienta de software software abierto,
excepto por lo que respecta a la programación de
la minerÃa de datos que se contempla en el
proyecto desarrollada, hace posible esta fusión
de un modo profesionalizado. - Se ha llevado a cabo una prueba práctica de todo
lo dicho en el proyecto, circunscrita al personal
de laUPC - De manera auxiliar, se han puesto en marcha
herramientas potentes de recogida de datos
elemento complejo por la gran cantidad de
información manejada - y de adecuación de la
información en bruto al tratamiento estadÃstico
eliminación de información sobrante,
identificación de lengua, minerÃa de datos para
asignar categorÃas temáticas a las páginas
consultadas por los individuos, etc.
6Diastasis Analysis and Design requerimientos de
los usuarios y fuentes de datos
- Motivación del proyecto
- Se necesita más detalle sobre el uso de Internet
- Se necesita más capacidad para relacionar temas
aparentemente separados - Se dispone de instrumentos parciales encuestas
oficiales en hogares - Se dispone de grandes cantidades de información
digital en bruto - Se dispone de tecnologÃas que permiten aprovechar
este hecho - El volumen de información digital es tan amplio
que se puede trazar un perfil completo de los
usuarios y se requieren, por tanto, instrumentos
jurÃdicos para controlar el uso de estos datos
7 8Proceso Diastasis
Log files on volonteer UPC professors and staff
ED
soft
Specific survey on UPC professors and staff
9Encuesta
- Las preguntas (encuesta en forma de página web)
se agruparon en 8 módulos - Datos personales y del entorno de trabajo
- Intensidad de uso de los servicios de Internet
- Usos detallados de Internet
- Valoración de las actividades de investigación
- Preocupaciones respecto a Internet
- Papel de Internet en la docencia (aspectos
positivos) - Papel de Internet en la docencia (dificultades)
- Conocimiento de lenguas
10Fichero de conexiones a Internet
Date InfoTime Info IP address info (unique for
each participant) URL
11Datos obtenidos automà ticamente
12Participación del usuario
- Protocols used by IP
- User participation in days
- Number of total days allowed to participate in
the pilot - Number of total days between first ans last day
used by IP - Number of days in which IP have been used
- Average number of participant/non participant
users (issuing an http request or receiving an
answer) - Per day (from Monday to Sunday)
- Per hour from 9 to 9
13Páginas descargadas
- Pages downloaded
- Number of captured http requests (pages) by IP
- Number of different pages seen by IP
- Number of captured http requests (pages) by IP by
main languages - Number of secure pages seen by IP
- Number of different secure pages seen by IP
14Dominios accedidos
- Domains accessed
- Number of domains accessed by IP
- Number of different domains accessed by IP
- Number of different domains accessed by all users
- 100 most used three level domains
- Matrix of "IP-domains" for Eicstes type analysis
15Sesiones
- Sessions
- Number of sessions by IP
- Time of use according to the definition of
session - Volumes of information
- Volume of information downloaded by IP
- Volumes of information by main type of files
received by IP - Domain refers to second level domain
irrespective of top level domain - Session, according to Nielsen a session
finishes after 30 or more minuts of inactivity
16Variables comunes
- List of Common VariablesLabels
- 1. TIPUSPER PDIÂ PAS
- 2. PDI Full professor, Ass. Professor, Full tech
professor, Ass. Tech professor, Permanent
contract Temporal contract Researcher, Postdoc Res
earcher junior Reponse manquante - 3. PAS recPAS Civil servant PAS Laboral, Reponse
manquante - 4. DEPTPAS Departament Center, General
Services, Institute, Other place, Reponse
manquante - 5. ANTIREC 1 - 5 years 6 - 15 years 15 years
- 6. UNIESTR4 No Yes
- 7. EDATREC 20-35 years 36-45 years more than 46
years - 8. ANYUSA from 0 - 2 years from 2 - 5 years more
than 5 years - 9. TEMPUSA Less than 1 hour Between 1 - 2
hours Between 2 - 3 hours More than 3 hours - 10. SUBCRIT No Yes
17Variables comunes
- 11. PAGINA No Yes
- 12. IMPINTDO No Yes Reponse manquante
- 13. rACTRECER Low Fair High Reponse manquante
- 14. rACTTRAST Low Fair High Reponse manquante
- 15. rINTINV Low Fair High Reponse manquante
- 16. rANGLES Low Fair High Reponse manquante
- 17. rALEMANY Low Fair High Reponse manquante
18Temas de clasificación
- 1. Entertainment
- E1 recreation S27 espectaculos_y_diversion_organiz
aciones C7 espectacles_i_diversio_organitzacions
E18recreation_outdoors S6 deportes_y_ocio_al_aire_
libre C31 esports_i_lleure_a_l_aire_lliureE22
recreation_sports S16 deportes_y_ocio C25
esports_i_lleure E10 entertainment S19
deportes_y_ocio_deportes C2 esports_i_lleure_espor
ts E14 entertainment_music S4 espectaculos_y_diver
sion_musica C10 espectacles_i_diversio_musica S12
espectaculos_y_diversion C21 espectacles_i_diversi
o
19Temas de clasificación
- 2. Arts
- E2 arts S8arte_y_cultura C26 art_i_cultura E12
arts_organizations S3 arte_y_cultura_organizacione
s C29 art_i_cultura_organitzacions - 3. TIC (Computers and Internet)
- E3 computers_and_internet S17 internet_y_ordenador
es C13 internet_i_ordinadors  S24
internet_y_ordenadores_organizaciones C19
internet_i_ordinadors_organitzacions
20Temas de clasificación
- 4. Education
- E4 education_organizations  C20
ensenyament_i_formacio_organitzacions E17
educationS10 educacion_y_formacion C4
ensenyament_i_formacio - 5. Social sciences
- E5 social_science_linguistics_and_human_languages
S2 ciencias_sociales_linguistica C15
ciencies_socials_lingueistica E20 social_science
S29 ciencias_sociales C5 ciencies_socials  S1
ciencias_sociales_organizaciones C17
ciencies_socials_organitzacions - 6. References
- E6 reference S14 materiales_de_consulta C16
materials_de_consulta
21Temas de clasificación
- 7. Society
- E7 society_and_culture S11 sociedad_culturas_y_gru
pos C24 societat_cultures_i_grups  S18 sociedad
C11 societat  S20 sociedad_religion_y_espiritualid
ad C8 societat_religio_i_espiritualitat  S22
sociedad_organizaciones C22 societat_organitzacion
s  S7 sociedad_medio_ambiente_y_naturaleza C32
societat_medi_ambient_i_natura - 8. Health
- E8 health S15 salud C12 salut  S23
salud_organizaciones C3 salut_organitzacions
22Temas de clasificación
- 9. Government
- E9_government_international_organizations S30
politica_y_gobierno_organizaciones  E13
government S 26 politica_y_gobierno_organizaciones
_internacionales  S9 politica_y_gobierno C1
politica_i_govern - 10. Business
- E11 business_and_economy_business_to_business  C6
23Temas de clasificación
- economia_i_negocis_productes_i_serveis_per_a_les_e
mpreses E16 business_and_economyS5economia_y_negoc
ios C9 economia_i_negocis E19 business_and_economy
_organizations  C23 economia_i_negocis_organitzaci
ons - 11. Media
- E15 news_and_media S28 medios_de_comunicacion C28
mitjans_de_comunicacio - 12. Science
- E21 science S21 ciencia_y_tecnologia C27
ciencia_i_tecnologia  S25 ciencia_y_tecnologia_org
anizaciones C14 ciencia_i_tecnologia_organitzacion
s - 13. Geography
- Â Â S13 zonas_geograficas C18 zones_geografiques
24- Dato estadÃsticos obtenidos
25Temas legales
- Ley Orgánica 15/1999
- de Protección de Datos de Carácter Personal
- Tratamiento de ficheros por los distintos
partners, no cesión internacional de datos en
área de igual protección de datos (Europa) - LÃmite temporal para guardar dicha información
final del proyecto - Ficheros con IP codificada no real
26Conclusiones
- Contenidos
- Contenidos útiles solo para la población
universitaria - Se ha producido nueva información contenidos
referentes a la temática de las páginas, datos
tomados automáticamente (promedio de páginas,
número de sesiones,...) páginas seguras - Lista más amplia de posibles datos obtenibles
automáticamente - Superior a los paneles Nielsen? - Número de
personas limitado, sesgo por forma de inclusión
en panel, modelo de negocio que evita difusión de
datos -
27Conclusiones
- Anà lisis de logs, aunque se tiene detalle, cuesta
conceptualizar (necesidad de datos adicionales) - LogÃstica i normas legales
- Respuesta limitada (reticencia a participar en
seguimiento?) - Normas jurÃdicas claras para dar confianza
- Aplicar proyecto a ISP requiere infraestructura,
ganas de participar de ISP y público - Número de variables comunes menor (desde punto de
vista logÃstico)
28Conclusiones
- MetodologÃa
- Variables comunes poco explicativas de las
variables especÃficas - Variables especÃficas con poca especificidad
muy agregadas i generalizadas - - Población con comportamientos contradictorios,
muy variada
29Conclusiones
- MetodologÃa
- Revisión a fondo de los parametros usados en KNN
(número d ejes MCA, número de vecinos, forma de
imputar-los) - Aplicación de nuevos parámetros para evaluar
calidad de la imputacion mantenimiento de datos
marginales, mantenimiento de las correlaciones,
exactitud de los datos imputados - Se ha conseguido la preservación de la
homogeneidad escenario real, con datos
marginales similares, pero poca exactitud en cada
individuo
30 31Datos sobre los usuarios de Internet
Nielsen/NetRatings WebIntercept base de 3000000
millones de usuarios Sitecensus cookies,
tags Netview Panel de 3.600 usuarios Datos
habituales de Nielsen Sessions/usuario, pà ginas
vistas/usuario, pà ginas únicas vistas/u.,
dominios accedidos/u, duración de las
sesiones/u. Objetivo saber que pasa en Internet
no és aleatorio
32Webintercept
33Sitecensus
- TAG en las páginas
- Cookies (són estables?) Browser based audience
measurement - Logs descartados (Firewalls, caching)
- What is actually viewed
34Datos de RED.ES
Panel de Taylor, Nelson Sofres
El presente informe ha sido realizado con la
asistencia técnica de la empresa de investigación
de mercados Taylor Nelson Sofres y su división
especializada en nuevas tecnologÃas. Su alcance
temporal corresponde a la oleada VII del Estudio
sobre la demanda de servicios de
Telecomunicaciones y Sociedad de la Información
que se ofertan al segmento residencial en España,
es decir, al periodo comprendido entre Enero y
Marzo de 2005, asà como a la V oleada -tercer
trimestre del año anterior- con fines
comparativos.
35Datos RED.ES
- CARACTERIZACIÓN DE LOS GRUPOS de usuarios
- Usuarios Intensivos Estables
- Incorporados
- Usuarios Progresivos
- Usuarios Estables
- Usuarios Regresivos
- Ex Usuarios
36Indicadores anteriores solicitados por Red.es
(Observatorio SI)
- Número de sesiones web (segmentado
sociodemográfico) - Número de dominios visitados (id.)
- Páginas vistas total y por sesión (id.)
- Tiempo de navegación web total y por sesión
(id.) - Tiempo dedicado a una página vista
- Distribución horaria de conexión a Internet
- Porcentaje de páginas vistas con conexiones
seguras - Top ten de los sitios web
37Indicadores solicitados por Red.es (Observatorio
SI)
- Perfil de audiencia desde el hogar de sitios web
de administraciones públicas - Clasificación de sitios web de administraciones
públicas por audiencia única, páginas vistas,
número de visitas y tiempo de navegación - Tiempo medio de navagación, número medio de
páginas y dominios visitados por tipo de conexión - Uso de diferentes tipos de banda ancha en hogares
38- Descripcion de al metodologÃa
39File grafting in Diastasis
Fusion of households surveys with internet data
Common variables
Household data
Survey data
RECEPTOR FILE
Web-data
DONOR FILE
Internet data
Objective To produce a representive file
simulating complete real data survey data
(actual) with web data (imputed).
401. Positioning donors and receptors in the
same factorial subspace
Multivariate Descriptive Analysis PCA, MCA,
... taking as active the common variables
41Instrumental Clustering
Partition of donors in a large number of final
classes by hierarchical clustering
42 K-nn module
- A branch bound search of the k nearest donors
for each receptor. A table with, say 40
neighbours per each receptor is produced and
stored.
Receptors
Donors
F2
D1
R1
D2
R2
D3
F1
R3
R4
D4
R5
D5
R6
D6
D7
43The DIASTASIS process
Log files on volonteer UPC professors and staff
Specific survey on UPC professors and staff
44Classification Process
Training docs (YahooEnglish)
Training docs (YahooSpain)
Test docs (Web Log)
45First Impressions Web Log File
Sat Feb 1 005147 2003 010.010.010.028
http//arc6.msn.com/ADSAdClient31.dll? Sat Feb 1
005147 2003 010.010.010.028 http//svcs.microsof
t.com/svcs/mms/ads.asp? Sat Feb 1 005147 2003
010.010.010.028 http//svcs.microsoft.com/svcs/mms
/adxml main.asp? Sat Feb 1 005147 2003
010.010.010.028 http//www.msn.es/messenger/imtoda
y.xml? Sat Feb 1 005306 2003 010.010.010.028
http//www.msn.es/PIDL/CONTENT/40231/ULI-e0a57f63.
gif Sat Feb 1 005346 2003 010.010.010.028
http//www.msn.es/PIDL/CONTENT/40249/ULI-1464c6c2.
gif Sat Feb 1 025148 2003 010.010.010.028
http//svcs.microsoft.com/svcs/mms/adxml
main.asp? Sat Feb 1 025149 2003
010.010.010.028 http//arc6.msn.com/ADSAdClient31.
dll? Sat Feb 1 045150 2003 010.010.010.028
http//arc6.msn.com/ADSAdClient31.dll? ...
- Original log file 511977 entries
- Many pictures GIF (50.3) or JPG (12.3)
- 91799 are text entries (17.9), 20215 unique text
documents
46Encuesta
47Encuesta
48Encuesta
49Encuesta
50Encuesta
51Encuesta
52Encuesta
53Encuesta
54Encuesta
55Encuesta
56Encuesta
57Encuesta
58Encuesta
59Encuesta
60Encuesta