An - PowerPoint PPT Presentation

About This Presentation
Title:

An

Description:

An lisis Bibliom tricos en Internet Alicia Ocaso y Silvia Spinak. - 1999. 1 – PowerPoint PPT presentation

Number of Views:69
Avg rating:3.0/5.0
Slides: 66
Provided by: Enriq88
Category:

less

Transcript and Presenter's Notes

Title: An


1
Análisis Bibliométricos en Internet
  • Alicia Ocaso y Silvia Spinak. - 1999.

1
2
Bibliometría
  • Definición
  • Bibliometría es la aplicación de análisis
  • estadísticos para estudiar las características
  • del uso y creación de documentos.
  • Spinak, E. 1996. Diccionario Enciclopédico de
    Bibliometría, Cienciometría e Infometría. Pág.
    34.

2
3
Aplicación en la Web
  • Aplicar hipótesis y leyes de la Bibliometría
    para
  • Analizar el comportamiento de los documentos
  • Medir recursos, acceso y utilidad de la
    información publicada en Internet
  • Valorar el impacto de esa información

3
4
Sitio
  • Def. 1 es un grupo de páginas Web localizadas
    en la misma dirección IP
  • Def. 2 un conjunto de páginas que se relacionan
    temáticamente dentro de una misma dirección IP
  • OCLC Research / Web Characterization Project
    (Setiembre 1999)

4
5
Página
  • Unidad de información
  • Consiste en uno o más recursos Web, que serán
    vertidos simultáneamente como una unidad en la
    pantalla. Los recursos Web son el texto,
    imágenes, sonido, etc.
  • Página Documento

5
6
Qué medimos en la Web?
  • A nivel macro
  • Con las direcciones IP medimos
  • sitios
  • Con los motores de búsqueda medimos páginas

6
7
Algunos números
7
8
Cantidad de sitios
  • Número de sitios
  • 4,882,000 (/- 3)
  • Crecimiento
    1997 1998 1999
    1,570,000
    2,851,000 4,882,000
  • Permanencia
  • Direcciones IP cambiadas 1998-1999 44
  • OCLC Online Computer Library Center, (Setiembre
    1999)

8
9
Recuperación de páginas
  • Cobertura estimada de diferentes buscadores
    según NEC
  • Steve Lawrence and C. Lee Giles, NEC Research
    Institute (Setiembre 1999)

9
10
Cantidad de páginas
  • Según Nature, se estima que existen unas 800
    millones de páginas.
  • Porcentaje de cobertura por los distintos
    buscadores
  • Danny Sullivan, Search Engine Watch (Setiembre
    1999)

10
11
Cantidad de páginas
  • Cantidad de páginas indexadas por los distintos
    buscadores
  • Danny Sullivan, Search Engine Watch (Setiembre
    1999)

11
12
Motores de búsqueda
  • Crecimiento temporal
  • Danny Sullivan, Search Engine Watch (Setiembre
    1999

12
13
Distribución por idioma
  • Acceso por idioma 57 en inglés
  • Global Reach Web Site

13
14
Uso de la Web
  • En Terabytes trasmitidos de 1992 a 1995.
  • 1 Terabyte 1 billón de bytes más de 15.000
    CDs
  • Ray Larson, Berkeley, 1996

14
15
Encuestas de uso de la Web
  • Las encuestas buscan detectar
  • las páginas más citadas
  • los sitios más importantes y productivos
  • qué nuevas palabras pueden ser utilizadas para
    clasificar los sitios, y sus documentos o páginas

15
16
Tipos de encuestas
  • Preguntas a los usuarios
  • Muestreos de documentos

16
17
Una metodología
  • Georgia Tech Graphics, Visualization, and
  • Usability Web Surveys
  • programas inteligentes
  • recopilación de datos
  • uso intensivo de análisis estadístico
  • recolección de datos cualitativos (formularios
    HTML)
  • grandes muestreos y muestreos al azar
  • http//donturn.fis.utoronto.ca/research/augmentis.
    html

17
18
Objetivos de las encuestas
  • Bibliométricamente, las encuestas buscan hacer
    agrupaciones (clusters) de distintos tipos para
    determinar cuáles son las tendencias en el uso de
    la Web
  • Pueden medir cómo reaccionan los usuarios y cómo
    utilizan los documentos sin necesidad de
    preguntarles directamente

18
19
Características de los documentos Web
  • Del mismo modo que existen diferentes guías de
    publicación y normas que influyen en la
    Bibliometría de los documentos impresos, los
    documentos Web también tienen sus características.

19
20
Grupo de investigaciónInktomi (Hotbot)
  • Examinaron
  • Tamaño del documento
  • Uso de los tags de HTML
  • Cantidad de tags con respecto al tamaño promedio
    de documento
  • Uso de los atributos de los tags
  • Errores de sintaxis de los tags
  • Uso de la extensión de especificación de browser
  • Protocolos utilizados en las URLs hijas
  • Tipo de archivo utilizado en las URLs hijas
  • Número de links embebidos en las páginas
  • Legibilidad
  • Utilización de puerto en el servidor
  • http//donturn.fis.utoronto.ca/research/augmentis.
    html

20
21
Grupo de investigaciónInktomi (Hotbot)
  • Crearon tablas ponderadas detectando información
    del tipo
  • cuáles eran las 10 términos más utilizados
  • cuáles los 10 errores más comunes
  • Conclusiones
  • existencia de múltiples características medibles
  • posibilidad de identificar la unicidad del
    documento.
  • este tipo de información luego podría ser
    utilizada para comparar e identificar el
    comportamiento de los usuarios con respecto a
    determinado tipo de documento.

21
22
Qué hacemos con estos números?
22
23
Dificultades en el análisis estadístico
  • Imposibilidad de tener cifras exactas de sitios y
    páginas
  • Inestabilidad de los sitios y páginas

23
24
Inestabilidad
  • Los sitios y páginas de Internet son efímeros y
    muy cambiantes.
  • Los documentos en la Web son el punto intermedio
    de lo publicado y lo no publicado.
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence Pag. 162.

24
25
Estudios realizados
  • E.E.U.U.
  • Wallace Koehler
  • Diciembre de 1996 a Enero 1998
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence.
  • Israel
  • Bar-Ilan, J. y Peritz, B.
  • Enero a Junio de 1998
  • Bar-Ilan, J. y Peritz, B. 1999. The
    Availability and Life Span of a Specific Topic
    on the Web the Case
  • of informetrics a Quantitative and Content
    Analysis

25
26
Cuán permanentes son los sitios en Internet?
  • Tres tipos de comportamiento
  • Permanencia
  • en un año, el 31 habían cambiado de dirección
  • Intermitencia
  • en una semana, el 5 desaparece pero vuelven
  • Desaparición
  • en una semana, el 0,5 desaparece totalmente
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence Pag. 179.

26
27
Cuán constantes son los sitios en Internet?
  • El 97 sufrieron algún tipo de cambio
  • Cambio
  • Estructura
  • Tamaño
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence Pag. 179.

27
28
Difiere el comportamiento por tipo de sitio?
  • Los más estables
  • nombre de institución en el dominio
  • los sitios .gov
  • Los que más cambian
  • los sitios .com
  • los sitios .edu
  • Difieren según quién lo publique
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence Pag. 163-164.

28
29
Internet cerebro mundial
  • El escritor H.G.Wells de finales de la década
    del 30, predijo la creación de un cerebro mundial
    en el libro World Brain.
  • Si Internet es el cerebro mundial, podemos decir
    que
  • tiene poca memoria
  • cuando recuerda, cambia mucho de manera de
    pensar.
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence Pag. 179.

29
30
Medición de Impacto
30
31
Impacto de los sitios en la Web
  • Buscar patrones de distribución y uso de la
    información basado en citas y sus frecuencias de
    uso
  • La bibliometría mide el impacto
  • número de citaciones al documento en un año
  • / la cantidad de publicaciones
  • Las citas en Internet
  • cantidad de visitas
  • enlaces o links

31
32
Mediciones NO objetivas
  • Contar cantidad de accesos
  • Engañoso
  • Hábitos del usuario
  • Contar los enlaces o links
  • Efecto Mateo
  • Efecto Matilda

32
33
Categorización de sitios según su actividad de
citas
  • Ciegos
  • Sólo reciben citas y no responden
  • Autoritativos
  • Se los cita más que lo que ellos citan a otros
  • Ejes
  • Citan más de lo que los citan a ellos
  • Puentes
  • Citan en casi la misma proporción que son citados
  • http//www.undoc.csic.es/cybermetrics/cybermetrics
    99.html

33
34
Gráfica de categorización
  • http//www.undoc.csic.es/cybermetrics/cybermetrics
    99.html

34
35
Leyes Bibliométricas en la Web
  • Ley de Zipf
  • Ley de Bradford

35
36
Ley de Zipf
  • Analiza las distribuciones de frecuencias en una
    lista ordenada de fuentes que producen items,
    ej. Palabras.
  • Ley del mínimo esfuerzo (comportamiento
    individual de todo individuo).

36
37
Aplicación en la Web
  • Cuanto más enlaces o links deba hacer el usuario
    para llegar a una página, menos visitas recibirá.
  • El esfuerzo en la Web se mide en tiempo y no en
    dinero.
  • http//donturn.fis.utoronto.ca/research/augmentis.
    html

37
38
Ley de Bradford
  • Si las revistas científicas se ordenan en
    secuencia decreciente de productividad de
    artículos sobre un tema dado, éstas pueden
    dividirse en un núcleo de revistas dedicadas más
    en particular al tema y varios grupos o zonas
    conteniendo el mismo número de artículos que el
    núcleo, donde el número de revistas en el núcleo
    y las zonas sucesivas estará en la relación de 1
    n n2 .
  • Spinak, E. 1996. Diccionario Enciclopédico de
    Bibliometría, Cienciometría e Infometría. Pág.
    38.

38
39
Ley de Bradford
  • Las publicaciones se distribuyen en un núcleo y
    luego en una zona de dispersión que Bradford la
    dividió en 2 partes.
  • Las primeras publicaciones se agruparán en el
    núcleo y las siguientes en la zona de dispersión
    en esa relación matemática.
  • Ejemplo
  • En el núcleo
  • 8 revistas publican 110 artículos
  • En zona de dispersión
  • 29 revistas publican 133 artículos
  • 127 publican 152 artículos

39
40
Aplicación en la Web
  • La indexación temática cumple la misma
    distribución.
  • En Internet se observa que a medida que
    transcurre el tiempo, al principio hay un
    incremento sostenido en el enlace a un tema, pero
    luego sigue una abrupta y permanente reducción.

40
41
Sitios Actualizados
  • Expresión
  • R número de enlaces en el 1er. Año
  • R, Ra, Ra2, Ra3, Ra4, ..., Rat-1
  • Sirve para medir el grado de obsolescencia en el
    tiempo.
  • Necesidad de mantener los sitios actualizados.

41
42
Estudios de Casos
42
43
I) Datos bibliométricos a partir de un servidor
  • Downie analizó las siguientes categorías
  • Análisis de la solicitud de información
  • Análisis basados en el usuario
  • Quién es (organización)
  • De dónde viene (ubicación geográfica)
  • Qué es (qué tipo de browser utiliza)
  • Análisis basado en los bytes
  • Downie, Stephen J. 1996

43
44
Datos bibliométricos a partir de un servidor
  • Estas técnicas pueden unirse para crear un
    escenario detallado de la visita o visitas del
    usuario al sitio y de sus preferencias, sus
    problemas y sus acciones.
  • Downie descubrió que las solicitudes de
    información coincidían con la distribución de
    Zipf.

44
45
Datos bibliométricos a partir de un servidor
  • Otros resultados confirmaron que una
    configuración pobre del servidor así como falta
    de acceso y uso a los archivos logs completos
    hacían que se perdiera mucha información.
  • Se debe destacar que Downie tuvo en cuenta
    criterios éticos para la observación que la
    mayoría de los webmaster no practican.

45
46
II) Valorando el impacto
  • Estudio realizado por Josep M. Rodríguez i Gairín
    de la Universidad Politécnica de Catalunya, 1997.
  • Usando capacidad de indización y recuperación del
    buscador Altavista
  • http//escher.upc.es/josep-/publica/altavis.htm

46
47
Limitaciones del Citation Index de Internet
  • Utiliza metainformación de las KeyWords
  • para generar sus índices
  • Anchorxx
  • Hostxx
  • imagexx
  • linkxx
  • titlexx
  • http//escher.upc.es/josep-/publica/altavis.htm

47
48
Midiendo el impacto
  • Contadores estadísticos
  • complementado con
  • Páginas externas que las citan
  • Impacto de la Institución
  • Páginas que son citadas/páginas publicadas
  • http//escher.upc.es/josep-/publica/altavis.htm

48
49
Análisis comparativo
  • Impacto de Universidades españolas
  • UPM UPC UJI UCM
  • Páginas 6708 5774 1859 1706
  • Enlaces 2742 3695 7483 1861
  • Cociente 0.40 0.63 4.02 1.09
  • UPM Universidad Politécnica de Madrid
  • UPC Universidad Politécnica de Catalunya
  • UJI Universidad Jaume I
  • UCM Universidad Complutense de Madrid
  • http//escher.upc.es/josep-/publica/altavis.htm

49
50
Consideraciones a este modelo de valoración
  • Los robots no recogen todas las páginas
  • (limitaciones bajo suscripción, passwords,
    páginas aisladas, protocolos de exclusión, etc.)
  • La fiabilidad en la búsqueda es bastante
    discutible
  • La cantidad de enlaces no es proporcional a la
    calidad de la información
  • http//escher.upc.es/josep-/publica/altavis.htm

50
51
III) Análisis de citación y co-citación en la Web
  • Estudio realizado por Ray Larson de la
  • Universidad de California, Berkeley, 1996.
  • El análisis de co-citación se ha desarrollado en
    las ciencias para identificar el centro de
    artículos, autores o revistas en un campo de
    estudio.
  • http//sherlock.berkeley.edu/asis96/asis96.html

51
52
Adaptaciones para la Web
  • Seleccionar el conjunto central de documentos
    para el estudio (foco)
  • Recuperación de frecuencias de cocitación dentro
    del foco
  • Compilar las cocitaciones en una matriz de
    frecuencia
  • Análisis de correlación para convertir esas
    frecuencias en coeficientes de correlación
  • Análisis multivariado de la matriz de correlación
  • Interpretación del mapa de resultado
  • http//sherlock.berkeley.edu/asis96/asis96.html

52
53
Recolección de Información
  • Temas
  • Sistema de información geográfica
  • Ciencias de la Tierra
  • Testeo remoto por satélite
  • Se encontraron 115 Páginas
  • de las 43 más relevantes --gt 7209 links
  • luego análisis --gt 332 --gt 115
  • análisis exhaustivo --gt 34
  • http//sherlock.berkeley.edu/asis96/asis96.html

53
54
Foco de estudio
  • Foco de estudio 34 direcciones
  • http//sherlock.berkeley.edu/asis96/asis96.html

54
55
Matriz de cocitación
  • Citas por cada par de URLs
  • http//sherlock.berkeley.edu/asis96/asis96.html

55
56
Representación geométrica de la relación
  • Escala Mutlidimensional (MDS)
  • http//sherlock.berkeley.edu/asis96/asis96.html

56
57
Resultados del estudio
  • Los enlaces hipertexto funcionan de manera
    parecida a las co-citaciones de autores.
  • Aplicar las técnicas de co-citación produjo
    resultados razonables.

57
58
Conclusiones
58
59
Conclusiones
  • La Web es, por un lado un medio poderoso para
    poder publicar a bajo costo y gran rapidez.
  • Por otro lado, ese crecimiento en cantidad no
    acompaña a la calidad ni en la posibilidad de
    fácil recuperación.

59
60
Conclusiones
  • La información en la Web fluye hacia la entropía.
    Es por eso que es necesario aplicar teorías de
    otras disciplinas para desarrollar nuevos
    métodos, técnicas de modelado para examinar esta
    telaraña tan compleja.
  • Sin duda las Ciencias de la Información pueden
    aportar una herramienta Bibliometría.

60
61
Conclusiones
  • Conocer las características de los documentos y
    la arquitectura de los sitios es fundamental para
    el desarrollo armónico de la Web del futuro.
  • Debe incentivarse el uso de técnicas
    bibliométricas en nuestra realidad regional y
    nacional.

61
62
Bibliografía
  • Abad, J.R. 1997. Breve historia de Internet.
    Madrid Ediciones Anaya.
  • Bar-Ilan, J. y Peritz, B. 1999. The
    Availability and Life Span of a Specific Topic
    on the Web the Case of informetrics a
    Quantitative and Content Analysis En Preceedings
    of the Seventh Conference of the International
    Society for Scientometrics and Informetrics,
    Mexico, U.de Colima.
  • Corvillo Martínez, J. 1998. Indización web con
    identificadores geográficos para zonas
    específicas. http//personal.redestb.es/jordicm/b
    p98esp.html.
  • Downie, Stephen J. 1996. Informetrics and the
    World Wide Web a case study and discussion.
    Canadian Association for Information Science,
    June 2-3, at University of Toronto. En
    Turnbull,D. 1999.
  • Koehler, W. 1999. An Analysis of Web Page and
    Web Site Constancy and Permanence. En Journal of
    the American Society for Information Science.

62
63
Bibliografía
  • Larson, R. 1996. Bibliometrics of the Wold Wide
    Web An Exploratory Analysis of the Intellectual
    Structure of Cyberspace.http//sherlock.berkeley.
    edu/asis96/asis96.html
  • Rodríguez, J.M. 1997. Valorando el impacto de
    la información en Internet Altavista, el
    Citation Index de la Red. En
    http//escher.upc.es/josep-/publica/altavis.htm
  • Spinak, E. 1996. Diccionario Enciclopédico de
    Bibliometría, Cienciometría e Infometría.
    Venezuela UNESCO.
  • Turnbull,D. 1999. Augmenting Information Seeking
    on the World Wide Web Using Collaborative
    Filtering Techniques. http//donturn.fis.utoronto
    .ca/research/augmentis.html

63
64
Bibliografía
  • Páginas visitadas del 16 al 27 de Octubre de 1999
  • http//www.nw.com/zone/WWW/report.html.
  • http//www.nua.ie/surveys/
  • http//neci.nj.nec.com/hompages/lawrence/websize.h
    tml.
  • http//www.oclc.org/oclc/research/projects/webstat
    s/statistics.htm.
  • http//www.oclc.org/oclc/research/projects/webstat
    s/definitions.htm.
  • http//www.ciolek.com/WWWVL-InfoQuality.html.
  • http//www.searchenginewatch/com/reports/sizes.htm
    l.
  • http//euromktg.com/globstats
  • http//undoc.csic.es/cybermetrics/link01.html
  • http//www.cr
  • http//www.undoc.csic.es/cybermetrics/cybermetrics
    99.html
  • http//donturn.fis.utoronto.ca/research/augmentis.
    html

64
65
Fin
65
Write a Comment
User Comments (0)
About PowerShow.com