Title: Diapositiva 1
1Tecnologías Web 2.0 con PHPCursos de Extensión
Universitaria 2º cuatrimestre 2006/07 Extracción
de conocimiento de la Web Gijón, 14, 15 y 16 de
Marzo de 2007
2Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conceptos previos Conocimiento es información organizada y contextualizada que puede usarse para inferir nuevos significados y datos La minería de datos es el proceso de extracción de conocimiento útil a partir de grandes cantidades de datos mediante métodos generalmente estadísticos El término recuperación de información hace referencia al estudio de sistemas automáticos que permiten al usuario determinar la existencia (o no) de documentos relacionados con una necesidad de información formulada como una consulta textual La destilación de información va un paso más allá de la recuperación de información, p.ej. extracción de palabras clave, resumen automático o Question Answering
3Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Extracción de conocimiento de la Web La extracción de conocimiento de la Web, minería Web o Web mining tiene como objetivo extraer información útil mediante el procesamiento de los ingentes volúmenes de datos que existen en la Web y que se generan con su uso diario La minería Web puede dividirse en tres grandes áreas Extracción de conocimiento a partir de la estructura hipertextual de la Web (p.ej. algoritmos PageRank y HITS) Extracción de conocimiento a partir del uso de la Web (p.ej. logs de servidores y buscadores) Extracción de conocimiento a partir de los contenidos disponibles en la Web (la Web como corpus) Multidisciplinar aprendizaje automático, procesamiento de lenguaje natural, estadística, recuperación de información, bases de datos
4Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Recuperación de información clásica Modelo booleano Cada documento se representa como el conjunto de las palabras que contiene (pueden eliminarse palabras vacías y aplicarse stemming) Una consulta es una expresión lógica que combina palabras y operadores lógicos (AND, OR y NOT) Ejemplo (information AND retrieval) OR ir Demasiado sencillo ? Las consultas más refinadas apenas retornan documentos Las más abiertas obtienen demasiadas respuestas No hay ninguna medida de la relevancia de cada documento en relación con la consulta
5Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Recuperación de información clásica Modelo vectorial No todas las palabras son iguales, es necesario asignar a cada una un peso en función de La frecuencia de aparición en el documento (tf). Cuanto más se repita, mayor peso El número de documentos de la colección (idf). Cuanto más común sea, menor peso La longitud del documento. Un sistema IR no debe mostrar preferencia por documentos de una longitud determinada Cada documento será un vector de términos y pesos Las consultas se representan del mismo modo Es posible aplicar medidas de similitud/disimilitud puramente matemáticas (p.ej. coseno del ángulo entre vectores)
6Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Recuperación de información en la Web Algunos hechos diferenciales La mayor parte de los usuarios resuelven sus necesidades de información con 2 consultas o menos La mayor parte de los usuarios no pasan de la primera página de resultados de un buscador La mayor parte de usuarios examinan menos de 5 documentos entre los resultados La mayor parte de las consultas constan de 2 términos o menos Las consultas pueden ser Navegacionales (p.ej. google, páginas amarillas, uniovi, etc.) Transaccionales (p.ej. juegos, postales, tiempo, etc.) Informativas (p.ej. current time in alps france, palm how to restore backup, iron deficiency anemia, etc.)
7Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Búsquedas en la Web antes de Google Brin, S. y Page, L. 1998, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117. as of November 1997, only one of the top four commercial search engines finds itself. we have seen a major search engine return a page containing only "Bill Clinton Sucks" and picture from a "Bill Clinton" query. If a user issues a query like "Bill Clinton" they should get reasonable results since there is a enormous amount of high quality information available on this topic. Given examples like these, we believe that the standard information retrieval work needs to be extended to deal effectively with the web.
8Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos Demos un paseo Plagiar, v. Adoptar el pensamiento o el estilo de otro escritor, a quien uno jamás ha leído.Plagio, s. Coincidencia literaria entre un antecedente carente de mérito y un consecuente honorable. Siempre hay que acreditar las fuentes que hemos usado Bierce, A. 1906, The Devils Dictionary En los trabajos científicos se citan trabajos de terceros por dos razones para interpretarlos o en apoyo de la interpretación personal. Umberto, E. 1977, Cómo se hace una tesis. Las citas deben aportar algo nuevo o confirmar lo sabido con autoridad. Citando dotamos de autoridad a un tercero
9Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos Sigamos con el paseo Textos científicos y citas constituyen los nodos y aristas de un grafo Hace ya 80 años! que se estudian estos patrones Es posible determinar qué documentos, autores y revistas reciben más citas en términos absolutos y relativos Los documentos, autores y revistas más citados tendrán mayor autoridad
10Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos Donde dije cita digo hiperenlace Marchiori, M. 1997 The Quest for Correct Information on the Web Hyper Search Engines. The Sixth International WWW Conference (WWW 97). A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext. ... focusing separately on the "textual" and "hyper" components. The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects. Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it This is clearly unfeasible in practice, so, for practical reasons, we have to stop the analysis at a certain depth
11Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos Donde dije cita digo hiperenlace Marchiori, M. 1997 The Quest for Correct Information on the Web Hyper Search Engines. The Sixth International WWW Conference (WWW 97). A great problem with search engines' scoring mechanisms is that they tend to score text more than hypertext. ... focusing separately on the "textual" and "hyper" components. The presence of links in a Web object clearly augments the informative content with the information contained in the pointed Web objects. Recursively, links present in the pointed Web objects further contribute, and so on. Thus, in principle, the analysis of the informative content of a Web object A should involve all the Web objects that are reachable from it This is clearly unfeasible in practice, so, for practical reasons, we have to stop the analysis at a certain depth
12Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos Donde dije cita digo hiperenlace Jon Kleinberg define los conceptos de autoridad y hub Kleinberg, J.M. 1998, Authoritative sources in a hyperlinked environment, en Proceedings of the ninth annual ACM-SIAM symposium on Discrete algorithms, pp. 668-677. Una autoridad es un documento fuertemente enlazado Un hub es un documento que enlaza a muchas autoridades Esta técnica logró que el 50 de los resultados para las consultas fueran relevantes, frente al 40 de Yahoo! (un directorio) o Altavista Chakrabarti, S., Dom, B.E., Gibson, D., Kleinberg, J., Raghavan, P. y Rajagopalan, S. 1998, Automatic Resource Compilation by Analyzing Hyperlink Structure and Associated Text, en Proceedings of the 7th World-Wide Web conference, pp. 65-74.
13Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Motores de búsqueda modernos Google comienza a operar en 1998 Brin, S. y Page, L. 1998, The Anatomy of a Large-Scale Hypertextual Web Search Engine, Computer Networks and ISDN Systems, vol. 30, no. 1-7, pp. 107-117. El núcleo de su sistema de ponderación es el algoritmo PageRank, similar al método de Kleinberg Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking Bringing Order to the Web El algoritmo asocia a cada documento un valor (tb. PageRank) de este modo Un documento transmite a todos los documentos que enlaza su valor PageRank dividido por el número de enlaces salientes Un documento muy enlazado tendrá un PageRank elevado Un documento enlazado desde documentos prestigiosos tendrá un PageRank elevado
14Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
B
C
F
E
D
15Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 1
Iteración 0
PageRank
B 1
C 1
F 1
E 1
D 1
16Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 1
0,33
PageRank
0,33
0,33
B
C
F
E
D
17Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
0,33
B 1
0,33
C
0,33
F
E
D
18Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
B
C 1
1
F
E
D
19Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
B
C
0,33
0,33
F
E
D 1
0,33
20Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
B
C
0,50
0,50
F
E 1
D
21Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
B
C
0,33
F 1
E
D
0,33
0,33
22Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 1,17
Iteración 1
PageRank
B 0,33
C 1,83
F 1,33
E 0,67
D 0,67
23Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,65
Iteración 2
PageRank
B 0,22
C 1,61
F 1,72
E 0,93
D 0,87
24Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,83
Iteración 3
PageRank
B 0,22
C 1,62
F 1,83
E 0,86
D 0,65
25Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,72
Iteración 4
PageRank
B 0,28
C 1,60
F 1,89
E 0,82
D 0,68
26Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,73
Iteración 5
PageRank
B 0,24
C 1,60
F 1,85
E 0,86
D 0,72
27Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,75
Iteración 6
PageRank
B 0,24
C 1,61
F 1,85
E 0,86
D 0,70
28Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,74
Iteración 7
PageRank
B 0,25
C 1,61
F 1,86
E 0,85
D 0,70
29Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A 0,74
Iteración 8
PageRank
B 0,25
C 1,61
F 1,85
E 0,85
D 0,70
30Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
A
PageRank
B
C
F
D
E
31Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
PageRank Algunas características interesantes de PageRank Los valores de PageRank calculados para los nodos se estabilizan con rapidez (p.ej. 52 iteraciones son suficientes para obtener valores razonables para 322 millones de enlaces) Es relativamente insensible a los valores de partida, afectaría al número de iteraciones necesarias y a los valores finales (obviamente) pero no al ranking obtenido El PageRank total en la Web es constante Si el valor inicial asignado a cada documento es 1/N (número de documentos) el valor de PageRank equivale a la probabilidad de que un usuario llegue a dicho documento siguiendo enlaces al azar (random surfer model)
32Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Búsquedas en la Web con PageRank Recordemos lo que dijo Marchiori ... focusing separately on the "textual" and "hyper" components. PageRank no tiene en cuento el contenido de los textos para determinar el prestigio/autoridad/relevancia de un nodo, sólo los enlaces Cómo se realizan las búsquedas entonces? (Versión simplificada) Se extraen los términos (palabras) de la consulta Se localizan documentos que contengan todos los términos Se ordenan los documentos obtenidos por PageRank decreciente Es decir, Google proporciona a los usuarios aquellos documentos que satisfacen la consulta y tienen más prestigio en la Web
33Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en hiperenlaces Tres escenarios problemáticos Bharat, K., y Henzinger, M. 1998, Improved Algorithms for Topic Distillation in a Hyperlinked Environment, en Proceedings of SIGIR-98, 21st ACM International Conference on Research and Development in Information Retrieval, pp. 104-111. Enlaces nepotistas Cada enlace es un voto aunque provengan todos del mismo servidor No es un problema fácil de resolver. Davison, B.D. 2000, Recognizing Nepotistic Links on the Web, en Proceedings of AAAI-2000 Workshop on Artificial Intelligence for Web Search, pp. 23-28. Enlaces automáticos Todos estos algoritmos parten del supuesto que los enlaces son establecidos por un ser humano y eso no siempre es cierto (Wordpress scandal) Documentos irrelevantes enlazados desde autoridades Inevitable puesto que no hay ningún análisis de contenidos, sólo se emplea la topología del grafo
34Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en hiperenlaces Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking Bringing Order to the Web PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it. At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
35Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en hiperenlaces Page, L., Brin, S., Motwani, R. y Winograd, T. 1998, The PageRank Citation Ranking Bringing Order to the Web PageRanks are virtually immune to manipulation by commercial interests. For a page to get a high PageRank, it must convince an important page, or a lot of non-important pages to link to it. At worst, you can have manipulation in the form of buying advertisements (links) on important sites. But, this seems well under control since it costs money.
36Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en hiperenlaces Granjas de enlaces Recordemos que el PageRank total es constante, sólo se reparte entre los nodos Qué sucede si se construye un grafo con gran cantidad de nodos fuertemente conectados y unos pocos reciben la mayoría de enlaces? Respuesta Una porción del PageRank global termina en ese subgrafo y es asignada en su práctica totalidad a unos pocos nodos que aumentan su PageRank artificialmente Si, además, la granja de enlaces es alojada o enlazada desde algún sitio prestigioso mejor que mejor
37Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en hiperenlaces Google bombing Además de emplear la topología derivada de los enlaces Google (y el resto de buscadores) emplea/ba el texto de los enlaces que recibe una página para indexarla (ej. google compra youtube, gutemberg, guttenberg, guttemberg, mao tse-tung, mao zedong) Si varios sitios web coordinados enlazan a un tercero empleando el mismo término o frase es posible construir bromas como las famosas ladrones, miserable failure o horrid operating system A finales de enero de 2007 Google anunció que las bombas ya no funcionaban gracias a una solución algorítmica Pero Algunas siguen funcionando horrid operating system Búsquedas que deberían funcionar no lo hacen spanish airlines Todos los buscadores son vulnerables a esta técnica Off-topic qué retornan las consultas click here o pinche aquí?
38Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Problemas del ranking basado en hiperenlaces Daños colaterales (usuarios y autores) La ausencia de prestigio no implica carencia de relevancia Al desvincularse el prestigio de los contenidos, resultados prestigiosos pueden satisfacer la consulta pero no al usuario. El autor del documento puede no desear tales visitas. Algunas consultas reales que me han traído público algoritmos genéticos(documentos en inglés) que es disertacion doctoral articulos o comentarios de prensa sobre algoritmos geneticos Qué tienen en común? Son consultas informativas, el usuario quiere información/respuestas. Broder, A. 2002, A taxonomy of web search, ACM SIGIR Forum, vol. 36, no. 2, pp. 3-10.
39Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
En resumen Los buscadores modernos son un ejemplo del conocimiento que se puede derivar de la estructura topológica de la Web
40Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web Filtrado colaborativo Técnica que permite a un sistema sugerir a cada usuario una selección de nuevos elementos sobre la base de sus preferencias en el pasado y de las valoraciones que, de dichos elementos, han hecho otros usuarios del sistema Un ejemplo de filtrado colaborativo Amazon
41Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web Todos los servidores web generan archivos de log en los que se recoge información sobre las acciones de los usuarios en el sitio web 156.35.14.9 - - 17/Oct/2006203426 0200 "GET /nol/shared/css/news_r5.css HTTP/1.0" 404 312 156.35.14.9 - - 17/Oct/2006203523 0200 "GET /CursoWeb20/ HTTP/1.0" 200 1894 156.35.14.9 - - 17/Oct/2006203523 0200 "GET /icons/blank.gif HTTP/1.0" 200 148 156.35.14.9 - - 17/Oct/2006203523 0200 "GET /icons/back.gif HTTP/1.0" 200 216 156.35.14.9 - - 17/Oct/2006203523 0200 "GET /icons/folder.gif HTTP/1.0" 200 225 156.35.14.9 - - 17/Oct/2006203523 0200 "GET /icons/compressed.gif HTTP/1.0" 200 1038 En realidad, el servidor desconoce quién es el usuario, sólo dispone de su dirección IP que, en muchos casos, será utilizada por múltiples usuarios simultaneamente (proxies) y en otros será re-utilizada en diversas ocasiones (p.ej. direcciones dinámicas otorgadas por ISPs) Por esa razón, lo máximo que puede hacerse con la información del archivo de log es tratar de encontrar sesiones de usuario (conjunto de peticiones realizadas desde una misma IP durante un período corto de tiempo)
42Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web Objetivos de la extracción de conocimiento a partir de archivos de log Entender los intereses de los usuarios de un sitio web Mejorar, en consecuencia, la satisfacción del usuario al reorganizar el sitio en base a dichos intereses Facilitar el acceso a la información mediante recomendaciones en tiempo real
43Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web Los motores de búsqueda también disponen de archivos de log en los que se almacena información como Identificador de sesión Fecha y hora Texto de la consulta URL visitada Posición de la URL visitada dentro de la página de resultados
44Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web Los logs de un buscador resultan muy útiles para mejorar la precisión Baeza-Yates, R. 2004, Query Usage Mining in Search Engines, en Web Mining Applications and Techniques After a query, a user usually performs a click to view one answer page. Each click is considered a positive recommendation of that page (in most cases bad pages are not clicked). Zhang, D. y Dong, Y. 2002, A novel Web usage mining approach for search engines, Computer Networks, vol. 39, no. 3, pp. 303-310 A user is good if he/she issues many good queries, while a queryis good if it can retrieve many good resources, while a resource is good if it is accessed by many good users.
45Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web Ricardo Baeza-Yates lleva algún tiempo desarrollando técnicas para agrupar consultas temáticamente a partir de los resultados visitados. Baeza-Yates, R. et al. 2004, Query recommendation using query logs in search engines, en Current Trends in Database Technology, LNCS 3268, p. 588-596. Las consultas de un grupo pueden ordenarse en base al porcentaje de documentos relevantes (determinados por los clicks) que retorna cada una Una vez determinados los conjuntos de consultas pueden emplearse para ofrecer consultas alternativas mejorar la precisión de los resultados (ofreciendo aquellos más relevantes para usuarios anteriores) Más recientemente ha estudiado el modo de extraer pseudo-folksonomías a partir de los conjuntos de consultas
46Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Conocimiento a partir del uso de la Web A mediados de 2006 Microsoft financió una serie de proyectos de investigación sobre un conjunto de 15 millones de consultas Poco después AOL liberó un archivo con datos sobre 20 millones de consultas correspondientes a 650.000 usuarios (miniescándalo) Rodaron cabezas, el sitio web fue eliminado en cuestión de horas y los datos no tardaron en ser replicados, hoy sobreviven en algunos mirrors y redes P2P. Si os interesan quizás podáis descargarlos AOL-data.tgz
47Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
AOL gate
48Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
49Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
50Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
51Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Análisis de tendencias
La frecuencia absoluta ya es un indicador
interesante La co-ocurrencia de términos es aún
más interesante
52Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Normalized Google Distance Cilibrasi, R. y Vitanyi, P. 2005, Automatic Meaning Discovery Using Google, http//arxiv.org/abs/cs.CL/0412098 The rise of the world-wide-web has enticed millions of users to type in trillions of characters to create billions of web pages of on average low quality contents. The sheer mass of the information available about almost every conceivable topic makes it likely that extremes will cancel and the majority or average is meaningful in a low-quality approximate sense. Normalized Google Distance (NGD)
53Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Normalized Google Distance Distancias NGD entre algunos países portugal 0 0,02 0,21 0,07 0,23 0,09 0,11 spain 0,02 0 0,18 -0,01 0,15 0,10 0,12 france 0,21 0,18 0 0,16 -0,01 0,20 0,30 italy 0,07 -0,01 0,16 0 0,12 0,11 0,16 germany 0,23 0,15 -0,01 0,12 0 0,17 0,24 belgium 0,09 0,10 0,20 0,11 0,17 0 0,00 netherl. 0,11 0,12 0,30 0,16 0,24 0,00 0 Primer problema Google sólo proporciona estimaciones sobre el número total de documentos que contienen una palabra y, muchas veces, es una aproximación demasiado gruesa (p.ej. spain 311x106, italy 303x106, spain italy 330x106)
54Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
Normalized Google Distance Segundo problema Sobre qué eje se mide la distancia? En este ejemplo, población? superficie? PIB? En resumen, interesante, inspiradora Aún se necesita más trabajo
55Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
La Web como corpus Un corpus es una colección de documentos que muestran el uso real de la lengua natural Pueden ser monolingües o multilingües y estos, a su vez, paralelos o comparables Los corpora multilingües son un recurso fundamental para la construcción de sistemas estadísticos de traducción automática Brown, P.F. et al. 1990, A Statistical Approach to Machine Translation, Computational Linguistics, vol. 16, no. 2 http//video.google.com/videoplay?docid6934089019347797736
Viktor aprende inglés comparando dos guías
turísticas de Nueva York
56Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
La Web como corpus La traducción automática es sólo uno de los campos que puede beneficiarse de la utilización de la Web como corpus o, mejor dicho, de corpora extraídos de la Web Sin embargo, es uno de los más espectaculares Trabajos interesantes Jones, R. y Ghani, R. 2000, Automatically Building a Corpus for a Minority Language from the Web, en Proceedings of the Student Workshop of the 38th Annual Meeting of the Association for Computational Linguistics, pp. 2936 Resnik, P. y Smith, N.A. 2003, The Web as a parallel corpus, Computational Linguistics, vol. 29, no. 3, pp. 349-380 Kilgarriff, A. y Grefenstette, G. 2003, Introduction to the special issue on the web as corpus, Computational Linguistics, vol. 29, no. 3, pp. 333-347 A tener en cuenta WAC (Web as a Corpus Workshop), CLEANEVAL
57Tecnologías Web 2.0 con PHP Extensión Universitaria 2º cuatrimestre 2006/07
Gijón, 14, 15 y 16 de Marzo de 2007 Extracción de conocimiento de la Web
En resumen Es posible explotar la estructura, los contenidos y los patrones de uso de la Web para extraer de manera automática conocimiento útil