Title: INTERNET Y LOS ARCHIVOS
1INTERNET Y LOS ARCHIVOS
- Sistemas de búsqueda y
- recuperación de Información
Eva Mª Méndez Rodríguez Universidad. Carlos III
de Madrid emendez_at_bib.uc3m.es
Sevilla, Mayo 1999
2Sistemas de búsqueda
- Finalidad / terminología
- Estadística
- analizar la red wanderers
- evaluar el impacto knowbots
- calcular el tamaño o nº de páginas por servidor
- Mantenimiento
- mantener la estructura hipertextual
- controlar los cambios de direcciones
- Mejorar la rapidez y disponibilidad de recursos
- duplicar directorios ftp (mirrors) worms
- Recuperación de información
- spiders, webcrawlers, engines, search engines,
- arañas, buscadores, motores de búsqueda,
buscadores, - rastreadores... Robots
- directorios, índices, portales,...etc
3Sistemas de búsquedaCaracterísticas generales
- Gran variedad y heterogeneidad
- Se pueden buscar no sólo páginas web, sino
también ficheros, listas de distribución, etc. - Sintaxis de interrogación distintas
- Normalmente permiten una búsqueda simple y
avanzada - Crecimiento exponencial de la información
sistemas insuficientes
4Sistemas de búsquedaTipología
- Recursos Web
- Software y ficheros
- Personas e instituciones
- Listas de distribución
- News
- Directorios / índices
- generales
- especializados
- Buscadores
- Metabuscadores
- Agentes inteligentes
- Portales
- WebRings
5Qué/cómo buscar
- Necesidades de información
- Buscar la respuesta a una pregunta concreta
- Buscamos un dato
- Resolver un problema o una necesidad amplia de
información - Buscamos Soluciones informativas
- Necesitamos
- -Clarificaciones
- -Decisiones
- -Síntesis
6Estrategia
- Identificar la necesidad de información
- Descomponerla en tantos conceptos atómicos como
sea posible - Transformala en palabras-clave o frases
- Buscar sinónimos (idiomas inglés)
- Utilizar operadores booleanos
- Utilizar paréntesis para delimitar el alcance del
operador - Limitar años, dominos, servidores... etc.
- Adaptarse a la lógica de recuperación de los
distintos sistemas de búsqueda
7- Directorios o Índices
- la búsqueda temática en la Red
- ej Yahoo!
Sistemas de búsqueda
8Indices o directoriosCaracterización
- Son listas de recursos jerárquicos o bases de
datos realizadas por evaluadores que, de forma
manual, organizan los recursos temáticamente - Están organizados según clasificaciones ad hoc o
bien clasificaciones bibliotecarias (Bubl) - Acceso
- El tipo de búsqueda es principalmente el browsing
- La mayoría tienen también un motor de búsqueda
9Índices o directorios Ventajas e inconvenientes
- Al ser recursos seleccionados existe poco riesgo
de duplicación o redundancia de enlaces - Pero son menos exhaustivos que los motores de
búsqueda
10Índices o directorios
- Alcance
- Suelen tener un alcance multidisciplinar, (aunque
existen directorios especializados e incluso
geográficos) - Son excelentes para encontrar información básica
sobre un tema. - Calidad
- Existe una alta posibilidad de encontrar recursos
de calidad, aunque muchos recursos son
autoseleccionados por loa autores.
11Índices o directorios Cuándo usarlos?
- Para iniciar una búsqueda sobre un tema concreto
- Cuando se quiere encontrar información
rápidamente y de forma precisa - Cuando se tiene muy definido el tema de la
búsqueda y las necesidades concretas en que se
genera la consulta - Cuando se buscan conceptos polisémicos y se
precisa acotar a un área del saber
12Yahoo!http//www.yahoo.com http//www.yahoo.es
- Yahoo es uno de los más "antiguos" (1994) y sin
duda el más popular de los buscadores basados en
categorías temáticas - Comenzó como un producto universitario y se ha
convertido en una importante empresa y en un
portal de entrada (en el sentido de que trata de
albergar todos los servicios que un usuario puede
necesitar desde las noticias, las categorías
principales, el correo etc - Información ordenada de forma jerárquica por
temas de interés general, que a través del
browsing se irá concretando a temas más
específicos. - Divide en 14 categorías principales el
conocimiento albergado en la web,
13Yahoo!http//www.yahoo.com http//www.yahoo.es
- Combina la navegación por categorías (browsing)
con la búsqueda por palabras clave - Opciones de Búsquedaen todo Yahoo (en todas las
categorías) o en la categoría que estemos
situados. - No efectúa sus búsquedas por texto completo ? se
limita a buscar en los comentarios proporcionados
con las direcciones de los sitios. - Búsqueda avanzada
- Operador booleano por defecto AND. Lógica
implícita por AND y - por NOT. - Campos Título (t....) y URL (u....)
- Búsqueda por frase ("....").
- Truncamiento con el signo
14Otros directorios
- GENÉRICOS
- Magellanhttp/magellan.excite.com
- Galaxy http//galaxy.einet.net
- Argus Clearinghouse http//www.clearinghouse.net
- ESPECIALIZADOS
- OMNI http//www.omni.ac.uk
- BUBL http//www.bubl.ac.uk
- GEOGRÁFICOS
- Virtual Tourist http//www.vtourist.com/webmap
- Principales portales ESPAÑOLES
- Telépolis http//www.telepolis.es
- Olé http//www.ole.es
15- Motores de Búsqueda
- la búsqueda por palabras-clave en la Red
- ej Altavista
Sistemas de búsqueda
16Motores de búsquedaCaracterización
- Sistemas de búsqueda basados en un software o
robot que recorre automáticamente la Red
indizando páginas - Se compone de
- un robot
- una base de datos
- un sistema de interrogación y lenguaje de
consulta - una interfaz web
- Acceso
- Búsqueda por palabras clave introducidas por el
usuario a través de un interfaz de búsqueda - Permiten acotar a determinados campos
17Motores de búsquedaVentajas e inconvenientes
- Son muy exhaustivos
- Posibilidad de encontrar recursos muy específicos
(acotando las búsquedas bien por etiquetas
-Altavista- bien por menús -Excite-) - Mucho ruido gran número de resultados,
duplicación de páginas.
18Motores de búsqueda
- Alcance
- Indizan todo tipo de páginas, algunos indizan
otro tipo de recursos (news, ftp) - Pueden indizar bien el texto completo, o partes
del documento. - Calidad
- Varía de unos buscadores a otros.
- Ordenan los resultados según un cálculo de
relevancia o bien basándose en las etiquetes del
html (ltmetagt)
19Motores de búsqueda Cuándo usarlos?
- Cuando tengamos bastante información sobre lo que
queremos buscar (temáticas conocidas) - Cuando se desea tener una idea del contenido
exhaustivo del web sobre una palabra clave
determinada - Cuando tengamos que efectuar búsquedas muy
precisas sobre partes de las páginas HTML - Cuando necesitemos un dato concreto
20Altavista (simple)http//www.altavista.magallanes
.net
- Distingue entre mayúsculas y minúsculas
distingue así mismo los caracteres acentuados - Truncamiento '' (asterisco o wildcard) .
- Formato de las consultas
- Para buscar por frase entre comillas
- Operadores booleanos sólo se admiten dos
- (Y) y - ( NO)
- Búsquedas específicas Acotar por campos
21Altavista (avanzada)http//www.altavista.magallan
es.net
- Mismas particularidades que las búsquedas simples
- acotar por fecha de publicación de las páginas
web - permiten también, relacionar las palabras clave
de la búsqueda a través de los siguientes
operadores booleanos
22Otros motores de búsqueda
- Lycos http//www.lycos.com
- Infoseek http//www.infoseek.com
- Excite http//www.excite.com
- HotBot http//www.hotbot.com
- Web Crawler http//webcrawler.com
- ESPAÑOLES
- Trovator http//trovator.combios.es
- Ugabula http//www.ugabula.com
23- Metabuscadores
- búsqueda múltiple
- ej Metacrawler
Sistemas de búsqueda
24Metabuscadores Caracterización
- Permiten formular búsquedas simultáneas en un
determinado número de motores de búsqueda. - Se les denomina también motores de búsqueda en
paralelo, megamotores, o metabuscadores. - Cuando un usuario lanza la búsqueda, el
metabuscador las dirige a sus motores asociados
componiendo una lista de aciertos, que
representan, en teoría, las mejores respuestas a
la pregunta. - Posteriormente pueden llevar a cabo otras tareas,
como asignar u ordenar por relevancia,
formatearlas de forma consistente, verificar la
accesibilidad o eliminar enlaces muertos. - La lista final indica el motor que ha generado
la respuesta y pueden agruparse los resultados
por ese criterio.
25Metabuscadores Ventajas e inconvenientes
- En principio, dada la multiplicidad de motores
parecen la solución óptima. - Pero al depender de los tiempos de respuesta y de
la efectividad de sistemas sobre los que no se
tienen control, no es sorprendente que en
ocasiones fallen.
26Metabuscadores
- Alcance
- Trabajan para poder presentar resultados
manejables, por eso no es sorprendente que las
listas de resultados sean breves. - Calidad
- Dependen extremadamente de las posibilidades de
indización de los motores con los que trabaja. - Si el motor genera basura degrada la calidad del
metabuscador.
27Metabuscadores
- Control
- Los motores usan distintos procedimientos de
búsqueda. Una petición genérica contra varios, no
ofrece las mismas posibilidades que los
resultados obtenidos con las funciones avanzadas
de cada motor. - Velocidad
- Si un motor es lento, impone retrasos en la
presentación de resultados. Soluciones - Metacrawler incorpora un mecanismo para
verificar que los resultados que obtiene son
accesibles y relevantes antes de presentarlos en
pantalla. - SavvySearch toma en cuenta el tiempo de proceso
de los motores y da preferencia a los más rápidos.
28MetabuscadoresCuándo usarlos?
- Cuando se busque sobre una materia poco común
- Cuando no se ha tenido suerte con otros servicios
- Cuando no se quieran formular búsquedas complejas
- Cuando se quieran recuperar tantos documentos
como sea posible con una sola pregunta
29MetaCrawler www.metacrawler.com
- Definición
- Es un servicios web que trabaja con diferentes
motores de búsqueda. - Alcance
- Usa Lycos, Webcrawler, Excite, AltaVista, Yahoo,
Infoseek. - Puede buscar en Web, productos informáticos,
ficheros o en News.
30MetaCrawler www.metacrawler.com
- Uso
- Posee una única ventana desde la que formular las
búsquedas. Al introducir los términos el usuario
puede decidir si quiere que los aciertos tengan
cualquiera de los introducidos, todos o que los
términos sean considerados una frase. - Los resultados los presenta listados y
normalizados eliminando elementos de publicidad.
31MetaCrawler www.metacrawler.com
- Uso avanzado
- Permite limitar las búsquedas por países, nº de
aciertos, tiempo de duración de la búsquedas (en
minutos), o por el número de acierto que debe
proporcionar cada motor de búsqueda. - Permite seleccionar los motores contra los que
lanzar la preguntaAltavista, Excite, Yahoo,
Infoseek, Lycos, Thunderstone, Webcrawler.
32Otros metabuscadores
- SavySearch http//www.savvysearch.com/
- Internet Sleuth http//www.isleuth.com/
- Profusion http//profusion.ittc.ukans.edu
- Cyber411 http//www.cyber411.com
- Metafind http//www.metafind.com
- Inference Find http//www.infind.com/
- All-in-One Search http//www.allonesearch.com/
- Ask Jeeves http//www.aj.com/
- ESPAÑOLES
- Metabusca http//metabusca.com
33Más información
- Sistemas de búsqueda Internacionales
- http//www.bib.uc3m.es/mendez/cursos/buscadores1.
htm - Sistemas de búsqueda nacionales (España)
- http//www.bib.uc3m.es/mendez/cursos/buscadores2.
htm
34Agentesla búsqueda inteligenteej.
RoboshopperPointcast
Sistemas de búsqueda
35Agentes InteligentesQué son?
- Los agentes inteligentes son programas que
realizan tareas de acuerdo con los planteamientos
de los usuarios. - Las posibilidades son muy amplias, desde
desarrollar rutinas de trabajo hasta tratar esas
rutinas como preferencias o incluso negociar en
nombre del usuario. - Software personal que asiste en la búsqueda de
información en Internet con una autoridad
delegada de sus usuarios.
36Agentes InteligentesCaracterización
- La característica que los distingue es la
habilidad de tomar decisiones según un conjunto
de reglas internas y sin intervención del
ususario. - Los agentes pueden tener esta característica de
autonomía en mayor o menor grado. El grado de
autonomía puede llegar a que tomen iniciativas
por ejemplo suministrar al usuarios información
sin que la solicite, pero que quizás sea de su
interés.
37Agentes Inteligentes Acceso
- El agente puede ser un programa cliente, o un
servidor web. - Existen múltiples clientes, algunos son gratuitos
(Poitcast) , otros son de pago (Webcompass). - Otros agentes son accesibles a través del URL
Jango, aunque exigen registrarse (Firefly).
38Agentes InteligentesAlcance
- Las tareas que pueden llevar a cabo son muy
variadas - Enriquecen el browsing del usuario sugiriéndole
enlaces basados en anteriores conductas. - Dan valor añadido a las búsquedas convencionales
como las realizadas en Altavista, Lycos, Infoseek - Lanzan preguntas contra diferentes motores,
filtran y reordenan los resultados de forma
eficiente.
39Agentes InteligentesAlcance
- Localiza el mejor precio de un determinado
producto en las tiendas online. - Controlan bases de datos Web y proporcionan
actualizaciones de su contenido. - Compila periódicos personalizados.
- Visita a bases de datos seleccionadas por el
usuario y descarga automática de todas las
páginas o de parte para consulta offline.
40Agentes InteligentesAlcance
- Localización de personas con intereses similares.
- Vigilar los sitios preferidos del usuario y
avisarle cuando se produce un cambio. - Generar mapas o guías de la estructura
hipertextual de un servidor. - Comprobar y priorizar el correo electrónico,
tomar decisiones basadas en el contenido del
correo y actuar en consonancia.
41Agentes InteligentesUso
- Algunos agentes poseen sus propios conjuntos de
reglas y criterios o las tareas que pueden
desarrollar se circunscriben a una. - Otros, por el contrario, deben ser entrenados.
Es decir, las instrucciones se las proporciona el
usuario. Este proceso puede consumir bastante
tiempo, pero al finalizar, el usuario tiene un
traje a su medida.
42Agentes InteligentesServidor
- BargainFinder
- Fue un servicio experimental creado por Anderson
Consulting (junto con otros como LifestyleFinder,
InfoFinder, NewsFinder, etc). Tenía la función de
obtener el mejor precio de CDs. - Roboshopper
- Software que permite comparar precios de
distintos tipos de productos en distintas tiendas
digitales.
43Agentes InteligentesServidor
- Firefly
- Comprado por Microsoft en abril 98, ofrece un
servicio gratuito llamado Passport donde el
usuario se registra y se identifica cuando accede
al web de Firefly (www.firefly.net). El el
navegador del usuario abre una nueva ventana a
través de la cual el agente sigue los pasos de su
amo y recopila datos sobre sus preferencias con
el fin de hacerle sugerencias ajustadas al sus
gustos. Es un verdadero portal de última
generación.
44Agentes InteligentesServidor
- MyYahoo
- Se trata de un Yahoo a la medida del usuario
que se registre, de tal forma que cada vez que se
acceda con el login y password elegidos, tendrá
una selección de enlaces de interés según el
perfil que se haya especificado. - URL-Minder(Netmind)
- Hace un seguimiento de recursos http, ftp,
gopher elegidos por el usuario y envía por e-mail
los cambios que se producen en ellos, a los
usuarios registrados previamente.
45Agentes InteligentesCliente (webcasting, push)
- Pointcast
- Se trata de un software público, que una vez
instalado en el PC del usuario, tiene la facultad
de volcar páginas web completas en el disco duro
del ordenador. - Tiene un atractivo interfaz que usa web,
multimedia interactivo, salvapantallas y métodos
tradicionales para entregar la información de
acuerdo con los perfiles que los usuarios pueden
modificar offline. - El concepto que mejor define esta tecnología
(push empujar) es personalización ?cambio de
sentido en el flujo de información.
46Agentes Inteligentes
- Bargain Finder http//bf.cstar.ac.com/bf
- Roboshopper http//www.roboshopper.com
- Jango http//www.jango.com
- Hotbot Shopinghttp//shop.hotbot.com/
- Passport Firefly http//www.agents-inc.com
- MyYahoo http//edit.my.yahoo.com/config/login
- NetMind http//www.netmind.com/html/url-minder.ht
ml - Pointcast http//www.pointcast.com/
- WebCompasswww.qdeck.com/qdeck/press/compass.html
47Otros sistemas de búsqueda
Sistemas de búsqueda
48Búsqueda de SoftwareLos sistemas de búsqueda y
recuperación de software, sirven para encontrar
ficheros (ascii, binarios) que se pueden
descargar de un servidor FTP anónimo
- Servidores Archie
- Problema saber el nombre del fichero
- Listas de recursos
- Problema Lento. Se conectan al web oficial del
software o recurso.
49Búsqueda de SoftwareQué hay que saber
- Estar familiarizado con la forma de hacer ftp
anónimo. - Usar los servicios Archie cuando se sepa el
nombre del fichero - Usar un servidor cercano
- Conocer los formatos y ficheros comprimidos
(.zip, .gz) y la forma de descomprimirlos. - Algunos ficheros son .exe y están autocomprimidos.
50Búsqueda de Softwaretruco
- Utilizar lista de software para conocer qué
programas existen de interés dentro de un
determinado grupo - Identificar el nombre del fichero comprimido que
deseamos transferir a nuestro ordenador. - Ubicar y transferir el fichero
- Buscándolo en un servidor ftp de nuestro interés
(español gtrapidez) http//www.rediris.es/si/list-f
tp/ - Buscando en el servidor Archie de RedIris e
iniciar la transferencia desde alguno de los
enlaces a servidores ftp que aparecen como
resultado
51Listas de software
- ZDNet Software librarie http/www.hotfiles.com
- Shareware http//www.shareware.com
- Tucows http//www.tucows.com
- Jumbo http//www.jumbo.com
- ESPAÑOLAS
- CTV http//ms.ctv.es
- Tucows (mirrors) http//tucows.arrakis.es
- http//tucows.unam.es
- Spasoft http//espasoft.kaos.es/
52Búsqueda de personas e instituciones
Sistemas de búsqueda
53Búsqueda de personas
- Los sistemas denominados de búsqueda de
personas son directorios o motores específicos
para localizar información de contacto personal o
institucional - Alcance
- Aunque muchos de los sistemas de búsquedas de
personas sirven también para buscar empresas y
organizaciones, existen algunos específicos.
54Buscadores de personasLimitaciones
- No existen directorios personales, ni siquiera
por países que nos permitan tener localizados los
datos de contacto de todas las personas
conectadas a la Red - Existen algunos directorios telefónicos, de fax y
de direcciones de correo electrónico - Son menos útiles que los directorios de
profesionales. - En algunas ocasiones tendremos que recurrir a
direcciones de suscriptores de grupos de
discusión o a directorios específicos de una
institución
55Buscadores de personasPosibilidades /
Herramientas
- Finger (comando de unix)
- Directorios X.500 (http//www.rediris.es/x500/)
- Páginas blancas (http//home.netscape.com/home/int
ernet-white-pages.html) - Páginas Amarillas (empresas y organizaciones)
- http//www.yweb.com http//www.europagates.com
- NetFind (http//seqaxp.bio.caltech.edu/www/netfind
.html) - Integradores
- Whowher Four11 Address Finder etc.
- Protocolo LDAP (Netscape Messenger)
56Búsqueda de personas con los mismos intereses
- Búsqueda de listas de distribución
- RedIris http//www.rediris.es/list/
- Tile.Net http//tile.net/lists/
- Listz http//www.liszt.com/
- Búsqueda de grupos de noticias
- TILE.NET http//tile.net/news/
- LISTZ http//www.liszt.com/news/
- DejaNews http//www.dejanews.com
- Algunos motores de búsqueda