Title: Nuevos indicadores basados en el procesamiento de contenido
1Nuevos indicadores basados en el procesamiento de
contenido
- hacia un modelo para utilizar contenidos como
apoyo para política científica...
La opción cualitativa!
Julio Raffo, RICYT Jraffo_at_ricyt.edu.ar Jorge
Walters Gastelu Jorge_at_octondegus.com
2Motivación (i)
- Hoy es posible unir dinámicamente los datos
provenientes de las bases de datos de gestión de
la actividad científica, con la producción
científica propiamente tal. - La capacidad de almacenamiento permite disponer
de textos completos en formato digital - Proyectos, publicaciones científicas, patentes,
etc, a partir de las redes BVS, ScienTI,
SciELO,... - Las Fis comienzan a integrarse generando un
repositorio único y compartido para los
diferentes actores involucrados - El desarrollo de tecnologías para el
procesamiento de información basada en conceptos. - Collexis (http//www.collexis.com/)
3Motivación (ii)
Documento original
DB
Metadatos
Texto
4La tecnología
5Testing Collexis technologyThe Abstraction
Process
Illustration from Collexis http//www.collexis.co
m/
6Testing Collexis technologyAbstraction Process
Simplified
7Un documento, un vector en el espacio definido
por el tesauro
B
d2
d1
d3
A
8mapas conceptuales
9Mesh 2002 v/s Medline 1999
Thanks to Martin Schmidt and Mario
Diwersy(http//www.syynx.de/)
10MESH 2002 v/s MEDLINE 2001
Thanks to Martin Schmidt and Mario
Diwersy(http//www.syynx.de/)
11El experimento
12El modelo (i)
- Resúmenes de Medline (un segmento) para generar
una collexion. Para cada resumen se genera un
vector de conceptos (fingerprint) - El espacio está definido por MESH (2002)
- La definición de SIDA, según NLM, define lo que
entendemos por este concepto y nos sirve para
restringir el espacio a través de un query a la
collexion (sólo un ejemplo!) - A partir de una búsqueda con query, filtrada para
un país específico, obtenemos el conjunto de
fingerprints de documentos relevantes al tema.
13Un país representado como un vector en el espacio
definido por el tesauro, y restringido/comparado
a un área particular
B
País 2
País 1
País 3
A
14El modelo (ii)
FingerPrintpaís Compi(fpdoci)
Ángulo entre 2 países Ángulo de un país y el
patrón Comparación de los ángulos con el patrón
B
País 2
País 1
AIDS
País 3
A
15Un texto que define...
The most severe manifestation of infection with
the Human Immunodeficiency Virus (HIV). The
Centers for Disease Control and Prevention (CDC)
lists numerous opportunistic infections and
cancers that, in the presence of HIV infection,
constitute an AIDS diagnosis. In 1993, CDC
expanded the criteria for an AIDS diagnosis in
adults and adolescents to include CD4 T-cell
count at or below 200 cells per microliter in the
presence of HIV infection. In persons (age 5 and
older) with normally functioning immune systems,
CD4 T-cell counts usually range from 500 - 1,500
cells per microliter. Persons living with AIDS
often have infections of the lungs, brain, eyes,
and other organs, and frequently suffer
debilitating weight loss, diarrhea, and a type of
cancer called Kaposi's Sarcoma. See HIV Disease
Opportunistic Infection AIDS Wasting Syndrome
16El fingerprint del texto...
"1.0000"gt Infection "1.0000"gt HIV "0.7500"gt
Acquired Immunodeficiency Syndrome "0.5000"gt
Opportunistic Infections "0.5000"gt
Cancer "0.5000"gt Diagnosis "0.5000"gt
T-Lymphocytes "0.5000"gt Persons "0.5000"gt
Cells "0.2500"gt Adult "0.2500"gt
Adolescents "0.2500"gt Aging "0.2500"gt Aged
"0.2500"gt Immune System "0.2500"gt Life "0.2500"gt
Lung "0.2500"gt Brain "0.2500"gt Eye "0.2500"gt
Weight Loss "0.2500"gt Diarrhea "0.2500"gt HIV
Wasting Syndrome "0.2500"gt Disease
17El fingerprint de Brasil
18Brasil vs AIDS
"1.0000"gt Infection "1.0000"gt HIV "0.7500"gt
Acquired Immunodeficiency Syndrome "0.5000"gt
Opportunistic Infections "0.5000"gt
Cancer "0.5000"gt Diagnosis "0.5000"gt
T-Lymphocytes "0.5000"gt Persons "0.5000"gt
Cells "0.2500"gt Adult "0.2500"gt
Adolescents "0.2500"gt Aging "0.2500"gt Aged
AIDS definition
19El fingerprint de Estados Unidos
20EEUU vs AIDS
"1.0000"gt Infection "1.0000"gt HIV "0.7500"gt
Acquired Immunodeficiency Syndrome "0.5000"gt
Opportunistic Infections "0.5000"gt
Cancer "0.5000"gt Diagnosis "0.5000"gt
T-Lymphocytes "0.5000"gt Persons "0.5000"gt
Cells "0.2500"gt Adult "0.2500"gt
Adolescents "0.2500"gt Aging "0.2500"gt Aged
21El fingerprint de Inglaterra
22Inglaterra vs AIDS
"1.0000"gt Infection "1.0000"gt HIV "0.7500"gt
Acquired Immunodeficiency Syndrome "0.5000"gt
Opportunistic Infections "0.5000"gt
Cancer "0.5000"gt Diagnosis "0.5000"gt
T-Lymphocytes "0.5000"gt Persons "0.5000"gt
Cells "0.2500"gt Adult "0.2500"gt
Adolescents "0.2500"gt Aging "0.2500"gt Aged
23Brasil vs EEUU... (datos de prueba!)
Brasil
US
24En discusión
- Definición del tema?
- Composición del vector?
- Cuál tesauro representa qué?
- Qué entendemos por conjunto relevante de
documentos de un país?
25A modo de conclusión y próximos pasos
- Al parecer el modelo sirve ?
- La tecnología es estable
- Los contenidos existen o se están formando
- Se define un espacio que independiza del tipo de
documento y del idioma - Es crucial la construcción/adopción de un
vocabulario - Aplicar el modelo a contenidos válidos y con un
volumen adecuado. - ScienTI (Proyectos, Pub), SciELO, LILACS
- Comparar los resultados con indicadores
tradicionales. - Aplicar el modelo a nivel institucional y en
otras áreas.
26Muchas gracias!