Title: Seminario Lenguas y culturas hisp
1SeminarioLenguas y culturas hispánicasen
InternetDirección José Antonio Millán
-
- MADRID
- Residencia de Estudiantes
- 3 de diciembre del 2008
2ATELIERPanorama crítico de experiencias para
medir lenguas y culturas en el ciberespaciocon
enfoque especial en el métodoFunredes/Union
Latina
3Daniel Pimienta, Álvaro Blancopimienta_at_funredes.
orgalvaro_at_funredes.org FUNDACIÓN REDES Y
DESARROLLOhttp//funredes.org
http//funredes.org/LC
4MIEMBRO DEhttp//maaya.org
5FUENTE
Doce años de medidas de la diversidad
lingüística en la Internet balance e
perspectivas.D. Pimienta, D. Prado, Á. Blanco,
10/2008 ? A publicar por la Unesco en 2009. ?
Accesible en http//funredes.org/lc/espanol/arti
culos/index.htm
http//funredes.org/lc
6DE QUE SE TRATA?
- CONOCER LA REPARTICIÓN DE LOS RECURSOS DE LA
INTERNET EN TÉRMINOS DE DIVERSIDAD LINGÜÍSTICA - Internautas
- Páginas web
- Correos
- Y mas y mas
7DONDE ESTA LA MEDICIÓN DE LA DIVERSIDAD
LINGÜÍSTICA?
- EN LA EDAD DE LA PIEDRA
- REPARTICIÓN DE INTERNAUTAS
- DESINFORMACIÓN CRÓNICA SOBRE EL WEB
- MUY POCA IDEA DEL RESTO
- DESPUES DE AÑOS DE TRANCO, LA SITUACIÓN VA
CAMBIANDO POR FIN ?
8Y PORQUE TOMARSE LA PENA (Y QUE PENA!!!) DE
MEDIR?
- LA NECESIDAD DE POLÍTICAS LINGÚÍSTICAS
VIRTUALES - APOYADAS EN DATOS CIENTÍFICAMENTE VALIDADOS.
-
9...Y PORQUE LA BRECHA DIGITAL DE CONTENIDOS ES
MUCHO MAS PROFUNDA QUE LA DE ACCESO!Veamos
África
- 4 de los conectados (80 en África del Sur)
- 0,6 de las páginas web en inglés
- 0,6 de las páginas web en francés
- Entre 0,06 y 0,006 páginas en lenguas locales
(de las pocas que están localizadas)
10Y PARA QUE COMPLICARSE LA VIDA VIRTUAL CON
POLÍTICAS?
- APUESTAS
- CULTURALES,
- SOCIALES,
- ECONÓMICAS,
- ECOLÓGICAS,
- DE GOBERNANCIA
11ENTONCES, QUE ES LO QUE HAY?
- ESTUDIOS
- TRABAJOS
- PUBLICACIONES
- DISCURSOS
- REFERENCIAS
12APROXIMACIONES PASADAS
METODO PRO CON
USO SENCILLO MOTOR BUSQUEDA SIMPLE MUY APROXIMATIVO SIMPLISTA
ALIS/OCLC creible por fuente no por proceso ? MEJORABLE METODO ESTADÍSTICO NO REPETIDO Y MUCHAS MAS LIMITACIONES
VARIOS PRODUCTOS EMPR. MERCADEO NO TRANSPARENTE
FUNREDES/UL DOCUMENTADO INDICADORES REPETIDO LIMITACIÓN LENGUAS ESPACIO
13APROXIMACIONES NUEVAS
METODO PRO CON
LOP UPC/IDESCAT PODER SIN LIMITE ALGORITMO DE RECONOCIMIENTO TAMAÑO DE CRAWL
A LA ALEXA COBERTURA IDEAL NO EXISTE ?
FUNREDES/UL CONTRAPESO DEBE LIBERARSE DE LOS MOTORES
14COMPLEMENTO DEL ESPACIO VACIO
- BUSCAR hhwhd3ygfvd
- A veces los motores responden, incluyendo con la
opción lengua, con el tamaño total del índice. - A veces se puede buscar -.
- Muy usado sin documentarla.
15ALIS/OCLC
- ?3000 IP al azar (!!!)
- ?Aplicación una sola vez (!!!!!!) del algoritmo
de reconocimiento de lengua (!!) . en la página
de entrada (!!!). - ?Correcciones a la mano
- no documentadas(!)
16LOP/IDESCAT
- Explorar la web y conservar las páginas.
- Aplicar algoritmo de reconocimiento de lenguas.
- LOP enfoca Asia e África
- Esperamos mas resultados de IDESCAT
17A LA ALEXA
- Un programa espía que reportaría el
comportamiento de un grupo amplio y
representativo de usuarios podría producir datos
esenciales - Nos encantaría poder hacerlo!
18MÉTODO FUNREDES/UNION LATINA
- BASADO EN MOTORES DE BÚSQUEDA
- APROXIMACIÓN LINGÜÍSTICA SERIA
- PARTE ESTADÍSTICA MUY CUIDADA
- TOTALMENTE DOCUMENTADO
- SEGUIMIENTO PERMANENTE DESDE 1998
- PRODUCE VARIOS INDICADORES
- CONSIDERA VARIOS ESPACIOS
19MÉTODO FUNREDES/UNION LATINA
- LIMITADO EN LENGUAS (inglés, aleman., español,
francés, italiano, portugués, rumano, catalán) - RESULTADOS RELATIVOS AL INGLÉS
- MIDE EL WEB VISIBLE E INDEXADO
- YA NO CREIBLE DESDE 2006
- FUTURO INCIERTO
20METODOLOGÍAFUNREDES/UNION LATINA
- ? Definición 57 conceptos equivalentes
semánticamente gt 1600 términos - ? Medición comparativa ocurrencias con motores de
búsqueda (automatizada) - ? Método estadístico sólido (distribución,
promedio, varianza, ley de Fischer, intervalo de
confianza) - ? Resultados en del inglés
- ? Evaluación del inglés aproximativa lleva a
resultados absolutos en otras lenguas
21CRITERIOS PARA SELECCIÓN DE CONCEPTOS
- Neutralidad cultural
- Homografia trans-lingüística
- Homografía trans-lingüística con palabra
compuesta - Homografía trans-lingüística par emprunt
- Homografía con abreviación
- Homografía con nombre propio frecuente
- Seudo-homografía trans-lingüística
- Significaciones no equivalentes
- Morfo-síntaxis no equivalente nom, verbe
- Morpho-síntaxis no equivalente adjectivos y
nombres - Pluricentrismo lexicográfico y semántico
- Pluricentrismo ortográfico
- Formas agregadas (alemán)
22Neutralidad cultural
- Propiedad de una palabra en relación
- con su frecuencia de uso en la lengua en
- función de la cultura respectiva.
- Las palabras francesas vin, parfum, gastronomie y
las palabras del lenguaje diplomático no son
neutras culturalmente, en relación con el
francés. - Para obtener una muestra con el coeficiente de
variación menor posible, se dejaron de lado las
palabras no neutras culturalmente.
23Homografía interlingüística
- La grafía de una palabra en un idioma es idéntica
a la de otra palabra en otro idioma, incluido el
caso de faux amis (significación diferente).
Puede haber homografías con o sin diacríticos. - Ejemplo de grafía idéntica (con el mismo
sentido) casa en castellano y portugués. - Ejemplos de faux amis red en castellano y en
inglés hier en francés y alemán. - ? Rechazar las palabras homógrafas (con o sin
diacríticos).Se han tenido en cuenta, para
rechazarlas, las homografías entre los idiomas
del estudio o con un idioma muy presente en la
Internet, como el alemán. Para evitar el riesgo
estadístico de homografías con otros idiomas, se
descartan por principio las palabras de menos de
cuatros letras.
24Homografía interlingüística por préstamo
- Cuando una palabra de un idioma es aceptada tal
cual en otro. - Anglicismos comme business, sandwich o software.
- El galicismo, deja vu en inglés, castellano, etc.
(homógrafo de la expresión francesa sin
diacríticos). - ? Excluir sistemáticamente o deducir (mardi-gras)
25Homografía con una abreviación
- Sept, siete en francés, homógrafo de las
abreviaciones de septiembre en varios idiomas,
sobre todo en inglés. - ?Evitar estas palabras.
- Estamos relativamente protegidos por la consigna
de evitar palabras de menos de cuatros letras.
26Homografía con un nombre propio frecuente
- Windows es ventana en inglés.... pero es asimismo
el nombre de un programa muy citado en la
Internet. - ?Evitar estas palabras.
27Pseudohomografía interlingüística
- La escritura de una palabra con une error de
ortografía frecuente en un idioma corresponde a
otra en otro idioma. - Ambasador en rumano puede confundirse con
ambas(s)ador en inglés. - ?Se rechazan estas palabras solamente si la
lengua con que se confunde es el inglés.
28Significados no equivalentes
- Prix en francés equivale en su significado a
premio y a precio. - ?Evitar estas palabras, salvo si fuera posible
incluir todos los significantes que completarían
el sentido en las lenguas que lo necesiten.
29Morfosintaxis no equivalente sustantivo, verbo
- El inglés es diferente morfo-sintácticamente de
los demás idiomas estudiados, suele tener una
misma forma como sustantivo y variante verbal,
ésta última equivalente a su vez de muchas formas
conjugadas en los demás idiomas. - Love en inglés es el sustantivo que significa
amor y el verbo amar en el infinitivo (cuando
sigue a to), en el presente del indicativo (amo,
amas, ama, amamos, amáis, aman), etc. - ?Evitar estas palabras.
- ?Esta característica del inglés nos lleva a
excluir los verbos.
30Morfosintaxis no equivalente adjetivos y
sustantivos
- Adjetivos, invariables en inglés, varían en
género y en número en los demás idiomas
estudiados. - Los sustantivos, que en general sólo varían en
número en los demás idiomas, varían en rumano
también según el caso (nominativo, genitivo,
etc.) y la diferencia determinado / no
determinado. - El adjetivo inglés yellow corresponde a amarillo
/ amarilla / amarillos / amarillas. El sustantivo
inglés instability / instabilities a las
variantes rumanas siguientes instabilitate /
instabilitatea / instabilitatii / instabilitati /
instabilitatile / instabilitatilor. - ? Incluir las variantes de género, número y caso
en los idiomas en la necesidad de equivalencia lo
exige.
31Pluricentrismo léxico y semántico
- Cuando un idioma tiene más de un centro normativo
léxico-semántico. - Según el país hispanohablante, se dice nafta o
gasolina. - Americano, en muchos países de América Latina, no
tiene el mismo sentido que en otros o en España. - ? Incluir las variantes sinonímicas nacionales o
regionales cuando corresponda.
32Pluricentrismo ortográfico
- Cuando un idioma tiene más de un centro normativo
ortográfico. - Casos del inglés y del portugués ortografía
diferente en EE. UU. y en el Reino Unido (theater
y theatre), en Portugal y en Brasil
(electricidade y eletricidade). - ? Incluir las variantes ortográficas nacionales o
regionales cuando corresponda.
33Formas agregadas
- Las formas agregadas son comunes en alemán y el
motor no las contabiliza. - ? Corregir globalmente las cifras en función de
un porcentage de frecuencia.
34CONCEPTOS EJEMPLOS
- INGLÉS cheese, cheeses
- ESPAÑOL queso, quesos
- FRANCÉS fromage, fromages
- ITALIANO formaggi, formaggio
- PORTUGUÉS queijo, queijos
- RUMANO branza, branze, branzei, branzele,
branzelor, branzeturi, branzeturile,
branzeturilorbrânza, brânze, brânzei, brânzele,
brânzelor, brânzeturi, brânzeturile,
brânzeturilor, brânzã - ALEMÁN kaese, kaesen, kase, kasen, käse, käsen
-
35CONCEPTOS EJEMPLOS
- INGLÉS yellow
- ESPAÑOL amarilla,amarillas amarillo, amarillos
- FRANCÉS jaune, jaunes
- ITALIANO gialla, gialle, gialli, giallo
- PORTUGUÉS Amarela, amarelas, amarelo, amarelos
- RUMANO Galben, galbena, galbene, galbeni,
galbenã - ALEMÁN gelb, gelbe, gelbem, gelben, gelber,
gelbes
36MOTORES DE BÚSQUEDAentre maravilla y pesadilla
- LOS HEMOS PROBADOS TODOS
- Altavista, Excite, Fastsearch (Alltheweb),
Google, Hotbot, Infoseek, iWon, Lycos,
Northernlight, Yahoo et Webtop..
37MOTORES DE BÚSQUEDASELECCIÓN
- Para cada estudio se selecciona el mejor con esos
criterios - Fiabilidad de contabilidad de ocurrencias
- Gestión de diacríticos
- Coherencia de resultados
- Tamaño del índice
- Limitación de sezgos
38MOTORES DE BÚSQUEDAun medio bastante opaco
- CASI SIEMPRE HAY PROBLEMAS
- TOMA TIEMPO PARA VALIDAR Y ENTENDER LOS FENÓMENOS
- A MENUDO ESTUVIMOS MUY CERCA DE ABANDONAR
39MÉTODO ESTADÍSTICO
- Distribución normal (Gauss)
- Analisis del coeficiente de Varianza para validar
resultados - Interval de confianza a 90 e 99 calculados a
partir de la distribución Student-Fisher
40PROGRAMACIÓN
- Interfaz a los motores automatizado en PHP
- Nutre base de datos de resultados para
conservación y comparación
41PRODUCTOS
- PORCENTAJEE DE CADA IDIOMA COMPARADO CON INGLÉS
-
- COEFICIENTE DE VARIANZA
- INTERVAL DE CONFIANZA
42EVALUACIÓN DEL PORCENTAJE DEL INGLÉS
- La parte le menos científica ?
- Realizada cruzando datos de los lenguajes no
medidos - Cada día mas difícil
43RESULTADOS DERIVADOS E INDICADORES
- - PORCENTAJE ABSOLUTO
- PRESENCIA PONDERADA
- PRODUCTIVIDAD
- - EVOLUCIONES
44EVOLUCIÓN PAGINAS WEB EN COMPAR. CON
INGLÉSFUNREDES 1998-2008
45INDICADORES 2008
INGLES ESP. FR. IT. POR. RUM. AL. CAT. TOT.
Locutores (millones) 670 400 130 60 205 30 120 9 6600
Locutores ( pop. mundial) 10.1 6.1 2.0 0.9 3.1 0.5 1.8 0.1 130
Internautas (millones) 366 102 58 31 47 5 59 2 1154
Internautas () 54.6 25.4 44.9 52.3 23.1 16.5 49.1 23.1 17.5
Internautas ( pop. mundial) 5.5 1.5 0.9 0.5 0.7 0.1 0.9 0.0 17.5
de Internautas por lengua 32 9 5 3 4 0 5 0.2 130
de paginas web por lengua 45.0 3.8 4.4 2.7 1.4 0.3 5.9 0.1 100
Productividad por lengua 1.42 0.43 0.87 0.98 0.34 0.66 1.16 0.74 1
Pagina web per internauta 4.44 0.63 2.24 2.93 0.45 0.62 3.25 0.96
46MAS RESULTADOS DERIVADOS E INDICADORES
- PARTIENDO DE BÚSQUEDA
- POR DOMINIO GENÉRICO
- POR DOMINIOS DE PAÍSES
- POR PAÍSES
- POR LENGUAS
- ? PRODUCTIVIDAD DE PAGINAS WEB EN UNA LENGUA DADA
POR PAÍS
47QUE PAÍSES PRODUCEN CONTENIDOS EN FRANCÉS?
FUENTE FUNREDES/UL
Noviembre 2007 Mayo 20005 Marzo 2003
FRANCIA 60 -1,09 60 - 0,82 54 - 0,96
CANADA 20 - 1,06 19 - 1,27 24 - 1,83
BELGICA 7 - 0,60 8 - 1,55 7 - 2,21
SUIZA 5 - 0,87 5 - 2,78 6 - 2,17
OTROS 8 - 0,84 8 - 1,38 9 - 3,10
48QUE REGIONES PRODUCEN CONTENIDOS EN FRANCÉS?
FUENTE FUNREDES/UL
2007 2005 2003
EUROPA 75 79 71
AMERICA 22 21 25
AFRICA/MEDIO ORIENTE AFRICA/MEDIO ORIENTE 0.3 0.4 0,4
ASIA/OCEANIA ASIA/OCEANIA 0.2 0.4 0,4
NO CLASIFICADO NO CLASIFICADO 2,11 0.19 3.32
49QUE PAÍSES PRODUCEN CONTENIDOS EN ESPAÑOL?
FUENTE FUNREDES/UL
2007 2005 2001
ESPAÑA 56 - 3.4 48 - 2.4 54 - 2.7
EEUU 10 - 0.4 14 - 0.4 5 - 0.12
ARGENTINA 9.4 0.9 10.6 - 1.9 9.6 - 1.3
MEXICO 8.4 - 0.45 7.4 - 0.5 8.6 - 0.45
50QUE PAÍSES PRODUCEN CONTENIDOS EN PORTUGUÉS?
FUENTE FUNREDES/UL
2007 2005
BRASIL 71 - 0.90 71 - 0.95
PORTUGAL 15 - 0.98 17 - 1.0
USA 4 - 5.0 8 - 5.4
SPAIN 3.8 - 3.7 2.3 - 1.2
51QUE PAÍSES PRODUCEN CONTENIDOS EN INGLÉS?
FUENTE FUNREDES/UL
nov-07 may-05
EEUU 66 - 1 51 - 0,8
INGLATERRA 6.5 - 0,6 7,2 - 0,6
CANADA 3.5 - 0,7 5 - 0,7
AUSTRALIA 1.5 - 0,3 1.8 - 0,4
ALEMAÑA 1.2 - 39 1.9 - 57
52CUAL ES EL ESPACIO DEL SUR EN ESTA PRODUCCIÓN?
- FUENTE FUNREDES/UL
-
- En FRANCÉS África Asia lt 0.8 (menos que
España o Italia...). - Destacan Marruecos, Senegal y Vietnam
- En ESPAÑOL America latina 35 producción total
- Destaca Nicaragua y Cuba en productividad
- En rojo Guatemala, Honduras, Costa Rica, Puerto
Rico, Perú - En INGLÉS Producción del Sur totalmente
marginal excepto África del Sur, China, Brasil,
algunas islas del Pacifico (uso negociado del
dominio nacional!), Corea del Sur, India,
Filipinas. - Destaca (del Norte) Alemania, Francia, Italia,
Holanda, Japón, Suiza, Rusia, Suecia, España con
productividades enormes...
53OTRAS ACTIVIDADES DEL OBSERVATORIO DE FUNREDES
- Otros espacios newsgroups, blogosfera, wikipedia
- Medición muy aproximativa de las culturas a
través las citaciones de personajes y evaluando
las evoluciones. - Automatización de la traducción por programa en
listas de discusión
54EL FUTURO DE NUESTRO METODO
- Posiblemente hemos cumplido nuestro rol y debemos
dejar el espacio a proceso mas industriales - Tal vez podríamos considerar lanzarnos (o mejor
negociar con alguien) para aplicar el método no
sobre los motores sino sobre el mismo web
55REFERENCIAS
- Measuring linguistic diversity on the Internet,
UNESCO, 12/2005, a collection of papers by John
Paolillo, Daniel Pimienta, Daniel Prado, et al.
http//portal.unesco.org/ci/en/ev.php-URL_ID20882
URL_DODO_TOPICURL_SECTION201.html -
Activités de Funredes pour la promotion de la
diversité linguistique dans l'Internet et
enseignements de l'expérience, 5/05http//portal.
unesco.org/ci/en/file_download.php/92a27500bf11f4c
73cd567943deb4077DanielPimienta.doc-Quel
espace reste-t-il dans lInternet, hors la langue
anglaise et la culture "made in USA" ?, in
Nord et Sud numériques , Les Cahiers du
Numériques, Vol 2 No 3/4 Hermès, Numéro spécial
sur la fracture numérique, 2001http//funredes.o
rg/lc/l5/cahiersNumFinal.html