Title: T
1Técnicas de uso de la ley potencial, de las
curvas autosimilares y de ajuste a las curvas
parabólico fractales en la detección de la
falsedad
2LA CUESTION
- Es posible detectar y cuantificar el grado de
falsedad existente en conjuntos de datos,
proporcionados por sujetos, mediante el mero
análisis de los datos, sin contraste empírico
con el exterior, ni control experimental del
sujeto?
3Intuición primera
Longitud
p
Diámetro
4Punto de partida (Ley de Benford)
- La teoría figura en The Law of anomalous
numbers en el Proceedings of the American
Philosophical Society 78, pp 531-538,1.938 - Que en cualquier conjunto de números tomados al
azar, longitudes de los ríos, constantes
naturales etc.. siempre que no haya una causa
condicionante, como en los teléfonos,
1
5La distribución es siempre....
1234 316 25 1 14321 245
30,1
Empieza por 1 el 30.1 de los casos Empieza por
2 el 17,6 Empieza por 3 el 12,5 Empieza por 4
el 9,7 Empieza por 5 el 7,92 . Empieza por 9
el 4,6
6Primera investigación
7La logica subyacente
Caso de quien esta autorizado a invitar hasta
100 puede pedir dos facturas. Alarma porque
hay demasiadas que empiezan por 50
Quien todos los meses compra lo mismo , por
ejemplo que le cueste 300 no falsea
3
8HIPOTESIS
- En un casos en que la distribución de los datos
se distribuye conforme a una ley de Benford es
posible - Obtener la distribucion de los datos observados
- Depurar la realmente observada de artefactos
estadísticos - Estimar la falsedad debida al interés económico a
través de la distancia entre la distribución
ajustada y la teórica.
Si la distribucion se separa mucho HAY FALSEDAD
9Objetivo
Tipo de cliente
Falsedad
10Datos
- Datos de comercio exterior 2.175.069
- Sujetos 109.769
- Existe interés económico en la falsedad
- Hay datos sobre el grado de falsedad
- Actas de Inspección 4.327 actas
- Importe de actas 61,292 mm de
11Paso 1. Se calcula distribución para cada tipo de
mercancía (97)
12Paso 2. Calcular indicadores de repetición de
facturas(Generador de desviacion frente a la
teorica)
NFF 1 (?ci2/n2)
13Se propone medida de distancia entre
distribuciones
D d1d2?
14Estimación del efecto
- Regresión multiple
- Variable independiente
- Chi-cuadrado Kullback Leibler
- Despues de varias depuraciones
- R2 0,651 y nivel significación 0,000
- Se resta esta estimación del sesgo
- Queda la estimación de la falsedad
15 Se propone un criterio de FALSEDAD
16Se define un procedimiento para ver la falsedad
de un sujeto
- Hay importadores que solo lo hacen una vez.
- Cada importador comercia con muchas cosas
distintas - Tratamos desde 550 hasta 2653 (máximo)
- En total 332.252 declaraciones (1/10)
- Divididas en 73.465 y las demas
17Para cada operador
18Para cada operador y tipo de comercio
- Se elimina el sesgo debido a su tipo de comercio
obtenido mediante una regresión múltiple.
19Análisis de la calidad de la selección y los
resultados (VARIAS LINEAS)
PRIMER INTENTO SI /NO Resultado MALO
SEGUNDO INTENTO
Selecciona bien Detecta falsedad mal
20El salto a la entropia
21Conclusión
- 37 de eficacia frente a 27 de los expertos
- 28.155 euros frente a 14.000 del sistema
tradicional - SE VERIFICA LA HIPOTESIS I
22Segunda investigacion
23 Que hacer si los datos no se ajustan a Benford?
DECLARACIONES DEL IMPUESTO DE MATRICULACION
24Hay alguna ley mas universal?
- Teoría de la belleza
- Leyes naturales
- Leyes de Zip y Pareto
- Demografía
- Fractales, sistema dinámicos, sistemas 1/f,
modelos cognitivos SOC
- Numero aureo, espiral de Bernouilli, teoría de la
simetría, entropía.. - Leyes log log
- Leyes rango frecuencia (Lingüística), pendiente
fractal - Benford como fractal parabólica
- Autosimilaridad
25Pasos sucesivos
Población (log-log) Ley de
Zipf
Rango frecuencia
Petróleo ciudades
Fractales parabólicas
26Segunda intuición
- Si se encuentra un sistema que convierta los
datos en rectas, las distancias frente a la recta
pueden ser medidas de falsedad
Terremotos en el Observatorio X
27El final....
- Curvas Rango Log del valor de la variable .
Recta teorica por regesion.
28Tercera investigacion
29- Un fichero descargado de Internet de la Sociedad
Estadistica de Canadá. - Datos sobre anorexia
- 243 pacientes y 82 madres
- Sucede que los pacientes femeninos con anorexia
nerviosa reflejan una conducta familiar
caracterizada por altos niveles de actividad e
hiper - evitación del consumo de alimentos.
Influye este perfil familiar en el incremento de
riesgo de surgimiento de la anorexia?
30Tres conjuntos de datos
Pacientes Madres
Madres sobre si
sobre las pacientes mismas
31El sistema
- Detecta que en 33 de los 82 casos hay
exageración. - Los minutos en media declarados por las madres al
año de ejercicio fisico fueron 9.396. El sistema
sugiere 8.322 - Dividiendo por 52 semanas resulta que las madres
afirmaron 180 minutos /semana (1/2 hora por dia)
y el sistema sugiere 120 (dos horas semanales de
ejercicio.
32Conclusión
- Es un sistema general y de aplicación simple
- En dos casos con ficheros de datos grandes se ha
intentado falsar la hipótesis y no se ha podido. - En el tercer caso no se conoce la falsedad pero
los datos son muy plausibles - Defiendo que es una línea por el momento no
descartable,