Después de la recolección

La mayoría de los flujos de trabajo de análisis presentados en FADe project se han basado en la premisa de recopilar el tráfico de los Bloques de Información del Sistema de todas las torres o antenas monitoreadas dentro de las redes de interés, estos Bloques de Información del Sistema son parte de la especificación GSM (Sistema global para dispositivos móviles) y algunos protocolos complementarios que contienen información sobre:

  • La torre o antena actual que se monitorea, tales como la frecuencia de transmisión, el país y el proveedor de servicio.
  • Información contextual sobre el lugar y la red alrededor de la torre monitoreada, tales como la frecuencia de las torres vecinas, y un código de área compartido entre otras torres en la misma zona geográfica.
  • Parámetros técnicos de rendimiento para cada torre, tales como la intensidad mínima de la señal de un teléfono para conectarse a una torre, con qué frecuencia se necesita «actualizar» la conexión o, incluso, cuánta energía se requiere para mantener la conexión a esta torre a lo largo del tiempo.
  • Datos relativos a áreas específicas de otros protocolos utilizados, como GPRS (en inglés General Packet Radio Service) o parámetro adicional 3G. Esta información solo se obtiene cuando esos protocolos se utilizan de manera tan general que obtenemos menos información de este tipo.

Basado en la infraestructura de SEAGLASS, las mediciones se centran en los Bloques de Información del Sistema, denominados 1, 2, 3, 4, 2quater y 13.

Por otro lado, los Bloques de Información del Sistema, también son útiles para capturar información básica transmitida en el nivel de conexión GSM (Sistema global para dispositivos móviles) para cada medición (como para los avances de tiempo, explicados mas abajo). Entre toda la información recopilada, estamos considerando alrededor de 340 campos diferentes por medición, lo que representa una gran cantidad de datos para manejar, y un desafío en términos de discernimiento para cada flujo de trabajo de análisis, lo que significa que estos campos se pueden usar para detectar anomalías de manera confiable o no.

Otra fuente de información utilizada por la metodología SEAGLASS es la registrada por su app, que monitorea y vincula la fecha, hora y ubicación precisa del GPS (ubicación del Sistema de Posicionamiento Global) por cada medición, de modo que podamos considerar anomalías en el tiempo y zonas geográficas.

Para aprender de manera técnica sobre cómo funciona el sistema GSM (Sistema de posicionamiento global), incluidos los Bloques de Información del Sistema, y cualquier otra información transmitida por torres ó antenas y teléfonos, estudiar la especificación GSM es un excelente punto de partida. (enlace en Inglés). Click aquí.

Criterios de selección de eventos para cada tipo de prueba

 

Tanto en los mapas de resultados como en la tabla de casos manejados en el proyecto, se proponen tres (03) niveles de anomalía,  bajo, medio y alto de alerta para agregar énfasis a los casos más relevantes:

En principio, todos los casos por defecto se agregan con nivel medio, salvo en los siguientes escenarios:

  • Cuando existen más de dos (02) casos en la misma torre se incrementa el nivel a “alto”.
  • Cuando existe un (01) caso en una prueba de alta importancia se sube el nivel a “alto”.
  • En algunos casos particulares desarrollando una justificación es posible incrementar el nivel a “alto”.
  • Si sólo existe un (01) caso en una torre, de una prueba marcada como de menor confiabilidad, se cambia el nivel a “bajo”.

 

                 Baja

          Media

        Alta

High

Figura 1. Niveles de amonalía en resultados

 

Análisis de valores atípicos de parámetros de red

 

Para una gran parte de los campos transmitidos por estas torres o antenas, los proveedores de servicio se pueden definir de una manera estandarizada para establecerles en la red; por lo tanto, se espera que todas las torres de la misma red compartan el mismo valor o al menos un conjunto convincente de valores similares para varios campos.

En función a lo anterior, habremos analizado todos los campos de medición de la misma red y luego las frecuencias en las que se distribuyen esos valores; Por lo tanto, si encontramos torres con valores particularmente únicos, sabemos que esas torres están configuradas de una manera que no se parece al resto de la red, conduciendo a marcar esas torres como sospechosas.

Después de excluir aquellos campos que se espera que cambien entre torres, y aquellos que introdujeron problemas con las muestras (por ejemplo, aquellos que aparecen en los Bloques de Información del Sistema que rara vez se ven, o que contienen muchos errores en las mediciones, y/o los valores son en su mayoría erróneos) hemos llegado a la conclusión de utilizar solo 283 campos de los 347 disponibles en la base de datos de mediciones.

Para tomar en consideración:  Usando un conjunto inicial de 347 parámetros disponibles, primero, descartamos aquellos campos que están destinados a ser diferentes en la red, como los códigos geográficos o las listas de radiofrecuencia. Luego, por red, se intentó examinar los parámetros restantes que presentan frecuencias dispersas para saber cuánto campos pueden descartarse dado que podrían contribuir a una serie de falsos positivos. En esa etapa, simplemente se tomaron esos valores con frecuencias inferiores al 7%. En la mayoría de los casos, los valores detectados tenían frecuencias inferiores al 2.5%. Finalmente, tomaríamos esas celdas con al menos ocho (08) parámetros con frecuencias extrañas. En la última fase, mantuvimos 288 campos para este análisis.

Pros Cons
  • Bueno para detectar torres o antenas que son muy diferentes al resto de la red (por ejemplo, Imsi-catcher configurado como una torre única).
  • Requiere el conocimiento previo y/o la investigación de valores tipicos conocidos en los campos que se incluirán en este tipo de análisis.

 

Análisis de valores atípicos de parámetros en una torre

 

Además de que todas las torres de la misma red poseen un conjunto de parámetros configurados con los mismos valores o con los mismos criterios, también se espera que muchos de sus parámetros permanezcan constantes en diferentes mediciones.

Para este flujo de trabajo, y para cada torre reunimos todas las mediciones disponibles, y en el caso de que tengamos más de dos mediciones distintas, debemos comparar los mismos parámetros en todas las mediciones, marcando como sospechosas las que muestran parámetros con diferentes valores sobre las mediciones.

Después de excluir aquellos campos que se espera que cambien con el tiempo, y aquellos que introdujeron problemas con las muestras (por ejemplo, cuando no se pudo reunir más de un valor en varias mediciones), decidimos usar solo 288 campos de los 347 disponibles en la base de datos de mediciones.

Para tomar en consideración:  Usando un conjunto inicial de 347 parámetros disponibles, en primer lugar, se descartaron aquellos campos que están destinados a cambiar con el tiempo, pudiendo causar un alto volumen de casos con falsos positivos. Al cierre, consideramos 104 parámetros para este análisis, descartando también aquellos eventos donde experimentamos un número minúsculo de mediciones. Finalmente, estudiamos sólo aquellos casos en los que se registraron más de (05) mediciones, o incluso cuando la torre involucrada encontró otras anomalías relacionadas.

Pros Cons
  • Bueno para saber si una torre o antena ha cambiado su comportamiento con el tiempo.
  • Requiere de doble chequeo para detectar imsi-catchers configurados como torres únicas (que aún no existen en la red).

 

Análisis de torres con parámetros sospechosos

 

Muchos de los parámetros que las antenas o torres generalmente transmiten a los teléfonos, están diseñados para hacer que la experiencia de conexión sea lo más fluida posible, por lo que no debemos preocuparnos si nuestros teléfonos moviles deben cambiar su conexión de unas antenas a otra, registrarse con un nuevo operador cuando no tenemos cobertura con la nuestra, o incluso cuando debe actualizar su conexión con la red. Aunque es cierto que estos parámetros a menudo se usan para optimizar la conexión, también estos parámetros pueden ser utilizados por un Imsi-catcher para optimizar sus capacidades. Algunos ejemplos de esto son:

  • Informar a los usuarios que no hay otras torres cercanas, por lo que las víctimas mantienen la conexión con el Imsi-catcher el mayor tiempo posible.
  • Informar a los usuarios que necesitan conectarse solo a esa torre con frecuencia, por lo que es menos posible perder la conexión con el teléfono de la víctima.
  • Informar a los usuarios que necesitan transmitir a la máxima potencia, por lo que es más difícil perder la conexión con la víctima y, en algunos contextos, esto podría usarse para agotar la energía del teléfono más rápidamente deshabilitándolo.
  • No admitir llamadas de emergencia, que generalmente agregan ruido a los datos capturados por el Imsi-catcher y le quitan algunos recursos, una situación que puede ser indeseable para sus operadores.

Conociendo de antemano algunos de estos comportamientos característicos, y la forma en cómo se reflejan en los datos recopilados por los sensores, podemos buscar irregularidades conocidas en los parámetros transmitidos, señalando como sospechosas aquellas torres que muestran algunas de las prácticas expuestas anteriormente.

Pros Cons
  • Bueno, para determinar la existencia de Imsi-catcher de una manera realmente directa.
  • Requiere conocer de antemano algunos comportamiento irregulares conocidos (que puede conducir a más falsos positivos y más falsos negativos si tales comportamientos irregulares no son bien detectados).

 

Análisis de torres conocidas

 

Mediante el uso de servicios tales como Google Geolocation, OpenCellID o Wigle API, podemos acceder a bases de datos públicas de torres de celulares, incluidas sus ubicaciones y otros datos útiles como el proveedor del servicio, el código de área de ubicación y el Id. Esta información puede ser útil en dos escenarios:

  1. Utilizando este servicio podríamos verificar cada torre activa en nuestra base de datos, de tal modo que si alguna antena específica no está registrada allí, podría sugerir que la torre no existe legalmente o,
  2. También podríamos verificar si las ubicaciones de las torres que encontramos son consistentes en comparación con las ubicaciones registradas en estas bases de datos públicas. Esto se puede hacer de muchas maneras diferentes, por ejemplo, verificando si la ubicación de las mediciones está razonablemente cerca de las ubicaciones reales de las torres, o con un análisis más complejo, como verificar los parámetros de avance en tiempo (desarrollado a continuación).

 Para tomar en consideración: Todos los resultados se consideraron sí parecen estar en países equivocados o en jurisdicciones demasiado diferentes. Si se consideran los márgenes de error de la ubicación de la torre en un lugar incorrecto, el evento se marca como anomalía importante «alta».

 

Pros Cons
  • Bueno, cuando la fuente de datos es confiable y la credibilidad en los datos es alta, como para determinar comportamientos sospechosos.
  • Depende de una buena base de datos suministrada por un tercero. Con frecuencia, las torres tienen grandes errores de ubicación asociados.

 

Análisis de avances de tiempo en torres (relacionado con la ubicación)

 

Este tipo de análisis verifica el parámetro, conocido en inglés como «time advance» para buscar irregularidades en la ubicación de una torre específica. Este parámetro modela el tiempo que tarda la señal en viajar del teléfono móvil a la torre y viceversa, dado que en condiciones ideales las señales de radio viajan alrededor de la velocidad de la luz, podemos estimar la distancia real entre la antena y el teléfono (o el sensor en nuestro caso).

En la práctica, este parámetro toma valores de 0 a 63 donde cada número representa una banda redonda de aproximadamente 550 m, lo que significa que la especificación GSM (Sistema global para dispositivos móviles) considera válida cualquier torre de 0 m hasta aproximadamente 35 km de distancia.

Ahora, al conocer la ubicación real de la torre de otras fuentes (por ejemplo, la API de geolocalización de Google, OpenCellID o Wigle, por nombrar algunas), podemos comparar esta ubicación con las estimaciones realizadas a través de los parámetros de avance de tiempo de nuestras mediciones para saber si son consistentes. Los dos posibles resultados sospechosos pueden ser:

1) Que la torre está profundamente dentro del círculo rojo, lo que sugiere que la torre real está más cerca que la observada, y
2) Que la torre está ciertamente fuera del círculo rojo, lo que sugiere que la torre real está más lejos que la torre observada.

Para tomar en consideración: Ante todo, solo estudiamos aquellos eventos donde las torres parecían estar lo suficientemente cerca de la medida tomada, pero en realidad estaban muy lejos; Al tomar esto en consideración, estamos reduciendo los eventos que podrían haber sido provocados por la interferencia física de las montañas, la alta densidad de construcción, etc. También descartamos muchos eventos donde la diferencia de ubicación incluía repetidamente ubicaciones donde se probaron los sensores o se habían almacenado durante mucho tiempo, de esta manera se mitigaron esos falsos positivos. Por último, descartamos aquellos eventos en los que tomamos un número trivial de mediciones en la región a menos que observemos otros indicadores sospechosos, por ejemplo, otros eventos documentados.

Figura 2. Análisis de avance de tiempo de la antena (relacionado con la ubicación)

Figura 3. Descripción de monitoreo de avance de tiempo

 

 

El primer caso se observa a menudo cuando hay algún tipo de fenómeno que modifica las condiciones ideales, tales como edificios, reflejos, montañas, etc. o incluso cuando la torre está saturada y no responde de inmediato a algunas solicitudes de señal, por lo que tomará una cierta cantidad de tiempo antes para que la señal regrese, afectando el conteo apropiado de la distancia. En el segundo caso, la sugerencia es que la señal regresó más rápido que la velocidad de la luz, lo que es físicamente imposible (hasta donde sabemos), siendo esto aún más sospechoso que el primer caso, y más interesante para nuestro proceso de análisis.

En esta imagen, el círculo rojo representa una medida y su radio representa lo más lejos que puede estar la torre según el parámetro de avance de tiempo, el círculo azul representa la ubicación real de la torre que se está monitoreando, lo que sugiere que en la medición la torre observada podría ser una falsa personificación de la real.

Pros Cons
  • Bueno para determinar si una torre o antena se ha «movido» con el tiempo.
  • No es bueno para casos con mediciones insuficientes o, por ejemplo, con el Imsi-catcher operando siempre en el mismo lugar cerca de la torre que está personificando.

 

Análisis de ubicación de la torre.

Disponiendo de las torres/antenas detectadas por los sensores, es posible comprobar su ubicación registrada con servicios de geolocalización conocidos, como la API de geolocalización de Google, Wigle u OpenCellID. De tal forma, se puede determinar si están situadas en una teóricamente razonable en términos de ubicación. Esto es especialmente útil para verificar si una torre o antena se encuentra en el lado correcto de la frontera de un país o en cualquier otro contexto similar.

 

Pros Cons
  • No es necesario recopilar datos celulares si el análisis se realiza recopilando información de los servicios de geolocalización.
  • Los márgenes de error en los datos geográficos de los servicios de geolocalización conocidos pueden ser altos.

 

Verificación de banda de transmisión

 

Dependiendo de la configuración de los sensores, estos pueden tener limitaciones en términos del número de bandas GSM que pueden monitorear, excluyendo del análisis a algunos operadores cuya infraestructura no puede ser vista por los sensores, por lo que encontrar torres/antenas de estos proveedores de servicio en bandas GSM en las que no están autorizados para operar, puede ser considerado una anomalía interesante.

Para tomar en consideración: Todos los casos fueron contados y la prueba está marcada como importante «alta».

 

Pros Cons
  • Es fácil reconocer este tipo de irregularidades desde la información recopilada.
  • La detección es altamente confiable.
  • Dependiendo de ciertas regulaciones o configuraciones erróneas, esta forma de anomalía puede racionalizarse en algunos casos.

 

Inconsistencias en datos geográficos

Las torres de teléfonos celulares generalmente transmiten varios parámetros más de una vez, esto incluye datos de identificación, que se transmiten al menos dos veces seguidas. En esta prueba, buscamos inconsistencias en los parámetros de identificación, verificando si todos tienen los mismos valores todas las veces que se transmiten. Los parámetros que verificamos son:

  • Código país (MCC)
  • Código proveedor de servicio (MNC)
  • Código de área de ubicación (LAC)
  • Código de identificación de celda (CID)

Si encontramos una torre/antena que transmite uno de estos parámetros con valores diferentes, la marcaremos como sospechosa, así como también, si ambos valores coinciden, pero corresponden a valores incongruentes tales como aquellos pertenecientes a un país o proveedor de servicio distinto al esperados.

Para tomar en consideración: Todos los casos fueron contados y la prueba está marcada como importante «alta».

 

Pros Cons
  • Es fácil reconocer este tipo de irregularidades con la información recopilada.
  • En conjunto con otras irregularidades detectadas en las mismas torres / antenas, esta prueba podría ofrecer más detalles sobre el uso de IMSI-Catchers.
  • Estas inconsistencias pueden señalar en muchos casos configuraciones erróneas en las torres/antenas en lugar de vigilancia telefónica.

 

FADe project es una iniciativa de Southlight House con el apoyo del Open Technology Fund.

 

Este sitio web está disponible bajo Creative Commons Attribution 4.0 International (CC BY 4.0) License creativecommons.org