RDF description Dr. Ruben Sánchez Corcuera

Lecturer & Researcher


profile-picture
Sep. 2018  -  Present
ruben.sanchez [at] deusto.es

 +34 94 413 90 03 - ext: 2977

Profiles

social-network-icon GitHub
social-network-icon LinkedIn
social-network-icon ORCID
social-network-icon Twitter


From Forensic to Preventive: Language Agnostic Approach to Preventive Detection of Malicious Users

Directed by: Aitor Almeida     Co-advisor:  Arkaitz Zubiaga

 12 Dec 2022 - 10:30
 Universidad de Deusto
 Apt


173 pages (≈ 8.9 MB)


Malicious users have been active on Twitter for over a decade, using various strategies to make their attacks work. However, it was not until 2016 when it was detected that this type of user could break into electoral processes, such as the US presidential election of that year or that they could create attack vectors against users or groups through the exploitation of public information. Following the detection of these events, researchers in the area and the social network itself focused on creating better models capable of detecting these users, whom they called social or sybil bots.

However, the models presented so far have not been able to put an end to malicious users due to their constant evolution, the approach used and the specialisation in automated users or bots. The approach used so far, called forensics, makes use of data from completed attacks to train detection models. Therefore, when used on datasets where attacks have not been carried out, the models are not able to detect potentially malicious users. Moreover, most of the systems developed by the scientific community have focused on detecting or characterising bots, leaving out other users, managed in other ways, who also take malicious actions against legitimate ones.

For this reason, at the beginning of this doctoral thesis, we have conducted two analyses in which we demonstrate the ease with which attack vectors can be generated by exploiting public information on Twitter. Subsequently, we present the development and evaluation of a model capable of exploiting user interactions to foresee their future behaviour and classify malicious users, regardless of how they are managed. The system presents a preventive approach that aims to detect malicious users before they carry out their attacks. To this end, the model is trained and evaluated using official attack data published in the Twitter Transparency Centre and respecting the timeliness of the data so that it can be used in real situations. Finally, the implemented system is agnostic to the language and biographical characteristics of the users so that it can be used on data from different countries and is not dedicated to a specific type of user.


Los usuarios maliciosos llevan actuando en Twitter desde hace más de una década utilizando diversas estrategias para que sus ataques funcionen. Sin embargo, no fue hasta 2016 cuando se detectó que este tipo de usuarios eran capaces de irrumpir en procesos electorales como en la elección a la presidencia de Estados Unidos de dicho año o que eran capaces de crear vectores de ataque contra usuarios o colectivos a través de la explotación de información pública. Tras la detección de estos sucesos los investigadores en el área y la propia red social centraron sus esfuerzos en crear mejores modelos capaces de detectar a estos usuarios a los que denominaron social bots o sybil bots.

Sin embargo, los modelos presentados hasta el momento no han sido capaces de terminar con los usuarios maliciosos debido la constante evolución de estos, al enfoque utilizado y la especialización en usuarios automatizados o bots. El enfoque utilizado hasta el momento, denominado forense, hace uso de datos de ataques finalizados para entrenar los modelos de detección. Por ello, al ser utilizados en conjuntos de datos en los que los ataques no han sido llevados a cabo, los modelos no son capaces de detectar a los usuarios potencialmente maliciosos con antelación. Por otra parte, la mayoría de los sistemas desarrollados por la comunidad científica se han centrado en la detección o caracterización de bots por lo que dejan de lado a otros usuarios, gestionados de otra manera, que también emprenden acciones maliciosas contra los legítimos.

Es por ello por lo que al comienzo de tesis doctoral hemos llevado a cabo dos análisis en los que se demuestra la facilidad con la que se pueden generar vectores de ataque mediante la explotación de información pública en Twitter. Posteriormente se presenta el desarrollo y evaluación de un modelo capaz de explotar las interacciones entre usuarios para prever el comportamiento que estos tendrán en el futuro y clasificar así a los usuarios maliciosos, independientemente de cómo estén gestionados. El sistema presenta un enfoque preventivo con el que se pretende detectar a los usuarios maliciosos antes de que estos lleven a cabo su ataque. Para ello, el modelo se entrena y evalúa utilizando datos de ataques oficiales publicados en el Centro de Transparencia de Twitter y respetando la temporalidad de los datos para que pueda ser empleado en situaciones reales. Finalmente, el sistema implementado es agnóstico del lenguaje y de las características biográficas de los usuarios por lo que puede ser empleado sobre datos de diferentes países y no está dedicado a un tipo especifico de usuarios.