Improving Web User Privacy Through Content Blocking - INRIA - Institut National de Recherche en Informatique et en Automatique Accéder directement au contenu
Thèse Année : 2023

Improving Web User Privacy Through Content Blocking

Préserver la vie privée en ligne grâce au blocage de contenu

Résumé

The web has seen steady growth since its inception in 1990. Along with this constant production of content, user tracking has appeared early and seen continuous development. Users are thus followed across websites and their behavior observed on individual web pages. To combat user tracking, browser vendors and extension developers have proposed different strategies, ranging from site isolation to asking the user before using sensitive features. In this thesis, we focus on one of this client-side privacy protection strategy: content blocking. Content blocking consists in preventing unwanted parts of web pages from being downloaded or executed, thus protecting the user from them. Existing content blocking tools mostly rely on filter lists which specify what parts of web pages to block. They however suffer from several issues, including incomplete coverage and being unable to target certain kinds of resources. We present four contributions for improving user privacy by modifying page content:1. We measure the dependency on common web page elements on JavaScript and how much blocking JavaScript can improve user privacy. We find that 43 % of web pages from our sample do not strictly depend on JavaScript and that 67 % of pages are likely to be usable when caring only about the main page section.2. Building on the acquired knowledge of page breakage when blocking JavaScript, we design a set of repairs to repair common page breakage types. We introduce the concept of User Browsing Intent (UBI) and, focusing on the ‘read-only' UBI, we measure how much these repairs are useful in the case of this UBI.3. We propose a server-side system to substitute interface page elements usually relying on JavaScript with noscript alternatives, and discuss the benefits of this replacement in particular in terms of device energy savings and security.4. We devise a signature scheme to generate robust signatures of JavaScript functions, and detect the bundling of tracking functions from known tracking libraries with functional code. We find that 22.7 % of domains in our sample bundle such tracking functions with functional code, effectively circumventing existing blocking tools. We propose a technique for blocking these tracking functions while preserving functional code.
Le Web a connu une croissance constante depuis sa création en 1990. En parallèle de cette production permanente de contenu, le pistage des utilisateurs est apparu rapidement et s'est développé de manière tout aussi soutenue. Les utilisateurs sont alors suivis aussi bien entre les sites Web que dans leur comportement sur chaque page. Pour combattre ce pistage, les développeurs de navigateurs et d'extensions ont proposé différentes stratégies, de l'isolation des sites les uns par rapport aux autres jusqu'à demander aux utilisateurs la permission d'utiliser certaines fonctionnalités sensibles. Dans cette thèse, on s'intéresse à une de ces stratégies de protection côté client : le blocage de contenu. Le blocage de contenu consiste à empêcher le chargement ou l'exécution de certaines parties des pages Web, protégeant ainsi les utilisateurs de celles-ci. Les outils de blocage de contenu existants reposent surtout sur des listes de filtrage qui spécifient les parties des pages à bloquer. Cependant, elles souffrent de nombreux inconvénients : elles peuvent notamment être incomplètes ou incapables de cibler certains types de ressources. On présente quatre contributions pour améliorer la vie privée des internautes en modifiant le contenu des pages :1. On mesure la dépendance au JavaScript d'éléments courants des pages Web et dans quelle mesure bloquer JavaScript permet d'améliorer la vie privée. On trouve que 43 % des pages Web de notre échantillon ne dépendent pas strictement de JavaScript et que 67 % des pages sont susceptibles d'être utilisables si l'on se préoccupe seulement du contenu principal de la page.2. En s'appuyant sur les connaissances acquises concernant la casse des pages quand JavaScript est bloqué, on conçoit un ensemble de réparations pour corriger les cas courants de casse. On introduit le concept de User Browsing Intent (UBI) (intention de navigation) et, en se concentrant sur la UBI « read-only », on mesure à quel point ces réparations sont utiles dans le cas de cette UBI.3. On propose un système côté serveur pour remplacer les composants d'interface dépendants généralement de JavaScript par des versions sans JavaScript, et on évalue les bénéfices de cette substitution, notamment d'un point de vue sécurité et de réduction de la consommation des terminaux.4. On conçoit un algorithme de signature pour produire des signatures robustes de fonctions JavaScript et détecter le bundling (empaquetage) de fonctions de pistage provenant de scripts de pistage connus avec du code bénin. On trouve que 22.7 % des domaines de notre échantillon comprennent de telles fonctions de pistage, qui contournent ainsi, de fait, les outils de blocage existants. On propose finalement une technique pour bloquer ces fonctions de pistage tout en préservant les fonctionnalités du code environnant.
Fichier principal
Vignette du fichier
These_FOUQUET_Romain.pdf (4.47 Mo) Télécharger le fichier
Origine : Version validée par le jury (STAR)

Dates et versions

tel-04123409 , version 1 (09-06-2023)
tel-04123409 , version 2 (19-12-2023)

Identifiants

  • HAL Id : tel-04123409 , version 2

Citer

Romain Fouquet. Improving Web User Privacy Through Content Blocking. Programming Languages [cs.PL]. Université de Lille, 2023. English. ⟨NNT : 2023ULILB011⟩. ⟨tel-04123409v2⟩
151 Consultations
283 Téléchargements

Partager

Gmail Facebook X LinkedIn More