TP2: tokenization du droit

L’objectif de ces travaux pratiques est d’utiliser le tokenizer neuronal SentencePiece pour créer un encodage des mots des textes législatifs et réglementaires publiés au JORF et des textes consolidés.

Ces travaux pratiques ont plusieurs objectifs pédagogiques, notamment:

comprendre la notion de tokenzation utilisée par les systèmes SOTA de LLM (traduction: les systèmes à l’état de l’art manipulant des grands modèles de langue)
savoir utiliser des données de grande taille sous la forme de fichiers CSV
savoir utiliser Github pour stocker votre code et créer des Pull request

Cloner le dépôt Git depuis Github ou Gitlab

Le point de départ de votre travail se trouve dans un dépot Git sous Github.

Il faut cloner le contenu de ce dépôt sur votre machine afin de pouvoir effectuer des modifications sur le code. Si vous avez un compte Github, vous pouvez d’abord faire un fork du dépôt dans votre espace sur Github et ensuite cloner ce dépôt forké. L’avantage de cette dernière approche est que vous pourrez proposer une pull-request (Github) au dépôt principal. Vous pouvez également opter pour une option plus simple et cloner le dépôt principal: dans ce cas le travail sera à me rendre sous la forme d’un patch (voir la fin de ce document).

Après vous être positionné dans Powershell (Windows) ou Bash/zsh (WSL, macOS ou Linux) dans le répertoire où vous souhaitez travailler, la commande permettant de cloner le dépôt Git est la suivante:

git clone https://github.com/legistix/juritok

Créer un ou plusieurs modèles de tokenization pour le droit

Description en cours du travail à faire. Lien vers les données à utiliser.

jorf 2023
jorf 2022
jorf 2021
jorf 2020
jorf 2019
jorf 2018
tous les jorf de 1990 à 2023 (attention, 430 Mo)

Livrable de ces travaux pratiques

Trois possibilités:

la création d’un patch (fichier texte) obtenu en lançant la commande: git diff > nom_de_votre_patch.txt à la racine du dépôt Git. Ce fichier texte sera à m’envoyer par email.
création d’une pull request Github de ce dépôt après avoir fait un “fork” dans votre propre espace Github