TP2: tokenization du droit

L’objectif de ces travaux pratiques est d’utiliser le tokenizer neuronal SentencePiece pour créer un encodage des mots des textes législatifs et réglementaires publiés au JORF et des textes consolidés.

Ces travaux pratiques ont plusieurs objectifs pédagogiques, notamment:

Cloner le dépôt Git depuis Github ou Gitlab

Le point de départ de votre travail se trouve dans un dépot Git sous Github.

Il faut cloner le contenu de ce dépôt sur votre machine afin de pouvoir effectuer des modifications sur le code. Si vous avez un compte Github, vous pouvez d’abord faire un fork du dépôt dans votre espace sur Github et ensuite cloner ce dépôt forké. L’avantage de cette dernière approche est que vous pourrez proposer une pull-request (Github) au dépôt principal. Vous pouvez également opter pour une option plus simple et cloner le dépôt principal: dans ce cas le travail sera à me rendre sous la forme d’un patch (voir la fin de ce document).

Après vous être positionné dans Powershell (Windows) ou Bash/zsh (WSL, macOS ou Linux) dans le répertoire où vous souhaitez travailler, la commande permettant de cloner le dépôt Git est la suivante:

git clone https://github.com/legistix/juritok

Créer un ou plusieurs modèles de tokenization pour le droit

Description en cours du travail à faire. Lien vers les données à utiliser.

Livrable de ces travaux pratiques

Trois possibilités: