-
Notifications
You must be signed in to change notification settings - Fork 19
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Re-découpage des articles #34
Comments
Cela pose la question de l’éditorialisation de la base LEGI. Bien sûr, c’est évidemment ici une erreur de découpage, par contre ça serait bien de ne pas mélanger dans la base legi.py les données originelles des données fortement éditorialisées. Ici, par exemple, en cas de redécoupage, les articles n’auront pas de numéro LEGITEXT, donc devront être manipulés de façon différente. Un redécoupage nécessite aussi d’avoir des regex/une grammaire dédiés et donc faillibles dans une certaine mesure (on arrive sur le terrain du scraping). Je vois comme solutions possibles : 1) créer une 2e base "éditorialisée", 2) créer une table spécifique documentée comme tel, 3) créer un type d’anomalie à remonter à la DILA. J’ai extrait à partir de legi.py, sur cette page, les numéros d’articles vraiment bizarre. Cet article "28 à 30" y est, avec d’autres "xx à yy". |
Les "nouveaux" articles pourraient utiliser l'identifiant de celui dont ils ont été extraits et un suffixe additionnel, par exemple C'est sûr que tout serait plus simple si la DILA corrigeait LEGI, mais je suis un peu sceptique sur ce sujet. |
Certains textes présents dans LEGI n'ont pas été découpés correctement. Par exemple un arrêté de 2015 contient un article "28 à 30".
The text was updated successfully, but these errors were encountered: