Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Re-découpage des articles #34

Open
Changaco opened this issue Apr 15, 2018 · 2 comments
Open

Re-découpage des articles #34

Changaco opened this issue Apr 15, 2018 · 2 comments

Comments

@Changaco
Copy link
Member

Changaco commented Apr 15, 2018

Certains textes présents dans LEGI n'ont pas été découpés correctement. Par exemple un arrêté de 2015 contient un article "28 à 30".

@Seb35
Copy link
Member

Seb35 commented Apr 16, 2018

Cela pose la question de l’éditorialisation de la base LEGI. Bien sûr, c’est évidemment ici une erreur de découpage, par contre ça serait bien de ne pas mélanger dans la base legi.py les données originelles des données fortement éditorialisées. Ici, par exemple, en cas de redécoupage, les articles n’auront pas de numéro LEGITEXT, donc devront être manipulés de façon différente. Un redécoupage nécessite aussi d’avoir des regex/une grammaire dédiés et donc faillibles dans une certaine mesure (on arrive sur le terrain du scraping).

Je vois comme solutions possibles : 1) créer une 2e base "éditorialisée", 2) créer une table spécifique documentée comme tel, 3) créer un type d’anomalie à remonter à la DILA.

J’ai extrait à partir de legi.py, sur cette page, les numéros d’articles vraiment bizarre. Cet article "28 à 30" y est, avec d’autres "xx à yy".

@Changaco
Copy link
Member Author

Les "nouveaux" articles pourraient utiliser l'identifiant de celui dont ils ont été extraits et un suffixe additionnel, par exemple LEGIARTI000030515098-1, LEGIARTI000030515098-2 et LEGIARTI000030515098-3 pour les fameux articles 28 à 30.

C'est sûr que tout serait plus simple si la DILA corrigeait LEGI, mais je suis un peu sceptique sur ce sujet.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

2 participants