Re-découpage des articles #34

Changaco · 2018-04-15T09:39:37Z

Certains textes présents dans LEGI n'ont pas été découpés correctement. Par exemple un arrêté de 2015 contient un article "28 à 30".

Seb35 · 2018-04-16T13:18:19Z

Cela pose la question de l’éditorialisation de la base LEGI. Bien sûr, c’est évidemment ici une erreur de découpage, par contre ça serait bien de ne pas mélanger dans la base legi.py les données originelles des données fortement éditorialisées. Ici, par exemple, en cas de redécoupage, les articles n’auront pas de numéro LEGITEXT, donc devront être manipulés de façon différente. Un redécoupage nécessite aussi d’avoir des regex/une grammaire dédiés et donc faillibles dans une certaine mesure (on arrive sur le terrain du scraping).

Je vois comme solutions possibles : 1) créer une 2e base "éditorialisée", 2) créer une table spécifique documentée comme tel, 3) créer un type d’anomalie à remonter à la DILA.

J’ai extrait à partir de legi.py, sur cette page, les numéros d’articles vraiment bizarre. Cet article "28 à 30" y est, avec d’autres "xx à yy".

Changaco · 2018-04-16T16:04:29Z

Les "nouveaux" articles pourraient utiliser l'identifiant de celui dont ils ont été extraits et un suffixe additionnel, par exemple LEGIARTI000030515098-1, LEGIARTI000030515098-2 et LEGIARTI000030515098-3 pour les fameux articles 28 à 30.

C'est sûr que tout serait plus simple si la DILA corrigeait LEGI, mais je suis un peu sceptique sur ce sujet.

This was referenced Apr 15, 2018

Nettoyage des numéros d'articles #35

Closed

Hyperliens dans le corps du texte Legilibre/Archeo-Lex#2

Open

Seb35 pushed a commit to Seb35/legi.py that referenced this issue Jan 8, 2020

add fields texte_de_base and active in conteneurs - fixes Legilibre#34

4dac38b

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Re-découpage des articles #34

Re-découpage des articles #34

Changaco commented Apr 15, 2018 •

edited

Loading

Seb35 commented Apr 16, 2018

Changaco commented Apr 16, 2018

Re-découpage des articles #34

Re-découpage des articles #34

Comments

Changaco commented Apr 15, 2018 • edited Loading

Seb35 commented Apr 16, 2018

Changaco commented Apr 16, 2018

Changaco commented Apr 15, 2018 •

edited

Loading