Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Creation d'une seule RegEx principale pour 'Manu', extension pour couple #8

Open
wants to merge 6 commits into
base: master
Choose a base branch
from

Conversation

clementFoyer
Copy link

Le remplacement par le mot 'Manu' se fait pour la majorité des
références au président de la république française (ou toutes les
formules raccourcies aussi), avec ou sans accent, avec ou sans
cédille. Prise en compte des versions raccourcies de "monsieur" aussi.

Ajout de deux formules anglophones. Ça pourrait être enrichi
ultérieurement avec d'autre langues.

Prise en compte de l'apostrophe (à la place de la simple quote qui est
toujours présente, mais sans doute un peu inutile ici).

Prise en compte de l'issue #1 avec la prise en compte du couple. Ici
double référence, en disant bien "couple à" en référence au tollé de
la "fête à macron" ; on conserve la notion de couple plutôt que de
remplacer par juste "Manu" qui exclu Brigitte (qui n'a rien demandé, la
pauvre), et si on remplaçait par "Manu et Brigitte", il aurait fallu
accorder les verbes en conséquence, et c'est pas le but ici.

@clementFoyer clementFoyer changed the title Creation d'une seule RegEx principe pour 'Manu' Creation d'une seule RegEx principale pour 'Manu', extension pour couple Jun 22, 2018
@clementFoyer clementFoyer mentioned this pull request Jun 22, 2018
@Bo-Duke
Copy link
Owner

Bo-Duke commented Jun 22, 2018

Très bon boulot ! Cependant ça rend un peu le code illisible pour les gens n'ayant pas l'habitude des regex, je préfère du coup l'approche de la PR #12 qui garde le truc plutôt lisible.
Cependant la tienne est plus complète, je vais essayer de voir ce que je peux garder de ton travail sans trop partir dans les regex compliquées.

Surtout pour les "D'Manu" et compagnie qui sont le gros problème actuel.

Merci énormément pour ta PR en tout cas et désolé de ne pas la garder, si t'as des propositions pour améliorer la clarté sans trop trop perdre de précision 🤷‍♂️

@clementFoyer
Copy link
Author

C'est le problème des regex, C'est que ce n'est pas lisible... virer les \s aide déjà dans la visibilité. J'ai essayé de respecter l'indentation pour les possibilités pour le président de la république.

Je pense que les apostrophes après d ou qu peuvent rester tels quels. Je pense que la preprocessing est le meilleur moyen de gérer certaines situations (comme.le "du").

Vers se toute façon toi le.chef su projet, prend ce qu'il te plait, moi ça m'a bien amusé de contribuer ;)

@clementFoyer
Copy link
Author

Je vais tâcher de te proposer une solution plus simple ;)

Le remplacement par le mot 'Manu' se fait pour la majorité des
références au président de la république française (ou toutes les
formules raccourcies aussi), avec ou sans accent, avec ou sans
cédille. Prise en compte des versions raccourcies de "monsieur" aussi.

Ajout de deux formules anglophones. Ça pourrait être enrichi
ultérieurement avec d'autre langues.

Prise en compte de l'apostrophe (à la place de la simple quote qui est
toujours présente, mais sans doute un peu inutile ici).

Prise en compte de l'issue Bo-Duke#1 avec la prise en compte du couple. Ici
double référence, en disant bien "couple *à*" en référence au tollé de
la "fête à macron" ; on conserve la notion de couple plutôt que de
remplacer par juste "Manu" qui exclu Brigitte (qui n'a rien demandé, la
pauvre), et si on remplaçait par "Manu et Brigitte", il aurait fallu
accorder les verbes en conséquence, et c'est pas le but ici.
En partie en raison de la page indiquée dans l'issue#2 où était indiqué
"le président (LR) de ...".

Prise en compte un peu plus propre des apostrophes pour d' et qu'

retirer la dernière condition de changement sur juste "Macron" pour
eviter que "Brigitte Macron" ne devienne "Brigitte Manu". Ça manque de
negative look-behind pour faire ça bien je crois...
La sous string extraite permet de réutiliser la string pour la seconde
regexp utile pour détecter les formes telles que "du président" tel que
mentionné dans la PR Bo-Duke#12

Ajout de check de bornes de mots (notamment important pour les "M." ou
"Mr".
J'avais oublié que la construction de la regex se faisait via une string
et donc qu'il fallait échapper les backslashs.

Ajout de prise en compte d'espaces insécables, ou de tabulations ou
autres espaces blancs. Prise en compte d'espacement multiples (un double
espace qui trainerait par exemple). Fix Bo-Duke#6.
@clementFoyer clementFoyer force-pushed the master branch 2 times, most recently from e9e0e9d to 041ed56 Compare June 23, 2018 11:05
Simplifier la première partie de la regex Manu

Ajout du modificateur '+' manquant
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

2 participants