Impact of applicability domains to generative artificial intelligence

Repository for the code associated with the paper Impact of applicability domains by Maxime Langevin et al. This code reproduces the results found in the paper "Impact of applicability domains to generative artificial intelligence". The quality of generated molecules is a crucial aspect of generative algorithms for molecular design. Yet, it was often overlooked, and only recently highlighted explicitly in publications (see for instance the work of Renz and al, available at: https://www.sciencedirect.com/science/article/pii/S1740674920300159). In this work, we empiriclly evaluate various applicability domain definitions to constrain generative algorithms for molecular design.
We show that defining a good applicability domain has a significant imapct on the quality of generated compounds.

When defining a bad applicability domain:

When defining a good applicability domain:

Code

Credits

This code relies on the guacamol baselines, an open-source implementation of various generative models for molecular design.
We use the same settings that in https://github.com/ml-jku/mgenerators-failure-modes for the lstm.
We also use the quality filters compiled from the ChEMBL by Pat Walters and available at: https://github.com/PatWalters/rd_filters
We thank the authors of those works for their high quality, open-source softwares.

Installation

The RDKit is a requirement for the code, and installation guidelines can be found at https://www.rdkit.org/docs/Install.html. For the other dependencies:

pip install -r requirements

Running the experiments

To reproduce our results for a given dataset (given as a csv file in the datasets folder):

python run.py --nruns 10 --generator lstm_hc --base_results results/dataset_folder --dataset datasets/dataset.csv

The notebooks generate all images and results used in the paper for the different datasets. They can be all run automatically using

analysis.sh

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
data		data
datasets		datasets
guacamol_baselines		guacamol_baselines
images		images
results		results
.gitignore		.gitignore
README.md		README.md
analysis.log		analysis.log
analysis.sh		analysis.sh
analysis_chembl_11bHSD.ipynb		analysis_chembl_11bHSD.ipynb
analysis_chembl_11bHSD.nbconvert.ipynb		analysis_chembl_11bHSD.nbconvert.ipynb
analysis_full_11bHSD.ipynb		analysis_full_11bHSD.ipynb
analysis_full_11bHSD.nbconvert.ipynb		analysis_full_11bHSD.nbconvert.ipynb
analysis_jak2.ipynb		analysis_jak2.ipynb
analysis_jak2.nbconvert.ipynb		analysis_jak2.nbconvert.ipynb
analysis_jak2_graph_ga.ipynb		analysis_jak2_graph_ga.ipynb
analysis_jak2_graph_ga.nbconvert.ipynb		analysis_jak2_graph_ga.nbconvert.ipynb
analysis_jak2_smiles_ga.ipynb		analysis_jak2_smiles_ga.ipynb
analysis_jak2_smiles_ga.nbconvert.ipynb		analysis_jak2_smiles_ga.nbconvert.ipynb
analysis_oxathiazines_11bHSD.ipynb		analysis_oxathiazines_11bHSD.ipynb
analysis_oxathiazines_11bHSD.nbconvert.ipynb		analysis_oxathiazines_11bHSD.nbconvert.ipynb
analysis_renin.ipynb		analysis_renin.ipynb
analysis_renin.nbconvert.ipynb		analysis_renin.nbconvert.ipynb
analysis_ureas_11bHSD.ipynb		analysis_ureas_11bHSD.ipynb
analysis_ureas_11bHSD.nbconvert.ipynb		analysis_ureas_11bHSD.nbconvert.ipynb
applicability_domains.py		applicability_domains.py
featurizers.py		featurizers.py
fpscores.pkl.gz		fpscores.pkl.gz
generate.py		generate.py
requirements.txt		requirements.txt
results_11bhsd_chembl_raw.tex		results_11bhsd_chembl_raw.tex
results_11bhsd_full_raw.tex		results_11bhsd_full_raw.tex
results_11bhsd_oxathiazines_raw.tex		results_11bhsd_oxathiazines_raw.tex
results_11bhsd_ureas_raw.tex		results_11bhsd_ureas_raw.tex
results_jak2_graph_ga_raw.tex		results_jak2_graph_ga_raw.tex
results_jak2_raw.tex		results_jak2_raw.tex
results_jak2_smiles_ga_raw.tex		results_jak2_smiles_ga_raw.tex
results_renin_raw.tex		results_renin_raw.tex
run.py		run.py
run.sh		run.sh
scoring_functions.py		scoring_functions.py
utils.py		utils.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Impact of applicability domains to generative artificial intelligence

Code

Credits

Installation

Running the experiments

About

Releases

Packages

Languages

Sanofi-Public/IDD-papers-generative-applicability-domains

Folders and files

Latest commit

History

Repository files navigation

Impact of applicability domains to generative artificial intelligence

Code

Credits

Installation

Running the experiments

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages