EduScribe-LLM-Backend

Pythonic dataset processing for fine-tuning LLMs. Used for a CalHacks 2023 award winning project.

Procedure

Download a dataset from huggingface. For this project, I chose https://huggingface.co/datasets/vgoldberg/longform_article_summarization
Set filepaths and configuration constants in config.py
Run python parse_parquet.py

Various functions to parse parquet files into a usable format for our use case, fine-tuning LLMs using the Together.ai API.

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
Datasets		Datasets
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md
config.py		config.py
parse_parquet.py		parse_parquet.py