ojaffe

Oliver Jaffe ojaffe

Achievements

openai/preparedness openai/preparedness Public

Releases from OpenAI Preparedness

Python 291 27
openai/mle-bench openai/mle-bench Public

MLE-bench is a benchmark for measuring how well AI agents perform at machine learning engineering

Python 657 86
openai/evals openai/evals Public

Evals is a framework for evaluating LLMs and LLM systems, and an open-source registry of benchmarks.

Python 15.8k 2.7k