loganriggs

loganriggs

Achievements

sae-rm sae-rm Public

Using SAE's to interpret Reward Models (RM)

Jupyter Notebook 4 2
sparse_coding sparse_coding Public

Forked from HoagyC/sparse_coding

Jupyter Notebook 7 5
Optimal-Policies-Tend-To-Seek-Power Optimal-Policies-Tend-To-Seek-Power Public

Code for the paper "Optimal Policies Tend To Seek Power"

Mathematica 1
alignment-research-dataset alignment-research-dataset Public

Forked from moirage/alignment-research-dataset

A dataset of alignment research and code to reproduce it

Python
STFT_wifi_physical_fingerprint STFT_wifi_physical_fingerprint Public

Python 1
white-box white-box Public

Forked from AlignmentResearch/tuned-lens

Tools for understanding how transformer predictions are built layer-by-layer

Jupyter Notebook