SAELing: Sparse Auto-Encoder for Linguistic Mechanism Analysis

The repository implements a system for interpreting language mechanisms using sparse autoencoders, named SAELing. The system aims to reveal and control the internal linguistic knowledge of large language models. We use SAELing to extract a large number of causal features from large language models. For details, see Sparse Auto-Encoder Interprets Linguistic Features in Large Language Models.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
OpenSAE @ 978f094		OpenSAE @ 978f094
codes		codes
data		data
.gitmodules		.gitmodules
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

SAELing: Sparse Auto-Encoder for Linguistic Mechanism Analysis

About

Releases

Packages

Languages

THU-KEG/Linguistic-SAE

Folders and files

Latest commit

History

Repository files navigation

SAELing: Sparse Auto-Encoder for Linguistic Mechanism Analysis

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages