Research Scientist, Interpretability

Posted Jul 14, 2026

AnthropicSan Francisco, CAfull-timestaff

$350,000 USD

Tech Stack

AWSGitPythonRustTypeScript

Responsibilities

Develop methods for understanding LLMs by reverse engineering algorithms learned in their weights.
Design and run robust experiments, both quickly in toy scenarios and at scale in large models.
Create and analyze new interpretability features and circuits to better understand how models work.
Build infrastructure for running experiments and visualizing results.
Work with colleagues to communicate results internally and publicly.

Benefits

Equity
Health Insurance
Learning Budget
Parental Leave
Remote Work

Culture

Collaborative SpaceCross-Functional TeamsMission-DrivenTeam LeadershipTransparent LeadershipWork-Life BalanceInclusive HiringHybrid Work

Requirements

Required: Bachelor’s degree or an equivalent combination of education, training, and/or experience

Regions: Us

About Anthropic

Industry: saas

Size: medium

Anthropic is an AI safety and research company that builds reliable, interpretable, and steerable AI systems.

View company profile →

Compensation

Base salary: $350,000 USD

Equity: optional equity donation matching

Similar Jobs

Research Scientist, Takeoff Intel

Anthropic · San Francisco, CA

Research Lead, Training Insights

Anthropic · Remote-Friendly (Travel Required) | San Francisco, CA; San Francisco, CA | New York City, NY

Anthropic Fellows Program

Anthropic · London, UK; Ontario, CAN; Remote-Friendly, United States; San Francisco, CA

Research Scientist, Life Sciences

Anthropic · San Francisco, CA

Technical Cyber Threat Investigator

Anthropic · Remote-Friendly (Travel-Required) | San Francisco, CA | Washington, DC