Member of Technical Staff - Efficient ML

Posted Jan 15, 2026

embedding-vcSan Francisco Bay Areafull-timestaff

Tech Stack

Optimize training efficiency using techniques like dataloaders, fusion, activation rematerialization, and gradient checkpointing.
Enhance GPU and kernel performance through Nsight profiling, Triton/CUDA kernels, fused operations, and Flash-attention style speedups.
Implement inference optimizations including low-latency serving, continuous batching, speculative decoding, and quantization.
Ensure infrastructure and reliability by managing SLURM/Kubernetes multi-node jobs, checkpoint hygiene, and GPU failure handling.
Contribute to building AI for creating world simulations.