Posted 4 months ago

Member of Technical Staff - Efficient ML

San FranciscoOn-siteFull-time

AI Summary

Member of Technical Staff focusing on efficient ML techniques for training and inference, including distributed training, kernels, and optimization for low-latency serving.

About this role

Introducing Moonlake, AI for creating world simulations.

Scope of Work

Training efficiency

Dataloaders, fusion, activation remat, gradient checkpointing.
FSDP/ZeRO/tensor+pipeline parallel; NCCL tuning.

GPU + kernel performance

Nsight profiling, Triton/CUDA kernels, fused ops.
Flash-attention–style speedups, sequence packing, KV-cache tricks.

Inference optimization

Low-latency serving, continuous batching, speculative decoding.
Quantization (GPTQ/AWQ), distillation, pruning.

Infra + reliability

SLURM/K8s multi-node jobs, checkpoint hygiene.
Determinism, env pinning, GPU failure handling.

We are committed to being an on-site, in-person team currently based in San Mateo

Skills

Checkpoint HygieneContinuous BatchingCUDA KernelsDeterminismDistillationEnv PinningFlash-attention Style SpeedupsFSDPGPU Failure HandlingGPU Kernel OptimizationHyperparameter TuningInference OptimizationKubernetesKV-cache TricksLow-latency ServingMulti-node JobsNCCL TuningPipeline ParallelismPruningQuantization (GPTQ/AWQ)Sequence PackingSlurmSpeculative DecodingTensor ParallelismTritonZeRO

Member of Technical Staff - Efficient ML

About this role

Scope of Work

Skills

Explore related jobs

More jobs at Embedding VC

Similar Checkpoint Hygiene jobs

Jobs in San Francisco

Browse these categories