Posted 5 months ago

ML Engineer (Platform)

SeoulOn-siteFull-time

AI Summary

Designs, builds, and operates ML platform services (gateway, model serving, and common ML tooling) for high-volume AI/ML workloads, including deployment, monitoring, and reliability in a Kubernetes-based environment.

About this role

합류하게 될 팀에 대해 알려드려요

토스증권 ML Engineer(Platform)는 Product Division 내 ML Platform Team에 속해 있어요.
ML Platform Team의 목표는 토스증권의 다양한 AI/ML 서비스들을 효율적이고 안정적으로 개발하고 운영할 수 있는 최적의 머신러닝 플랫폼을 만드는 거예요.

합류하면 함께 할 업무에요

☑️ ML서비스의 관문인 Gateway 시스템을 개발하고 고도화해요.

전사 LLM API 요청을 처리하는 Gateway 시스템을 FastAPI 기반으로 개발·운영해요.
FastAPI로 구현된 Gateway 애플리케이션에서 인증, 라우팅, 트래픽 제어, 장애 격리(Circuit Breaker, Fallback), 대규모 TPS 처리 및 부하 분산 전략을 애플리케이션,인프라 관점에서 설계·구현해요.

☑️ ML 서비스 운영과 서빙을 책임져요.

Kubernetes 환경에서 머신러닝 모델 서빙 시스템을 직접 운영해요.
대규모 트래픽 상황에서도 안정적으로 동작할 수 있도록 LLM 서빙 아키텍처를 설계·개선해요.
서비스 중인 모델의 latency, 에러율, 리소스 사용량 등을 모니터링하고, 운영 이슈를 직접 분석·해결해요.
장애 발생 시 근본 원인을 규명하고, 운영 정책이나 아키텍처를 포함한 구조적인 개선까지 수행해요.

☑️ 전사 공통 ML 플랫폼을 개발하고 운영해요.

Kubeflow 기반으로 사내 ML/LLM 모델의 학습 및 서빙을 효율적으로 운영할 수 있는 공통 플랫폼을 개발·운영해요.
플랫폼에서 실행되는 워크로드의 성능과 리소스를 지속적으로 모니터링하고 최적화해요.

☑️ LLM 기반 서비스를 위한 인프라 환경을 구축해요.

vLLM, SGLang, Triton 등 다양한 서빙 프레임워크를 활용해 LLM 서비스를 운영해요.
H100/B300 등 고성능 GPU 클러스터에서 학습·서빙 워크로드가 안정적으로 동작하도록 환경을 관리해요.
금융 도메인 특화 LLM을 위한 대규모 데이터 학습 환경을 구축·운영해요.

이런 분과 함께하고 싶어요

Python, Go, Java, Kotlin 중 하나 이상의 언어에 능숙하며, 프로덕션 환경의 API 서버를 설계·개발해 본 경험이 필요해요.
API Gateway(Nginx, Kong 등) 또는 LLM Router(LiteLLM, Envoy AI Gateway 등)를 개발하거나 운영하며, 대용량 트래픽 처리 및 장애 대응 경험이 필요해요.
Kafka, Elasticsearch, Kibana 등과 연동해 서빙 로그 및 이벤트 파이프라인을 운영해 본 경험이 필요해요.
Prometheus, Grafana 등을 활용해 모델 서빙 모니터링 지표를 정의하고 대시보드를 구성·운영해 본 경험이 필요해요.
KServe, BentoML, vLLM, SGLang 등을 활용해 ML/LLM 모델 서빙을 운영해 본 경험이 필요해요.
Kubernetes 환경에서 MLOps 컴포넌트(Kubeflow, KServe, Airflow, Argo CD, MLflow 등)를 직접 운영하며 장애를 디버깅하고 해결해 본 경험이 필요해요.
서비스 운영 중 발생한 이슈에 대해 단기적인 대응을 넘어, 근본 원인 분석을 통해 장기적인 개선 방안을 설계·적용해 본 경험이 필요해요.

이런 경험이 있다면 더 좋아요

MSA(Microservices Architecture) 환경에서 REST, gRPC API를 활용한 서비스 간 통신 및 트랜잭션 처리에 능숙하면 좋아요.
다양한 분산 시스템 설계 전략을 활용해 대규모 트래픽 환경을 안정적으로 운영해 본 경험이 있다면 좋아요.
Azure AI Foundry, Azure AI Studio, AWS Bedrock, AWS SageMaker 등 Public Cloud 환경에서 MLOps 또는 LLMOps 컴포넌트를 운영해 본 경험이 있다면 더 좋아요.
vLLM, SGLang 등을 활용해 LLM 서빙 병목을 분석하고 성능을 최적화해 본 경험(또는 관련 오픈소스 기여 경험)이 있다면 더 좋아요.
disaggregated serving, prefix-aware routing, context caching 등 LLM 기반 시스템을 설계하고 최적화해 본 경험이 있다면 더 좋아요.
Kubernetes Operator 또는 Scheduler 등 Kubernetes 확장 컴포넌트를 설계·개발해 본 경험이 있다면 더 좋아요.
데이터 전처리부터 학습, 배포, 품질 관리, 재학습까지 머신러닝 파이프라인을 실제 서비스 환경에서 운영해 본 경험이 있다면 더 좋아요.

이력서는 이렇게 작성하시는 걸 추천해요

임팩트 있었던 업무/프로젝트와 그 결과에 대해 구체적으로 적어주세요.
기술적으로 외부 공개가 민감한 사항일 경우, 해당 부분은 제외해 주세요.
해결한 문제들에 대해 어떤 방법론들을 어떤 이유로 적용했는지 자세히 적어주세요.

토스증권에서 사용하는 기술

Workflow & Platform: Kubernetes, Kubeflow, Argo CD, Argo Workflows, Airflow
Model Serving & Optimization: vLLM, SGLang, KServe, BentoML
Monitoring & Logging: Prometheus, Grafana, Kafka, Elasticsearch, Kibana
Cloud & Infra: GPU Cluster (A40/A100/H100/H200/B300), Kubernetes 기반 ML 인프라

토스증권으로의 합류여정

서류접수 > 프리 인터뷰 > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사

꼭 확인해 주세요

이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.
토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.
장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.

함께 할 동료를 위한 한마디

"AI/ML플랫폼을 대규모로 구축, 확장 해 나가면서 함께 성장할 동료를 기다리고 있어요!"

토스증권은 H100을 시작으로 B300 등 고성능 GPU 인프라를 확장하고 있어요. 이러한 인프라를 바탕으로 다양한 ML서비스를 안정적으로 운영할 ML플랫폼을 함께 만들어 갈 분을 찾고 있어요.
지금까지는 플랫폼의 토대를 다져왔고, 앞으로는 더 많은 서비스와 트래픽을 효율적으로 감당하기 위한 스케줄링·리소스 최적화·운영성 개선을 본격적으로 진행하려고 해요. 대규모 GPU 클러스터 기반 ML 플랫폼의 초기 설계 단계부터, 확장되어 가는 전 과정에 함께하며 성장하고 싶은 분을 기다리고 있어요!

Skills

A100A40AirflowArgo CDArgo WorkflowsBentoMLElasticsearchFastAPIGOGPU ClusteringGrafanaH100JavaKafkaKibanaKongKotlinKServeKubectlKubeflowKubernetesLLM RouterMLflowNginxPrometheusPythonSglangVLLM

ML Engineer (Platform)

About this role

Skills

Explore related jobs

More jobs at Toss

Similar A100 jobs

Jobs in Seoul

Browse these categories