Jobless Developer
Toss logo
Toss

Posted 5 months ago

Open

ML Engineer (Platform)

SeoulOn-siteFull-time

AI Summary

Designs, builds, and operates ML platform services (gateway, model serving, and common ML tooling) for high-volume AI/ML workloads, including deployment, monitoring, and reliability in a Kubernetes-based environment.

About this role

합류하게 될 팀에 대해 알려드려요

  • 토스증권 ML Engineer(Platform)는 Product Division 내 ML Platform Team에 속해 있어요.
  • ML Platform Team의 목표는 토스증권의 다양한 AI/ML 서비스들을 효율적이고 안정적으로 개발하고 운영할 수 있는 최적의 머신러닝 플랫폼을 만드는 거예요.

합류하면 함께 할 업무에요

☑️ ML서비스의 관문인 Gateway 시스템을 개발하고 고도화해요.

  • 전사 LLM API 요청을 처리하는 Gateway 시스템을 FastAPI 기반으로 개발·운영해요.
  • FastAPI로 구현된 Gateway 애플리케이션에서 인증, 라우팅, 트래픽 제어, 장애 격리(Circuit Breaker, Fallback), 대규모 TPS 처리 및 부하 분산 전략을 애플리케이션,인프라 관점에서 설계·구현해요.

☑️ ML 서비스 운영과 서빙을 책임져요.

  • Kubernetes 환경에서 머신러닝 모델 서빙 시스템을 직접 운영해요.
  • 대규모 트래픽 상황에서도 안정적으로 동작할 수 있도록 LLM 서빙 아키텍처를 설계·개선해요.
  • 서비스 중인 모델의 latency, 에러율, 리소스 사용량 등을 모니터링하고, 운영 이슈를 직접 분석·해결해요.
  • 장애 발생 시 근본 원인을 규명하고, 운영 정책이나 아키텍처를 포함한 구조적인 개선까지 수행해요.


☑️ 전사 공통 ML 플랫폼을 개발하고 운영해요.

  • Kubeflow 기반으로 사내 ML/LLM 모델의 학습 및 서빙을 효율적으로 운영할 수 있는 공통 플랫폼을 개발·운영해요.
  • 플랫폼에서 실행되는 워크로드의 성능과 리소스를 지속적으로 모니터링하고 최적화해요.

☑️ LLM 기반 서비스를 위한 인프라 환경을 구축해요.

  • vLLM, SGLang, Triton 등 다양한 서빙 프레임워크를 활용해 LLM 서비스를 운영해요.
  • H100/B300 등 고성능 GPU 클러스터에서 학습·서빙 워크로드가 안정적으로 동작하도록 환경을 관리해요.
  • 금융 도메인 특화 LLM을 위한 대규모 데이터 학습 환경을 구축·운영해요.

이런 분과 함께하고 싶어요

  • Python, Go, Java, Kotlin 중 하나 이상의 언어에 능숙하며, 프로덕션 환경의 API 서버를 설계·개발해 본 경험이 필요해요.
  • API Gateway(Nginx, Kong 등) 또는 LLM Router(LiteLLM, Envoy AI Gateway 등)를 개발하거나 운영하며, 대용량 트래픽 처리 및 장애 대응 경험이 필요해요.
  • Kafka, Elasticsearch, Kibana 등과 연동해 서빙 로그 및 이벤트 파이프라인을 운영해 본 경험이 필요해요.
  • Prometheus, Grafana 등을 활용해 모델 서빙 모니터링 지표를 정의하고 대시보드를 구성·운영해 본 경험이 필요해요.
  • KServe, BentoML, vLLM, SGLang 등을 활용해 ML/LLM 모델 서빙을 운영해 본 경험이 필요해요.
  • Kubernetes 환경에서 MLOps 컴포넌트(Kubeflow, KServe, Airflow, Argo CD, MLflow 등)를 직접 운영하며 장애를 디버깅하고 해결해 본 경험이 필요해요.
  • 서비스 운영 중 발생한 이슈에 대해 단기적인 대응을 넘어, 근본 원인 분석을 통해 장기적인 개선 방안을 설계·적용해 본 경험이 필요해요.

이런 경험이 있다면 더 좋아요

  • MSA(Microservices Architecture) 환경에서 REST, gRPC API를 활용한 서비스 간 통신 및 트랜잭션 처리에 능숙하면 좋아요.
  • 다양한 분산 시스템 설계 전략을 활용해 대규모 트래픽 환경을 안정적으로 운영해 본 경험이 있다면 좋아요.
  • Azure AI Foundry, Azure AI Studio, AWS Bedrock, AWS SageMaker 등 Public Cloud 환경에서 MLOps 또는 LLMOps 컴포넌트를 운영해 본 경험이 있다면 더 좋아요.
  • vLLM, SGLang 등을 활용해 LLM 서빙 병목을 분석하고 성능을 최적화해 본 경험(또는 관련 오픈소스 기여 경험)이 있다면 더 좋아요.
  • disaggregated serving, prefix-aware routing, context caching 등 LLM 기반 시스템을 설계하고 최적화해 본 경험이 있다면 더 좋아요.
  • Kubernetes Operator 또는 Scheduler 등 Kubernetes 확장 컴포넌트를 설계·개발해 본 경험이 있다면 더 좋아요.
  • 데이터 전처리부터 학습, 배포, 품질 관리, 재학습까지 머신러닝 파이프라인을 실제 서비스 환경에서 운영해 본 경험이 있다면 더 좋아요.

이력서는 이렇게 작성하시는 걸 추천해요

  • 임팩트 있었던 업무/프로젝트와 그 결과에 대해 구체적으로 적어주세요.
  • 기술적으로 외부 공개가 민감한 사항일 경우, 해당 부분은 제외해 주세요.
  • 해결한 문제들에 대해 어떤 방법론들을 어떤 이유로 적용했는지 자세히 적어주세요.

토스증권에서 사용하는 기술

  • Workflow & Platform: Kubernetes, Kubeflow, Argo CD, Argo Workflows, Airflow
  • Model Serving & Optimization: vLLM, SGLang, KServe, BentoML
  • Monitoring & Logging: Prometheus, Grafana, Kafka, Elasticsearch, Kibana
  • Cloud & Infra: GPU Cluster (A40/A100/H100/H200/B300), Kubernetes 기반 ML 인프라

토스증권으로의 합류여정

  • 서류접수 > 프리 인터뷰 > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사

꼭 확인해 주세요

  • 이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.
  • 토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.
  • 장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.

함께 할 동료를 위한 한마디

"AI/ML플랫폼을 대규모로 구축, 확장 해 나가면서 함께 성장할 동료를 기다리고 있어요!"

  • 토스증권은 H100을 시작으로 B300 등 고성능 GPU 인프라를 확장하고 있어요. 이러한 인프라를 바탕으로 다양한 ML서비스를 안정적으로 운영할 ML플랫폼을 함께 만들어 갈 분을 찾고 있어요.
  • 지금까지는 플랫폼의 토대를 다져왔고, 앞으로는 더 많은 서비스와 트래픽을 효율적으로 감당하기 위한 스케줄링·리소스 최적화·운영성 개선을 본격적으로 진행하려고 해요. 대규모 GPU 클러스터 기반 ML 플랫폼의 초기 설계 단계부터, 확장되어 가는 전 과정에 함께하며 성장하고 싶은 분을 기다리고 있어요!

Skills

A100A40AirflowArgo CDArgo WorkflowsBentoMLElasticsearchFastAPIGOGPU ClusteringGrafanaH100JavaKafkaKibanaKongKotlinKServeKubectlKubeflowKubernetesLLM RouterMLflowNginxPrometheusPythonSglangVLLM

Explore related jobs

Browse these categories