ML Engineer (Platform)
SeoulOn-siteFull-time
AI Summary
Designs, builds, and operates ML platform services (gateway, model serving, and common ML tooling) for high-volume AI/ML workloads, including deployment, monitoring, and reliability in a Kubernetes-based environment.
About this role
합류하게 될 팀에 대해 알려드려요
- 토스증권 ML Engineer(Platform)는 Product Division 내 ML Platform Team에 속해 있어요.
- ML Platform Team의 목표는 토스증권의 다양한 AI/ML 서비스들을 효율적이고 안정적으로 개발하고 운영할 수 있는 최적의 머신러닝 플랫폼을 만드는 거예요.
합류하면 함께 할 업무에요
☑️ ML서비스의 관문인 Gateway 시스템을 개발하고 고도화해요.
- 전사 LLM API 요청을 처리하는 Gateway 시스템을 FastAPI 기반으로 개발·운영해요.
- FastAPI로 구현된 Gateway 애플리케이션에서 인증, 라우팅, 트래픽 제어, 장애 격리(Circuit Breaker, Fallback), 대규모 TPS 처리 및 부하 분산 전략을 애플리케이션,인프라 관점에서 설계·구현해요.
☑️ ML 서비스 운영과 서빙을 책임져요.
- Kubernetes 환경에서 머신러닝 모델 서빙 시스템을 직접 운영해요.
- 대규모 트래픽 상황에서도 안정적으로 동작할 수 있도록 LLM 서빙 아키텍처를 설계·개선해요.
- 서비스 중인 모델의 latency, 에러율, 리소스 사용량 등을 모니터링하고, 운영 이슈를 직접 분석·해결해요.
- 장애 발생 시 근본 원인을 규명하고, 운영 정책이나 아키텍처를 포함한 구조적인 개선까지 수행해요.
☑️ 전사 공통 ML 플랫폼을 개발하고 운영해요.
- Kubeflow 기반으로 사내 ML/LLM 모델의 학습 및 서빙을 효율적으로 운영할 수 있는 공통 플랫폼을 개발·운영해요.
- 플랫폼에서 실행되는 워크로드의 성능과 리소스를 지속적으로 모니터링하고 최적화해요.
☑️ LLM 기반 서비스를 위한 인프라 환경을 구축해요.
- vLLM, SGLang, Triton 등 다양한 서빙 프레임워크를 활용해 LLM 서비스를 운영해요.
- H100/B300 등 고성능 GPU 클러스터에서 학습·서빙 워크로드가 안정적으로 동작하도록 환경을 관리해요.
- 금융 도메인 특화 LLM을 위한 대규모 데이터 학습 환경을 구축·운영해요.
이런 분과 함께하고 싶어요
- Python, Go, Java, Kotlin 중 하나 이상의 언어에 능숙하며, 프로덕션 환경의 API 서버를 설계·개발해 본 경험이 필요해요.
- API Gateway(Nginx, Kong 등) 또는 LLM Router(LiteLLM, Envoy AI Gateway 등)를 개발하거나 운영하며, 대용량 트래픽 처리 및 장애 대응 경험이 필요해요.
- Kafka, Elasticsearch, Kibana 등과 연동해 서빙 로그 및 이벤트 파이프라인을 운영해 본 경험이 필요해요.
- Prometheus, Grafana 등을 활용해 모델 서빙 모니터링 지표를 정의하고 대시보드를 구성·운영해 본 경험이 필요해요.
- KServe, BentoML, vLLM, SGLang 등을 활용해 ML/LLM 모델 서빙을 운영해 본 경험이 필요해요.
- Kubernetes 환경에서 MLOps 컴포넌트(Kubeflow, KServe, Airflow, Argo CD, MLflow 등)를 직접 운영하며 장애를 디버깅하고 해결해 본 경험이 필요해요.
- 서비스 운영 중 발생한 이슈에 대해 단기적인 대응을 넘어, 근본 원인 분석을 통해 장기적인 개선 방안을 설계·적용해 본 경험이 필요해요.
이런 경험이 있다면 더 좋아요
- MSA(Microservices Architecture) 환경에서 REST, gRPC API를 활용한 서비스 간 통신 및 트랜잭션 처리에 능숙하면 좋아요.
- 다양한 분산 시스템 설계 전략을 활용해 대규모 트래픽 환경을 안정적으로 운영해 본 경험이 있다면 좋아요.
- Azure AI Foundry, Azure AI Studio, AWS Bedrock, AWS SageMaker 등 Public Cloud 환경에서 MLOps 또는 LLMOps 컴포넌트를 운영해 본 경험이 있다면 더 좋아요.
- vLLM, SGLang 등을 활용해 LLM 서빙 병목을 분석하고 성능을 최적화해 본 경험(또는 관련 오픈소스 기여 경험)이 있다면 더 좋아요.
- disaggregated serving, prefix-aware routing, context caching 등 LLM 기반 시스템을 설계하고 최적화해 본 경험이 있다면 더 좋아요.
- Kubernetes Operator 또는 Scheduler 등 Kubernetes 확장 컴포넌트를 설계·개발해 본 경험이 있다면 더 좋아요.
- 데이터 전처리부터 학습, 배포, 품질 관리, 재학습까지 머신러닝 파이프라인을 실제 서비스 환경에서 운영해 본 경험이 있다면 더 좋아요.
이력서는 이렇게 작성하시는 걸 추천해요
- 임팩트 있었던 업무/프로젝트와 그 결과에 대해 구체적으로 적어주세요.
- 기술적으로 외부 공개가 민감한 사항일 경우, 해당 부분은 제외해 주세요.
- 해결한 문제들에 대해 어떤 방법론들을 어떤 이유로 적용했는지 자세히 적어주세요.
토스증권에서 사용하는 기술
- Workflow & Platform: Kubernetes, Kubeflow, Argo CD, Argo Workflows, Airflow
- Model Serving & Optimization: vLLM, SGLang, KServe, BentoML
- Monitoring & Logging: Prometheus, Grafana, Kafka, Elasticsearch, Kibana
- Cloud & Infra: GPU Cluster (A40/A100/H100/H200/B300), Kubernetes 기반 ML 인프라
토스증권으로의 합류여정
- 서류접수 > 프리 인터뷰 > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우협의 > 최종합격 및 입사
꼭 확인해 주세요
- 이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.
- 토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.
- 장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.
함께 할 동료를 위한 한마디
"AI/ML플랫폼을 대규모로 구축, 확장 해 나가면서 함께 성장할 동료를 기다리고 있어요!"
- 토스증권은 H100을 시작으로 B300 등 고성능 GPU 인프라를 확장하고 있어요. 이러한 인프라를 바탕으로 다양한 ML서비스를 안정적으로 운영할 ML플랫폼을 함께 만들어 갈 분을 찾고 있어요.
- 지금까지는 플랫폼의 토대를 다져왔고, 앞으로는 더 많은 서비스와 트래픽을 효율적으로 감당하기 위한 스케줄링·리소스 최적화·운영성 개선을 본격적으로 진행하려고 해요. 대규모 GPU 클러스터 기반 ML 플랫폼의 초기 설계 단계부터, 확장되어 가는 전 과정에 함께하며 성장하고 싶은 분을 기다리고 있어요!
Skills
A100A40AirflowArgo CDArgo WorkflowsBentoMLElasticsearchFastAPIGOGPU ClusteringGrafanaH100JavaKafkaKibanaKongKotlinKServeKubectlKubeflowKubernetesLLM RouterMLflowNginxPrometheusPythonSglangVLLM
Explore related jobs
More jobs at Toss
Similar A100 jobs
Jobs in Seoul
- Administrator, Office ManagementPSI CRO · Seoul, Seoul
Operations Associate_Hyundai Mokdong_현대백화점 목동점ALO · Seoul, Seoul
Sales Associate_Hyundai Mokdong_현대백화점목동점ALO · Seoul, Seoul- Sales Leader, GTM Sales - South Korea/North East AsiaCommvault · Seoul, South Korea
- [AI Research Div.] Research Engineer - Generative Agent for Game Worlds (2년 이상 / 인턴)krafton · Seoul
Operations Associate_ 롯데백화점 본점ALO · Seoul, Seoul