Server Developer (SRE)
SeoulOn-siteFull-time
AI Summary
Server Developer (SRE) focuses on building and operating the server platform, preventing incidents, improving observability, and automating operations for scalable, reliable services.
About this role
합류하게 될 팀에 대해 알려드려요
- Server Developer (SRE)는 서버 플랫폼팀에 속해 업무해요.
- 토스는 보통 작은 feature 단위의 사일로 조직으로 기획자, 디자이너, 개발자들이 소규모로 모여 서비스 제품이 만들어지는데요, 서버 플랫폼팀은 이런 사일로 조직들에서 필요로 하는 공통 기능들, 프레임워크를 만드는 팀이에요.
- 서버 플랫폼팀의 올해 목표는 증권 서비스들이 더 쉽고 빠르게 런칭되고 안정적으로 운영될 수 있도록 하는 것인데요, 앞으로도 많은 서비스들을 확장해 나가려고 해요.
- 서버 플랫폼팀은 사일로 조직과는 다르게 기획자가 따로 있지 않아요. 팀에 소속된 엔지니어들이 곧 기획자이자 개발자인데요, 어떤 기능들이 필요할지 직접 고민하고 의견을 수집해서 방향성을 정하고 만들어 나가고 있어요.
합류하면 함께 할 업무예요
☑️ 안정적인 서비스를 위한 장애 예방 및 대응을 담당해요.
- 장애 발생 시 누구보다 빠르게 대응하고, 서비스 영향도를 최소화하기 위한 대응 프로세스를 설계하고 운영해요.
- 장애의 근본 원인(RCA)을 분석하고, 사전·사후 탐지 역량을 강화해 복구 시간을 단축하며 재발을 방지할 수 있는 시스템을 구축해요.
☑️ 서비스 가시성과 가용성을 확보해요.
- 인프라, 네트워크, Kubernetes 환경 전반의 가시성을 확보하고, 이를 실제 서비스 지표와 유기적으로 연결할 수 있는 환경을 구축해요.
- 문제 상황을 명확히 정의하기 위해 SLO를 수립하고, 필요한 메트릭을 수집해 알림(Alert) 시스템을 지속적으로 고도화해요.
- 트래픽 증가에 대비해 병목이 발생할 수 있는 컴포넌트를 선제적으로 찾아내고, 구조를 개선해요.
☑️ 문제에 대해 심층적으로 분석하고, 원인을 규명해요.
- 서비스 장애 발생 시 로그 분석에 그치지 않고, eBPF, 메모리, 네트워크, 커널 영역까지 폭넓게 분석해 복합적인 원인을 찾아내요.
- 애플리케이션 내부 동작을 정밀하게 분석해, 최적의 리소스 설정 가이드를 개발팀에 제시해요.
☑️ 운영 자동화 및 내부 도구를 개발해요.
- 반복적이고 패턴화된 분석 작업을 자동화하고, 운영 효율을 저해하는 요소를 찾아, 개선할 수 있는 도구를 직접 개발해요.
- 서비스 신뢰성을 높이기 위한 테스트 환경을 자동화하고, 동료들이 쉽게 활용할 수 있도록 제공해요.
이런 분과 함께하고 싶어요
- 성장하는 서비스에 맞춰 확장 가능한 아키텍처로 전환하거나, 구조적 개선을 통해 대규모 트래픽을 안정적으로 처리하는 서비스로 성장시킨 경험이 있으면 좋아요.
- Java, Kotlin, Spring Boot 프레임워크의 동작 원리를 깊이 이해하고, 성능 최적화 관점에서 코드를 분석하고 개선할 수 있는 분이면 좋아요.
- 복잡한 분산 환경에서 발생하는 문제를 논리적으로 접근해, 근본 원인을 끝까지 추적하는 집요함을 갖춘 분을 찾고 있어요.
- Linux OS와 커널, 네트워크 프로토콜(TCP/IP)에 대한 탄탄한 기본기를 바탕으로 로우 레벨 분석이 가능하신 분을 찾아요.
- 단순히 테스트를 수행하는 데 그치지 않고, “동료들이 테스트를 더 쉽고 자동화된 방식으로 할 수 있도록” 고민하며 테스트 플랫폼이나 환경을 구축해 본 경험이 있으면 좋아요.
- 비효율적인 반복 업무를 문제로 인식하고, 이를 코드로 해결해 시스템화해 본 경험이 있으면 좋아요.
이력서는 이렇게 작성하시는 걸 추천해요
- 단순한 프로젝트 결과의 나열보다는, 그 결과를 도출하기 위해 치열하게 고민했던 과정을 중심으로 작성해 주세요.
- 애플리케이션 레벨의 최적화 경험(JVM 튜닝 등)과 시스템 레벨의 트러블슈팅 경험(커널/네트워크 분석)이 균형 있게 드러나면 좋아요.
- 비효율적인 업무를 자동화 도구로 개선해, 팀의 생산성을 높였던 구체적인 사례를 강조해 주세요.
- 장애 회고(Post-mortem)를 통해 운영 프로세스를 개선하거나, 재발 방지 대책을 시스템에 반영한 경험이 있다면 함께 공유해 주세요.
서버 플랫폼팀이 사용하는 기술
- Language & Framework: Java, Kotlin, Spring Boot, JPA/Hibernate
- Scripting & Tooling: Python, Shell Script, Go, k6
- Deep Analysis: Linux(Kernel/Network), tcpdump, Wireshark, eBPF, heapdump, async profiler
- Infrastructure: Kubernetes, Istio, Nginx, Kafka
- Observability: Prometheus, Thanos, Grafana, ELK Stack
- CI/CD: GoCD, ArgoCD, GitHub Actions, Harbor
- Database: MySQL, MongoDB, Oracle, Redis
토스증권으로의 합류여정
- 서류접수 > 라이브코딩테스트 > 직무 인터뷰 > 문화적합성 인터뷰 > 레퍼런스 체크 > 처우 협의 > 최종합격 및 입사
기타사항
- 이력서 및 제출 서류에 허위 사실이 발견되거나 근무 이력 중 징계사항이 확인될 경우, 채용이 취소될 수 있어요.
- 토스증권 내규에 따라 채용 금지자 또는 결격사유 해당자는 채용이 취소될 수 있어요.
- 장애인 및 국가보훈대상자는 지원 시 관련법에 따라 우대하고 있어요.
함께 할 동료를 위한 한마디
- "코드 한 줄부터 패킷 하나까지, 시스템의 가장 깊은 곳을 탐험하며 성장의 즐거움을 느끼고 있어요."
- 단순히 장애를 막는 것을 넘어, 서비스가 가진 성능의 한계를 넓히는 일을 하고있어요.
- Java 애플리케이션의 Heap 메모리부터 커널까지, 문제의 원인이 있는 곳이라면 어디든 깊게 파고들어요. "왜 느려졌을까?", "어떻게 하면 더 효율적일까?"라는 질문을 끈질기게 던지며, 반복되는 운영 업무는 과감히 코드로 자동화해요.
- 복잡한 문제를 논리적으로 해결했을 때의 짜릿함, 그리고 내가 만든 테스트 플랫폼이 동료들의 시간을 아껴줄 때의 뿌듯함을 함께 느끼고 싶은 분을 기다려요!
Skills
ArgoCDAsync ProfilerEBPFELK StackGitHub ActionsGOGoCDGrafanaHarborHeapdumpIstioJavaJPA/HibernateK6KafkaKotlinKubernetesLinux KernelMongoDBMySQLNetwork+NginxOraclePrometheusPythonRedisShell ScriptSpring BootTcpdumpThanosWireshark
Explore related jobs
More jobs at Toss
Similar ArgoCD jobs
Jobs in Seoul
- Administrator, Office ManagementPSI CRO · Seoul, Seoul
Operations Associate_Hyundai Mokdong_현대백화점 목동점ALO · Seoul, Seoul
Sales Associate_Hyundai Mokdong_현대백화점목동점ALO · Seoul, Seoul- Sales Leader, GTM Sales - South Korea/North East AsiaCommvault · Seoul, South Korea
- [AI Research Div.] Research Engineer - Generative Agent for Game Worlds (2년 이상 / 인턴)krafton · Seoul
Operations Associate_ 롯데백화점 본점ALO · Seoul, Seoul