42dot

Mobility AI

LLMEngineer(LLMEvaluation)

Pangyo, South Korea FULL TIME

Market Sentiment

HIGH DEMAND

Neural analysis suggests this role is
optimal for Mid candidates.

The Brief

“LLM Engineer (LLM Evaluation) at 42dot. Skills: LLM Evaluation, Benchmark Design, Evaluation Protocol, Automation Pipeline, Model Quality Improvement, Kubernetes, Argo Workflows, MLflow. LLM Evaluation & Benchmark Design. Construct benchmark datasets for LLM performance evaluation”

What You'll Achieve.

Improve model quality and stability; Ensure reliable evaluation of LLM performance; Build and operate an evaluation system and platform; Contribute to the continuous improvement of model quality and stability; Operate a service-level verification system

Industry & Context.

Mobility AI

What They're Looking For.

Must Have

LLM 학습 또는 평가 관련 분야 3년 이상 경력, Deep Learning 또는 NLP 관련 연구 및 개발 경험, LLM evaluation framework 사용 경험 (lm-eval, HELM, OpenAI Evals 등), Python 기반 서비스 개발 경험 (async/비동기 처리 포함), 실험 관리 및 reproducibility에 대한 이해, 모델 평가 및 validation workflow 설계 경험, 동료와의 원활한 협업 능력

Nice to Have

Kubernetes 및 컨테이너 기반 환경 개발 경험, 대규모 데이터 처리 또는 pipeline 설계 경험, GPU 기반 분산 inference 또는 대규모 모델 평가 경험, Datadog, Prometheus 등을 활용한 모니터링 구축 경험, MLflow, Argo Workflows 기반 ML workflow 운영 경험, GPU 클러스터 기반 evaluation pipeline 설계 및 운영 경험, LLM 품질 평가 자동화 및 운영 경험

What You'll Do.

LLM Evaluation & Benchmark Design

Construct benchmark datasets for LLM performance evaluation

Design evaluation metrics (Human/LLM-based)

Establish evaluation protocols for fair model comparison

Ensure reproducibility

Evaluation Automation & Workflow Integration

Build automated evaluation environment based on Argo Workflows and MLflow

Integrate with ML pipelines

Design automated detection and notification system for performance degradation upon model deployment

Model Quality Validation & Operation Enhancement

Verify large-scale model quality and stability through repeatable evaluation workflows

Operate continuous model quality improvement process based on evaluation results

How You'll Work.

Team & Collaboration

동료와의 원활한 협업 능력

Full Job Description

WE ARE LOOKING FOR THE BEST About Us 42dot은 소프트웨어와 AI로 모빌리티 문제를 해결하기 위해 노력하는 모빌리티 AI 기업입니다. 현대자동차그룹 글로벌 소프트웨어 센터로서, 42dot은 소프트웨어 정의 차량 개발을 선도하며 미래 모빌리티를 개척하고 있습니다. LLM Engineer (LLM Evaluation)는 대규모 언어 모델(LLM)의 성능을 신뢰성 있게 평가하고, 평가 결과를 기반으로 모델 품질을 지속적으로 개선할 수 있는 평가 체계와 플랫폼을 구축합니다. 빠르게 변화하는 LLM 환경 속에서 benchmark dataset, evaluation protocol, automation pipeline을 설계하여 모델의 품질과 안정성을 지속적으로 향상시키고, 실서비스 수준의 검증 체계를 운영하는 데 기여합니다. 또한 Kubernetes 기반 환경에서 Argo Workflows 및 MLflow를 활용하여 모델 평가–실험 관리–배포 검증까지 이어지는 end-to-end evaluation workflow를 구축하고, 반복 가능하고 재현성 있는 평가 환경을 고도화합니다. Responsibilities - LLM Evaluation & Benchmark 설계 - LLM 성능 평가를 위한 벤치마크 데이터셋 구축 및 평가 지표(Human/LLM-based) 설계 - 공정한 모델 비교를 위한 평가 프로토콜 수립 및 재현성(Reproducibility) 확보 - Evaluation Automation 및 Workflow 연동 - Argo Workflows, MLflow 기반의 평가 자동화 환경 구축 및 ML 파이프라인 통합 - 모델 배포 시 성능 저하(Regression) 자동 감지 및 알림 체계 설계 - Model Quality Validation 및 운영 고도화 - 반복 가능한 평가 워크플로우를 통한 대규모 모델 품질 및 안정성 검증 - 평가 결과를 바탕으로 한 지속적인 모델 품질 개선 프로세스 운영 Qualifications - LLM 학습 또는 평가 관련 분야 3년 이상 경력 - Deep Learning 또는 NLP 관련 연구 및 개발 경험 - LLM evaluation framework 사용 경험 (lm-eval, HELM, OpenAI Evals 등) - Python 기반 서비스 개발 경험 (async/비동기 처리 포함) - 실험 관리 및 reproducibility에 대한 이해 - 모델 평가 및 validation workflow 설계 경험 - 동료와의 원활한 협업 능력 Preferred Qualifications - Kubernetes 및 컨테이너 기반 환경 개발 경험 - 대규모 데이터 처리 또는 pipeline 설계 경험 - GPU 기반 분산 inference 또는 대규모 모델 평가 경험 - Datadog, Prometheus 등을 활용한 모니터링 구축 경험 - MLflow, Argo Workflows 기반 ML workflow 운영 경험 - GPU 클러스터 기반 evaluation pipeline 설계 및 운영 경험 - LLM 품질 평가 자동화 및 운영 경험 Interview Process - 서류전형 - 코딩테스트 - 화상면접 (1시간 내외) - 대면 혹은 화상면접 (3시간 내외) - 최종합격 - 전형절차는 직무별로 다르게 운영될 수 있으며, 일정 및 상황에 따라 변동될 수 있습니다. - 전형일정 및 결과는 지원서에 등록하신 이메일로 개별 안내드립니다. Additional Information - 이력서 제출 시 주민등록번호, 가족관계, 혼인 여부, 연봉, 사진, 신체조건, 출신 지역 등 채용절차법상 요구 금지된 정보는 제외 부탁드립니다. - 모든 제출 파일은 30MB 이하의 PDF 양식으로 업로드를 부탁드립니다. (이력서 업로드 중 문제가 발생한다면 지원하시고자 하는 포지션의 URL과 함께 이력서를 [email protected]으로 전송 부탁드립니다.) - 인터뷰 프로세스 종료 후 지원자의 동의하에 평판조회가 진행될 수 있습니다. - 국가보훈대상자 및 취업보호 대상자는 관

Free ATS check

Applying for this LLM Engineer (LLM Evaluation) role?

Most applicants get filtered before a human reads their resume. See if yours makes the cut.

Should you apply? AI reads your resume vs this job — match score, gaps to address, ATS keywords.

SKILL SIGNAL 43 detected · ranked by frequency

LLM Evaluation ×5

Model Quality Improvement ×5

Argo Workflows ×4

MLflow ×4

Kubernetes ×3

Benchmark Dataset Construction ×3

Evaluation Metrics Design (Human/LLM-based) ×3

Evaluation Protocol Establishment ×3

Reproducibility Assurance ×3

Evaluation Automation ×3

Workflow Integration ×3

ML Pipeline Integration ×3

Model Regression Detection ×3

Notification System Design ×3

Model Quality Validation ×3

Large-scale Model Quality and Stability Verification ×3

Service-level Verification System Operation ×3

End-to-end Evaluation Workflow Construction ×3

Repeatable and Reproducible Evaluation Environment Enhancement ×3

Large-scale Data Processing ×3

Pipeline Design ×3

Distributed Inference ×3

Large-scale Model Evaluation ×3

Monitoring System Construction ×3

ML Workflow Operation ×3

Evaluation Pipeline Design and Operation ×3

LLM Quality Evaluation Automation and Operation ×3

Benchmark Design ×2

Evaluation Protocol ×2

Automation Pipeline ×2

Datadog ×2

Prometheus ×2

BEHAVIOURAL

동료와의 원활한 협업 능력

Role Details

Experience 3–5 yrs

Level Mid

Type FULL TIME

Category ai

AI-Extracted Insights

Domain Areas

mobility-aisoftware-defined-vehicle-developmentllmdeep-learningnlp

How to Apply on Ashby

Ashby is a fast modern ATS — most applications take under 3 minutes.
The resume parser is strong; verify parsed experience dates and job titles.
Custom screening questions are often scored algorithmically — answer completely.
Location field affects geo-based screening; use your actual metro area.

ANONYMOUS · UNFILTERED

What do employees actually say about 42dot?

Real rants from real employees. Read before you apply.

Read Company Rants →