문제 발생
▪ "could not close temporary statistics file "pg_stat_tmp/global.tmp": No space left on device"라는 메시지와 함께 Airflow 서비스가 올라가지 않는 문제가 발생했습니다.
▪ 아마 Airflow를 운영하면서 데이터가 쌓여 충분한 용량이 없는 것으로 보여지기에, 어떤 항목이 용량을 많이 차지하고 있는지 확인했습니다.
logs 폴더 확인
▪ logs 폴더로 이동해서 용량을 확인해봤더니 scheduler가 2.3G로 상당 부분 차지하고 있음을 확인할 수 있었습니다.
▪ 용량 확보를 위해 불필요한 log는 지워주도록 합니다.
log 파일 지우기
# -type f : 일반 파일만 검색
# -mtime +10: 만든지 10일 이상 지난 파일만 검색
# -delete : 삭제
find /home/rsa-key-20231229/logs/ -type f -mtime +10 -delete
▪ 최근 10일 log만 남기고 삭제하는 명령어를 실행합니다.
▪ 해당 명령어로 log 파일 지우고, 확인해보면 용량이 크게 줄었음을 확인할 수 있었습니다.
결과
▪ Airflow 서비스를 다시 올려보면 정상적으로 가동되는 것을 확인했습니다.
▪ 일시적으로 조치를 취하기는 했지만, log가 지속적으로 쌓이면 또 다시 같은 문제가 발생할 것으로 보입니다.
▪ 따라서 log를 S3나 GCS 같은 스토리지에 저장하거나, log를 관리하는 Dag을 하나 만들어서 주기적으로 log를 지워줘야 될 것으로 보입니다.
참고:
'Data Engineering > Airflow' 카테고리의 다른 글
[Airflow] docker-compose.yaml 해석 (0) | 2024.08.28 |
---|---|
[Airflow] Trigger Rule 설정 (0) | 2024.03.12 |
[Airflow] BaseBranch Operator로 분기처리 (0) | 2024.02.21 |
[Airflow] @task.branch로 분기처리 (0) | 2024.02.21 |
[Airflow] BranchPython Operator로 분기처리 (0) | 2024.02.21 |