대용량 데이터 저장 및 파일 I/O 최적화

개요

항목	핵심 내용
저장 매체	HDD → SSD → NVMe (PCI‑e)
RAID	RAID 0(스트라이프), 1(미러), 5/6(패리티), 10(복합) – 용량·속도·신뢰성 균형
메모리	DDR4/DDR5, ECC 지원 여부, 2 TB RAM 한계
파일 포맷	CSV (텍스트, 느림) → Feather (바이너리, 빠름) → Parquet (컬럼형, 압축) → Arrow (인‑메모리, 언어 독립)
R 패키지	`data.table`, `readr`, `feather`, `arrow`, `parquet`, `feather`, `fst`
벤치마크	`microbenchmark`, `bench`, `benchmarks` 패키지, 파일 I/O 시간 측정
Lazy Loading	필요 시에만 메모리 로드 → 메모리 절약 & 속도 향상
Human‑Readable vs Binary	가독성(텍스트) vs 성능(바이너리) 선택 시 고려 요소
비용·전력	SSD/NVMe 가격 상승, 2000 TB 규모 시 2 TB RAM 한계, 전력 소비

Tip: 2000 TB 규모를 다루려면 RAID 10 + NVMe SSD 조합이 가장 실용적.

포맷	특징	R 패키지	사용 시나리오
CSV	텍스트, 가독성	`readr::read_csv`, `data.table::fread`	작은 데이터, 공유
Feather	바이너리, 2–3 배 빠름	`feather::read_feather`, `arrow::write_feather`	모델링 전 단계, 대용량
Parquet	컬럼형, 압축, 스키마	`arrow::write_parquet`, `parquet::read_parquet`	저장 용량 절약, 분석
Arrow	인‑메모리, 언어 독립	`arrow::read_table`, `arrow::write_table`	R ↔ Python ↔ Scala 간 데이터 교환

Benchmark: microbenchmark::microbenchmark로 각 포맷·패키지의 읽기/쓰기 시간을 측정하고, Feather가 가장 빠르고 Parquet가 가장 압축률이 높음.

데이터 생성: 1,000 × 2,000 랜덤 행렬
파일 저장: write.table, fwrite, write_feather, write_parquet
시간 측정: microbenchmark
결과
- write.table: ~3 초 (CSV)
- fwrite: ~0.5 초 (CSV)
- write_feather: ~0.1 초
- write_parquet: ~0.2 초

Insight: CSV는 가독성에, Feather는 속도에, Parquet은 압축에 최적.

Tip: 2 TB RAM 한계가 있는 경우 메모리 매핑(memory‑mapped) 파일 사용을 고려.

Tip: R에서 ggsave(..., dpi = 300, width = 8, height = 6) 사용.

핵심: 저장 장치(SSD/NVMe, RAID), 파일 포맷(CSV, Feather, Parquet, Arrow), 벤치마크(microbenchmark), 메모리 관리(Lazy Loading, ECC) 를 종합적으로 이해하고 적용해야 대용량 데이터 처리의 성능과 안정성을 확보할 수 있다.
실전: 실제 데이터(≈2 TB) 를 feather로 저장 → arrow로 읽기 → microbenchmark로 성능 측정 → 결과를 보고서에 포함.

결론: 파일 I/O 최적화는 단순히 “속도 빠르게”가 아니라 가용성·비용·가독성을 동시에 고려한 전략적 선택이 필요하다.