머신러닝 라이프 사이클 (2)

기계 학습 개발 수명 주기의 다섯 단계 중 처음 두 단계인 계획 및 데이터 준비를 살펴보겠습니다.

계획

모델 개발의 모든 시작은 해결하려는 문제를 정의하여 상세한 계획으로 시작해야 합니다. 모델링은 자원 집약적인 프로세스이기 때문에 더 간단한 방법으로 해결할 수 있는 문제에 시간과 비용을 투자하는 것은 비효율적입니다.

첫 번째 첫 번째 단계는 해결하려는 문제를 명확하게 정의하는 것입니다. B. 낮은 고객 전환율 또는 높은 사기율. 다음 단계는 문제를 해결하여 달성하려는 것을 결정하는 것입니다. 가능한 목표는 예를 들어 고객 전환율을 개선하거나 사기를 줄이는 것일 수 있습니다. 마지막으로 성공을 결정하기 위한 지표를 설정합니다. 성공적인 것으로 간주되는 예측 정확도는 일반적으로 70%이며 이는 훌륭한 성과로 간주되지만 70%에서 90% 사이의 정확도가 이상적인 것으로 간주됩니다.

데이터 준비

두 번째 단계는 데이터 수집 및 처리에 중점을 둡니다. 많은 데이터를 다룰 가능성이 높으므로 모델 구축을 시작하려면 데이터가 정확하고 관련성이 있는지 확인해야 합니다. 데이터 준비 단계는 세 가지 주요 단계로 나뉩니다.

데이터 수집 및 라벨링

많은 양의 데이터를 수집하는 것은 비용과 시간이 많이 소요되므로 사용 가능한 데이터를 확보하는 것이 우선 순위가 되어야 합니다. 여러 소스에서 데이터를 찾은 경우 단일 스프레드시트로 결합하거나 설문 조사, 인터뷰 및 관찰과 같은 여러 채널에서 직접 데이터를 수집할 수도 있습니다.

데이터 라벨링은 이미지, 비디오 또는 텍스트와 같은 원시 데이터에 고유 식별자를 추가하는 것을 말합니다. 나중에 쉽게 식별할 수 있도록 데이터를 분류하고 특정 클래스로 분류하는 데 도움이 됩니다.

데이터 청소

데이터 세트가 클수록 데이터를 더 철저하게 정리해야 합니다. 모든 대규모 데이터 세트에는 일반적으로 누락된 값이나 관련 없는 정보가 여러 개 포함되어 있기 때문입니다. 모델을 구축하기 전에 이러한 요소를 제거하면 최종 모델의 정확도를 높이고 오류 및 편향 가능성을 줄이는 데 도움이 됩니다.

탐색적 데이터 분석(EDA)

모델 구축을 시작하기 전에 마지막으로 중요한 단계는 데이터를 검사하는 것입니다. 이 접근 방식에서는 일반적으로 시각적 보조 도구를 사용하여 데이터를 분석하고 요약을 제공합니다. 데이터 탐색은 일반적인 패턴에 대한 통찰력을 제공하고 데이터 과학자가 데이터 세트를 모델링하기 전에 더 잘 이해할 수 있도록 도와줍니다.