썸원레터

💭 데이터 분석 베이직

damdam5823 2025. 7. 27. 19:38

1. AI는 데이터를 갖고 패턴을 만들어 자동화하고 예측하는 도구인 만큼, 데이터가 없다면 AI도 성립할 수 없다.

2. 얼마나 잘 정돈된 데이터를 입력하는가에 따라 결과물도 천차만별로 나올 수밖에 없다. 한마디로, ‘가비지 인, 가비지 아웃(garbage in, garbage out·쓰레기를 넣으면 쓰레기가 나온다)’이다.

3. AI 모델링은 데이터를 확보하고 AI가 학습할 수 있도록 데이터를 정리하는 전처리 과정이 70%를 차지한다.

4. 가장 먼저 해야 할 일은 데이터의 전체적인 모습을 파악하는 것이다. 무엇에 관한 데이터인지, 이를 통해 어떤 사실을 알고 싶은지를 정리하는 게 첫 번째다. 데이터는 크게 ‘피처(feature)’와 ‘레이블(label)’로 구분된다.

5. 피처를 x, 레이블을 y라고 부르기도 한다. (다시 말해) 피처를 활용해 레이블을 예측하는 게 AI 모델의 최종적인 목표다.

6. 예측에 앞서 데이터를 분석하고 유용한 피처와 필요 없는 피처를 선별하는 과정을 ‘탐색적 데이터 분석(EDA: exploratory data analysis)’이라고 부른다.

7. 가령 공유 자전거 업체가 과거 기록을 기반으로 향후 자전거 수요량을 예측하려고 한다. 대여 날짜와 시간, 온도, 습도, 풍속 등은 피처, 대여 수량은 레이블이다.

8. 많은 데이터가 있어도 레이블과 관련이 없다면 예측 성능을 떨어뜨린다. 이 때문에 본인이 잘 아는 분야나 업무와 관련한 데이터로 AI에 입문하는 게 가장 좋다.

- 썸원레터 (2022-10-29) [원문 보러 가기](https://n.news.naver.com/mnews/article/015/0004767563?sid=105&fbclid=IwAR0RGSlVL2yaAZdlIkHh8uonHec9UROaZWmDeCtSxiIXWJS33wY6WbBBt4E)