SKN_09_Project

[SK캠프 9기] 2번째_무빙_250127~0203 (영화흥행 예측 시스템, 진짜 끝)

YOOZI. 2025. 2. 4. 21:11
728x90

[프로젝트명] - Sprint 4 회고록

기간: 2025.01.27 - 2025.02.03

 

1. 이번 주 목표

  • 영화 흥행 예측을 위한 분류 모델 개발 및 성능 비교
  • 로지스틱 회귀와 XGBoost 모델의 성능 분석
  • 최적의 예측 모델 선정 및 기대효과 도출

 

2. 진행 상황

1. 완료된 작업

  • 가설 설정 및 모델 구현 - 4일
    • 로지스틱 회귀와 XGBoost 기반 분류 모델 구현
    • 하이퍼파라미터 튜닝 전후 성능 비교
  • 최종 모델 선정 및 성능 개선
    • LGBMClassfier가 최고 성능 달성
    • 각 모델의 비교 및 성능 평가지표 시각화 도출

 

3. 이슈 및 해결 방안

의사결정 사항

  • LGBMClassifier 최종 모델 선정
    • 논의 과정: 여러 모델 성능 비교 분석
    • 선택 이유: 가장 높은 예측 정확도 달성
    • 대안 검토: 다른 분류 모델과 성능 비교

 

4. 팀 협업 현황

1. 회의록

  • [2025.01.31]
    • 참석자: 팀 전원
    • 주요 논의사항: 각자 진행한 모델링 결과 공유
    • 결정사항: LGBMClassifier 채택
  •  

 

5. 회고 (4L)

Liked (좋았던 점)

  • 다양한 모델 비교를 통한 최적 모델 도출

Learned (배운 점)

  • 하이퍼파라미터 튜닝보다 적합한 모델 선택이 중요함

Lacked (부족했던 점)

  • 데이터셋 확장 필요성 인식

Longed for (바라는 점)

  • 추가 데이터 확보를 통한 성능 개선

 

6. 주요 배운 점

  • 기술적 측면: 다양한 분류 모델의 특성 이해
  • 협업 측면: 모델 성능 비교 및 의사결정 과정
  • 프로세스 측면: 체계적인 가설 설정과 검증의 중요성

 

7. 다음 프로젝트때는...

  • 발표 시 청중과의 아이컨택 개선
  • 인사이트 도출의 통일성 확보

 

설날 동안 각자의 과제를 수행했다.

나는 로지스틱회귀와 XGBoost 를 이용한 분류 작업을 이행했다.

 

먼저, 가설 설정을 했다.

가설 설정

  1. 성능 비교
    • 로지스틱 회귀는 간단한 모델이지만, 영화 흥행과 같은 복잡한 패턴을 단순 선형 관계로 설명하기 어려울 수 있음.
    • XGBoost는 비선형 특성을 잘 학습하는 모델이므로 더 높은 성능을 보일 가능성이 큼.
  2. 영향력 있는 피처
    • 예산(budget)이 표준화된 후에도 중요한 영향을 미칠 가능성이 높음.
    • 감독(directors), 배우(stars), 제작사(production_companies) 등도 영화의 흥행 여부에 영향을 미칠 수 있음.
  3. 최적 모델 선정
    • 만약 XGBoost의 정확도가 더 높다면, 복잡한 의사결정 트리 기반의 모델이 영화 흥행 예측에 더 적합하다는 것을 의미.
    • 로지스틱 회귀가 높은 성능을 보인다면, 영화의 흥행은 비교적 단순한 선형 관계로 설명 가능.

 

 

하이퍼파라미터 튜닝 전과 후를 나눠 비교해보자.

먼저, 튜닝 전의 결과로 보았을 때 아래와 같이 결론이 나왔다.

 

  • 로지스틱 회귀
    • 단순 선형 모델이므로 데이터의 복잡한 패턴을 잘 학습하지 못함.
    • 비흥행(0)은 높은 정확도를 보이지만, 흥행(1)의 예측 성능이 거의 없음 (F1-score = 0.00 → 즉, 흥행 영화에 대한 예측이 전혀 안됨).
    • 데이터 불균형 문제가 있으며, 특정 클래스를 과대 예측하는 경향이 있음.
  • XGBoost
    • 비선형 관계를 잘 학습하면서도 높은 정확도를 유지.
    • 흥행(1) F1-score가 0.59로 개선됨, 즉 흥행 영화도 어느 정도 예측 가능.
    • 데이터 불균형에도 불구하고, 두 클래스를 더 균형 있게 예측.

 

 

각각 모델의 하이퍼파라미터를 튜닝한 후의 결과를 알아보자.

 

 

우리가 사용하는 데이터 셋과 로지스틱회귀와는 맞지 않았는 지 개선 후 정확도도 떨어지고 스코어도 잘 맞지 않았다.

예상외로 높은 정확도를 보여줄거라 생각했던 XGBoost는 좋은 점수를 보여주지 못했다. 

 

주의 및 고려사항
  • 약 79%의 정확도는 영화 흥행 예측에서 신뢰할 만한 수준.
  • 하지만 여전히 21% 정도의 오차 가능성이 존재.
  • 투자 결정시 보조 지표로 활용하는 것이 바람직.

📌 최종 결론

  • 하이퍼파라미터 튜닝을 통해 전반적인 성능이 향상된 것을 확인.
  • 약 79%의 정확도 흥행/비흥행에 대한 균형잡힌 예측 능력으로 실전 활용 가능.
  • 추가 데이터와 고도화를 통해 더 높은 성능으로 개선될 여지가 있음.

 

모두의 태스크를 모아 확인했다.

 

그렇게 LGBMClassifier가 가장 성능이 높았다. 아래와 같은 결론을 도출했다.

Expectations (기대 효과)
  • 제작사 관점
    • 영화 제작 관련 가이드 제공 및 흥행 가능성에 대한 근거 자료 제공
  • 투자자
    • 투자자들에게 성공률 높은 영화에 투자할 수 있도록 투자 전략 제공
  • 리서치 업체
    • 리서치 업체에서 개봉 예정 영화의 흥행 가능성에 대한 지표 제공
마무리
  • 영화의 줄거리나 OTT 수익 같은 추가적인 정보를 수집하면 더욱 정밀하고 성능이 뛰어난 예측 모델 기대
    하이퍼 파라미터 튜닝을 통한 성능 향상은 미미
  • 튜닝 숙련도의 영향도 있겠지만 데이터 셋에 가장 적합한 모델을 선택하는 것이 더 중요

 

참고) 우리팀 깃허브

 

GitHub - Encore-SKN-9/ml_2team

Contribute to Encore-SKN-9/ml_2team development by creating an account on GitHub.

github.com

 


[피드백 - 250203]

  1. EDA -> 인사이트 도출 통일성 필요
  2. '이러한 분석을 했기때문에 이런 결론과 기대효과를 보여줄 수 있었습니다' 로 방향이 내려와야함.
  3. 팀 프로젝트이므로 따로 작업했다는 것을 강조하는 게 좋지 않음.
  4. 인공지능 모델을 이용하여 '기대효과' 에 대해 말해줘야함.
  5. 데이터셋 탓하지 않기 -> 적절한 데이터 셋 서치 능력이 없다고 판단할 수 있음.
  6. 발표 - 청중과 눈을 마주치며, 앞을 바라보며 애기해야함.
728x90