[SK캠프 9기] 2번째_무빙_250127~0203 (영화흥행 예측 시스템, 진짜 끝)

SKN_09_Project

[SK캠프 9기] 2번째_무빙_250127~0203 (영화흥행 예측 시스템, 진짜 끝)

YOOZI. 2025. 2. 4. 21:11

728x90

[프로젝트명] - Sprint 4 회고록

기간: 2025.01.27 - 2025.02.03

1. 이번 주 목표

영화 흥행 예측을 위한 분류 모델 개발 및 성능 비교
로지스틱 회귀와 XGBoost 모델의 성능 분석
최적의 예측 모델 선정 및 기대효과 도출

2. 진행 상황

1. 완료된 작업

가설 설정 및 모델 구현 - 4일
- 로지스틱 회귀와 XGBoost 기반 분류 모델 구현
- 하이퍼파라미터 튜닝 전후 성능 비교
최종 모델 선정 및 성능 개선
- LGBMClassfier가 최고 성능 달성
- 각 모델의 비교 및 성능 평가지표 시각화 도출

3. 이슈 및 해결 방안

의사결정 사항

LGBMClassifier 최종 모델 선정
- 논의 과정: 여러 모델 성능 비교 분석
- 선택 이유: 가장 높은 예측 정확도 달성
- 대안 검토: 다른 분류 모델과 성능 비교

4. 팀 협업 현황

1. 회의록

[2025.01.31]
- 참석자: 팀 전원
- 주요 논의사항: 각자 진행한 모델링 결과 공유
- 결정사항: LGBMClassifier 채택

5. 회고 (4L)

Liked (좋았던 점)

다양한 모델 비교를 통한 최적 모델 도출

Learned (배운 점)

하이퍼파라미터 튜닝보다 적합한 모델 선택이 중요함

Lacked (부족했던 점)

데이터셋 확장 필요성 인식

Longed for (바라는 점)

추가 데이터 확보를 통한 성능 개선

6. 주요 배운 점

기술적 측면: 다양한 분류 모델의 특성 이해
협업 측면: 모델 성능 비교 및 의사결정 과정
프로세스 측면: 체계적인 가설 설정과 검증의 중요성

7. 다음 프로젝트때는...

발표 시 청중과의 아이컨택 개선
인사이트 도출의 통일성 확보

설날 동안 각자의 과제를 수행했다.

나는 로지스틱회귀와 XGBoost 를 이용한 분류 작업을 이행했다.

먼저, 가설 설정을 했다.

가설 설정

성능 비교
- 로지스틱 회귀는 간단한 모델이지만, 영화 흥행과 같은 복잡한 패턴을 단순 선형 관계로 설명하기 어려울 수 있음.
- XGBoost는 비선형 특성을 잘 학습하는 모델이므로 더 높은 성능을 보일 가능성이 큼.
영향력 있는 피처
- 예산(budget)이 표준화된 후에도 중요한 영향을 미칠 가능성이 높음.
- 감독(directors), 배우(stars), 제작사(production_companies) 등도 영화의 흥행 여부에 영향을 미칠 수 있음.
최적 모델 선정
- 만약 XGBoost의 정확도가 더 높다면, 복잡한 의사결정 트리 기반의 모델이 영화 흥행 예측에 더 적합하다는 것을 의미.
- 로지스틱 회귀가 높은 성능을 보인다면, 영화의 흥행은 비교적 단순한 선형 관계로 설명 가능.

하이퍼파라미터 튜닝 전과 후를 나눠 비교해보자.

먼저, 튜닝 전의 결과로 보았을 때 아래와 같이 결론이 나왔다.

로지스틱 회귀
- 단순 선형 모델이므로 데이터의 복잡한 패턴을 잘 학습하지 못함.
- 비흥행(0)은 높은 정확도를 보이지만, 흥행(1)의 예측 성능이 거의 없음 (F1-score = 0.00 → 즉, 흥행 영화에 대한 예측이 전혀 안됨).
- 데이터 불균형 문제가 있으며, 특정 클래스를 과대 예측하는 경향이 있음.
XGBoost
- 비선형 관계를 잘 학습하면서도 높은 정확도를 유지.
- 흥행(1) F1-score가 0.59로 개선됨, 즉 흥행 영화도 어느 정도 예측 가능.
- 데이터 불균형에도 불구하고, 두 클래스를 더 균형 있게 예측.

각각 모델의 하이퍼파라미터를 튜닝한 후의 결과를 알아보자.

우리가 사용하는 데이터 셋과 로지스틱회귀와는 맞지 않았는 지 개선 후 정확도도 떨어지고 스코어도 잘 맞지 않았다.

예상외로 높은 정확도를 보여줄거라 생각했던 XGBoost는 좋은 점수를 보여주지 못했다.

주의 및 고려사항

약 79%의 정확도는 영화 흥행 예측에서 신뢰할 만한 수준.
하지만 여전히 21% 정도의 오차 가능성이 존재.
투자 결정시 보조 지표로 활용하는 것이 바람직.

📌 최종 결론

하이퍼파라미터 튜닝을 통해 전반적인 성능이 향상된 것을 확인.
약 79%의 정확도와 흥행/비흥행에 대한 균형잡힌 예측 능력으로 실전 활용 가능.
추가 데이터와 고도화를 통해 더 높은 성능으로 개선될 여지가 있음.

모두의 태스크를 모아 확인했다.

그렇게 LGBMClassifier가 가장 성능이 높았다. 아래와 같은 결론을 도출했다.

Expectations (기대 효과)

제작사 관점
- 영화 제작 관련 가이드 제공 및 흥행 가능성에 대한 근거 자료 제공
투자자
- 투자자들에게 성공률 높은 영화에 투자할 수 있도록 투자 전략 제공
리서치 업체
- 리서치 업체에서 개봉 예정 영화의 흥행 가능성에 대한 지표 제공

마무리

영화의 줄거리나 OTT 수익 같은 추가적인 정보를 수집하면 더욱 정밀하고 성능이 뛰어난 예측 모델 기대
하이퍼 파라미터 튜닝을 통한 성능 향상은 미미
튜닝 숙련도의 영향도 있겠지만 데이터 셋에 가장 적합한 모델을 선택하는 것이 더 중요

참고) 우리팀 깃허브

GitHub - Encore-SKN-9/ml_2team

Contribute to Encore-SKN-9/ml_2team development by creating an account on GitHub.

github.com

[피드백 - 250203]

EDA -> 인사이트 도출 통일성 필요
'이러한 분석을 했기때문에 이런 결론과 기대효과를 보여줄 수 있었습니다' 로 방향이 내려와야함.
팀 프로젝트이므로 따로 작업했다는 것을 강조하는 게 좋지 않음.
인공지능 모델을 이용하여 '기대효과' 에 대해 말해줘야함.
데이터셋 탓하지 않기 -> 적절한 데이터 셋 서치 능력이 없다고 판단할 수 있음.
발표 - 청중과 눈을 마주치며, 앞을 바라보며 애기해야함.

728x90

'SKN_09_Project' 카테고리의 다른 글

[SK캠프 9기] 3번째_근육빵빵_250207~250210(머신러닝 학습) (0)	2025.02.13
[SK캠프 9기] 3번째_근육빵빵_250203~250206 (프로젝트 설정 및 EDA 수립) (1)	2025.02.06
[SK캠프 9기] 2번째_무빙_250122~250124 (머신러닝까지) (0)	2025.01.27
[SK캠프 9기] 2번째_무빙_250118~21 (EDA 미니프젝 끝) (0)	2025.01.22
[SK캠프 9기] 2번째_무빙_250115~250117 (벌써, 미니프로젝트) (2)	2025.01.21

현재글[SK캠프 9기] 2번째_무빙_250127~0203 (영화흥행 예측 시스템, 진짜 끝)

YOOZI

브랜드 디자이너에서 개발자가 되기 위해 공부 중입니다. 비전공자의 시선으로 정보를 공유해요 :)

250x250

til, AI, 파이썬, 코드오류, Database, 코딩테스트, 회고일지, 백준, 머신러닝, LLM, 데이터분석, 알고리즘, 딥러닝, Python, 개발자노트, 자연어처리, IT, 인공지능, Baekjoon, backjoon,

Today :
Yesterday :

YOOZI