팀장/팀원 | 팀장 : 김동민 팀원 : 권현진 박남석 이기철 이수형 |
---|---|
개요 | 본 프로젝트에서 우리는 온라인 기부 포털사이트 ‘해피빈’을 관찰한다. 기부 대상의 특정화와 그에 대한 스토리텔링을 기반으로 개설되는 각각의 모금함들을 개별 데이터로 수집하고, 달성률에 따라 분류한다. 분류된 데이터를 분석하여 성공과 실패에 영향을 미치는 요인을 추론하고, 모금함을 개설할 때 어떤 형식으로 추진하는 것이 개인의 기부를 더 촉진할 수 있을지 방향성을 제시한다. |
구현기능 | 1. 파이썬의 BeautifulSoup, Selenium, request 라이브러리를 이용한 해피빈 사이트 크롤링 진행 및 요인별 분류 진행 2. MongoDB 프로그램을 사용해 크롤링한 데이터 저장 3. Pandas 라이브러리를 통해 데이터 프레임화 및 데이터 전처리 진행 및 기부 달성 요인 항목 추출 4. 상관관계 분석(heatmap)을 이용해 달성률과 요인, 또는 요인 간 상관관계 파악 5. Matplotlib, Seaborn 라이브러리를 통해 달성률을 4개의 쿼터로 나누어 분류하고 시각화 진행 6. 데이터 프레임 요인중 제목과 기획컨텐츠을 추출해 방송 프로그램이 언급될 시 달성률이 높아지는지 분석 및 시각화 진행 - 해피빈 참여내역을 확인해 방송이 개인 기부 참여에 미치는 영향에 대해 분석 진행 7. NLTK Vader Sentiment Analysis 모델을 이용해 감성 점수를 구했으며, 제목과 본문의 긍정/부정/중립 중요도 점수를 통해 달성률 항목이 상관관계가 있는지 파악 8. 분류모델 (RandomForest, LGBM)을 사용해 분류기 성능 측정 및 피처 중요도 파악 9. 중요도 상위의 피처에 대한 분류 경계 시각화 |
설계의 주안점 | 1. 해피빈 프로젝트 상 노출되는 정보 중에 기부에 영향을 끼치는 항목 찾기 2. 항목을 데이터 정제, 전처리, 시각화 그래프를 통해 데이터 제공 3. 기부 달성률과 항목들과 상관관계 분석을 통한 연관성 분석 진행 4. 머신러닝 모델을 통해 분석 및 분류 경계 시각화 |