DACON 쇼핑몰 리뷰 평점 분류 - KoELECTRA와 RoBERTa 앙상블로 2위 달성

쇼핑몰 리뷰 평점 분류 AI 해커톤

쇼핑몰 리뷰 평점 분류 AI 해커톤

출처 : DACON - Data Science Competition

dacon.io

Introduction #

  • 쇼핑몰에서 상품을 고르는데 있어서 다른 사람들의 리뷰와 평점을 참고하게 되는데, 상품 리뷰 텍스트와 평점 사이에 어떤 관계가 있는지, 리뷰 텍스트만으로 평점을 예측가능한지에 대해 실험합니다.
  • 1점, 2점, 4점, 5점으로 분류된 평점 별로 워드 클라우드를 활용해 빈도수가 많은 단어를 시각화해보고, 다중 분류 작업을 수행하는 언어 모델을 학습시킨 결과를 비교할 계획으로 프로젝트 진행합니다.
  • 평점 별 불균형이 존재해 F1-Score로 평가하는 것이 이상적이라 판단하지만, 대회의 판단 기준에 맞게 Accuracy를 활용하고, 전체 테스트 데이터 중 50%에 대한 점수를 지표로 활용합니다.
  • Fine-tuning된 KoELECTRA 및 RoBERTa 모델에 대한 예측 결과를 hard-voting하여 accuracy 기준 0.7116 점으로 550팀 중 2위에 위치했습니다.
 Private 2nd | 0.7116 | KoELECTAR+RoBERTa | Hard-Voting

Private 2nd | 0.7116 | KoELECTAR+RoBERTa | Hard-Voting

알고리즘 | NLP | 분류 | 리뷰 | Accuracy

DACON 음성 분류 경진대회 - Mel Spectrogram과 MFCC 앙상블로 97% 정확도 달성

음성 분류 AI 해커톤

음성 분류 AI 해커톤

출처 : DACON - Data Science Competition

dacon.io

분석 목표 및 결과 #

  • 음성 녹음 데이터를 0부터 9 사이의 숫자 라벨로 분류합니다.
  • 음성 데이터 학습에 대한 체험을 목적으로 진행합니다.
  • Mel Spectrogram, MFCC 방식으로 추출한 feature를 각각 ResNet 응용 모델에 학습시키고
    결과를 ensemble하여 accuracy를 0.9725까지 향상했습니다.

학습 데이터 #

text
# train/
249.wav
sample rate: 20000 , audio shape: (11267,)
length: 0.56335 secs
==========================================
513.wav
sample rate: 20000 , audio shape: (12640,)
length: 0.632 secs
==========================================
507.wav
sample rate: 20000 , audio shape: (12845,)
length: 0.64225 secs
==========================================

EDA #

🦻🏻 Mel Spectrogram, MFCC 방식으로 추출한 feature를 이미지 형태로 시각화했습니다.