DatasetDict({
train: Dataset({
features: ['text', 'label'],
num_rows: 25000
})
test: Dataset({
features: ['text', 'label'],
num_rows: 25000
})
})
- 데이터에 대한 긍, 부정 여부가 label에 0과 1의 형태로 담겨 있음
BERT에서 사용한 MLM을 이용한 언어모델 Pretraining
DatasetDict({
train: Dataset({
features: ['text', 'label'],
num_rows: 150000
})
test: Dataset({
features: ['text', 'label'],
num_rows: 50000
})
})
- 데이터에 대한 긍, 부정 여부가 label에 0과 1의 형태로 담겨 있음
BERT에서 사용한 MLM을 이용한 언어모델 Pretraining
DatasetDict({
train: Dataset({
features: ['text', 'label'],
num_rows: 52443
})
valid: Dataset({
features: ['text', 'label'],
num_rows: 5828
})
})
- 예시에 대한 6가지 감정(불안, 분노, 상처, 슬픔, 당황, 기쁨)이 label에 0~5의 형태로 담겨 있음
distilbert 사전학습 모델인 monologg/distilkobert 사용