Kartrider-game-analysis

By TEAM 카트타고 출근

유저가 선호하는 트랙을 만들기 위해서는 어떤 특성을 고려해야하는지 분석하는 프로젝트

1️⃣ 프로젝트 소개

1. 문제 상황

크레이지레이싱 카트라이더는 2004년에 서비스를 시작한 레이싱 비디오게임으로 18년째 많은 유저들에게 사랑을 받고 있습니다. 그러나 오랜 시간 서비스를 하고 있는 만큼 장점과 동시에 단점도 가지고 있습니다. 그 중 하나는 최근 출시된 스피드전 트랙들이 많이 플레이되지 않고 있다는 것입니다.
실제로 2022.09.12 ~ 2022.10.10의 카트라이더 플레이 데이터를 살펴보니, 최근 5년간 출시된 스피드전 트랙 44개중 32개(72.7%)는 스피드 개인전 상위 50개 트랙에 이름을 올리지 못했음을 알 수 있었습니다.

2. 프로젝트 목적

위의 문제상황을 포착한 팀 ‘카트타고 출근’은 최근에 출시된 트랙들이 상위 트랙에 포함되지 못하는 문제점을 해결하고자 분석 프로젝트를 기획하였습니다.
해당 문제를 해결하기 위해 유저가 선호하는 트랙의 특징을 파악하려 합니다. 그리고 신규 트랙을 출시 할때 고민인 트랙 디자이너에게 어떤 것을 고려해야하는지 분석 결과를 통해 제안하고자합니다. 분석을 통해 파악한 상위 트랙의 특징을 신규 트랙에 적용한다면, 지속적으로 사랑받는 트랙을 제작할 수 있을 것입니다.

2️⃣ 가설 설정

유저가 선호하는 트랙에는 특징이 있을 것이다.
- 유저가 ‘트랙을 선호한다’ 를 트랙 사용 수가 많다로 정의
- 트랙 사용수 = 경기에서 유저가 트랙을 선택한 횟수

3️⃣ 사용 기술

4️⃣ 데이터

1. 사용한 데이터

2. ERD 테이블

*ERD와 관련하여 자세한 내용을 확인하고 싶으시면, ERD 위키 페이지를 참고해주세요.

ERD 구조
ERD 구조 설명

5️⃣ 디렉토리 설명

*디렉토리와 관련하여 자세한 내용을 확인하고 싶으시면, 디렉토리 위키 페이지를 참고해주세요.

├── api
│	├── api-data-collecting-functions.ipynb
│	├── api-data-calculated-metrics-extraction.sql
│	└── match-indicator-extraction.csv
├── data-analysis
│	├── data-analysis-regression-cnt_match.ipynb
│	├── data-analysis-regression-AVG_record.ipynb
│	└── data-analysis-regression-difficulty.ipynb
├── data
│	├── match.csv
│	├── match_type.csv
│	├── track.csv
│	├── track_curve.csv
│	├── track_obstacle.csv
│	├── track_road.csv
│	├── track_shortcut.csv
│	├── track_straight.csv
│	└── track_trigger.csv
├── raw-data
│	├── api-rawdata-singleplay.csv
│	├── scraping-rawdata-error-track.csv
│	└── scraping-rawdata.csv
├── scraping
│	├── scraping-data-collecting-functions.ipynb
│	├── scraping-text-preprocessing.ipynb
│	└── scraping.csv
├──survey
│	├── survey.csv
│	└── survey-wordcloud.ipynb
└── README.md

6️⃣ 분석 내용

1. 분석 정의

유저가 ‘트랙을 선호한다’를 ‘트랙 사용 수가 많다’로 정의하였습니다.
트랙 사용 수를 종속변수로 두고 어떠한 요소들이 영향을 주는지 알아보고자 합니다.

2. 독립변수 선정을 위한 설문조사 진행

*설문조사와 관련하여 자세한 내용을 확인하고 싶으시면, 설문조사 위키 페이지를 참고해주세요.

독립변수를 설정하기 위해 크레이지레이싱 카트라이더 유저를 대상으로 설문조사 진행했습니다.
설문조사는 10/19~10/25 동안 진행하였고, 총 120명의 응답을 확보하였습니다. 이를 통해 유저가 트랙을 선택할 때 중요하게 생각하는 요소를 파악해 워드클라우드로 표현했습니다.
위의 워드클라우드를 반영하여 분석에 필요한 독립변수를 아래와 같이 선정하였습니다.

3. 데이터 수집

선정한 독립변수와 관련하여 데이터를 수집하기 위해 api, scraping, 트랙 데이터 자체수집을 진행하였습니다.
각 데이터와 관련하여 자세한 내용을 확인하고 싶으시면, 아래 위키 페이지를 참고해주세요.
‘데이터간의 관계’ 관련 자세한 내용을 확인하고 싶으시면, 아래 위키 페이지를 참고해주세요.
- ERD 위키 페이지

4. 데이터 분석

1) 종속변수가 ‘트랙 사용 수’인 회귀분석 진행.

*종속변수가 트랙 사용 수인 회귀분석과 관련하여 자세한 내용을 확인하고 싶으시면, '트랙 사용 수' 분석 위키 페이지를 참고해주세요.

다음과 같은 분석 결과를 도출하였습니다.
특히 주목해야하는 점은 단일 회귀 분석으로 트랙 사용 수 를 21% 설명하는 평균 주행시간이 증가할수록 트랙 사용 수가 감소한다는 것입니다. 다시 말해, “평균 주행시간을 낮춰야 트랙을 많이 사용한다.” 는 것을 알 수 있습니다.

2) 종속변수가 ‘평균 주행시간’인 회귀분석 진행

*종속변수가 평균 주행 시간 인 회귀분석과 관련하여 자세한 내용을 확인하고 싶으시면, '평균 주행 시간' 분석 위키 페이지를 참고해주세요.

다음과 같은 분석 결과를 도출하였습니다.
특히 흥미로웠던 결과는 아래의 두가지 포인트입니다.
- ✅ 직선 구간 비율 이 높을수록 평균 주행 시간이 늘어납니다.
  즉, “평균 주행 시간을 줄이기 위해서는 직선 구간 비율을 줄여야 함”을 알 수 있습니다.
- ✅ 내리막길 비율이 높을수록 평균 주행 시간이 늘어납니다.
  따라서 평균 주행 시간을 줄이기 위해서는 내리막길 비율을 줄여야 합니다.

그러나 직선 구간 비율을 줄이고, 내리막길 비율을 줄여 평균 주행 시간만을 낮추면 유저들이 그 트랙을 많이 이용할까요? ⇒ 아닙니다.
트랙을 플레이하는 유저들의 레벨이 다르기 때문에, 각 레벨별 유저들에게 재미를 제공할 수 있도록 트랙의 난이도 또한 고려하여야 합니다. 그렇다면 난이도에는 어떤 변수들이 영향을 줄까요?

3) 종속변수가 ‘난이도’인 회귀분석 진행

*종속변수가 난이도 인 회귀분석과 관련하여 자세한 내용을 확인하고 싶으시면, '난이도' 분석 위키 페이지를 참고해주세요.

다음과 같은 분석 결과를 도출하였습니다.
트랙의 난이도 에는 펜스 없는 구간 유무 , 내리막길 개수 , 전체 직선 개수 , 트랙 이동 개수 , 감속 트리거 개수 , 점프 트리거 개수 , 헤어핀 구간 개수, 전체 곡선 구간 개수, 전체 장애물 개수 가 영향을 준다는 것을 알 수 있었습니다.

7️⃣ 분석 결과 및 활용 제안

1. 분석 결과 정리

분석 결과를 정리하자면 크게 다음과 같습니다.
- 트랙 사용 수 에는 난이도, 평균 주행시간, 테마 가 영향을 미친다.
- 평균 주행 시간 에는 내리막길 비율, 예각 커브 개수 , 헤어핀 구간 개수, 둔각 커브 개수, 직선 구간 비율, 펜스 구간 유무, 고정 장애물 개수 가 영향을 미친다.
- 난이도 에는 내리막길 개수, 전체 직선 개수, 전체 곡선 개수, 헤어핀 구간 개수, 총 장애물 개수, 펜스 구간 유무, 트랙 이동 개수, 감속 트리거, 점프 트리거 가 영향을 미친다.

2. 트랙 계산기와 트랙 제작

*‘트랙 계산기 개발’과 관련 자세한 내용을 확인하고 싶으시면, 트랙 계산기 개발 위키 페이지를 참고해주세요.
*‘트랙 제작’과 관련 자세한 내용을 확인하고 싶으시면, 트랙 제작 위키 페이지를 참고해주세요.

분석 결과를 활용하여 트랙 계산기를 개발하였습니다. 트랙 계산기 링크로 접속하면 트랙 계산기를 이용할 수 있습니다.
트랙 계산기 화면은 아래와 같이 구성되어 있습니다. 트랙 구성요소들을 계산기에 넣으면 평균 주행시간과 난이도를 알 수 있습니다.
트랙 계산기를 활용하여 ‘빌리지 테마’의 ‘난이도2’ 트랙을 제작하였습니다.
팀 ‘카트 타고 출근’이 제작한 트랙 ‘빌리지 해마의 여행’ 입니다.

8️⃣ 팀원 소개 및 컨택트 정보

*팀원에 관련하여 자세한 내용을 확인하고 싶으시면 팀원 소개 위키 페이지를 참고해주세요.

[Data 지표 추출] API_ 트랙 사용률 기반 '인기' 상위, 하위 트랙 기준 정하기

사용 데이터 : 9/12 ~ 10/9 동안 카트라이더 OPEN API 기반 수집 데이터에서 아래의 기준을 적용한 가공 데이터 (이하 KPI)

기준(SQL 검색 조건 혹은 우리가 사용하게 될 1달 데이터에 대한 설명) 링크

각 트랙의 28일 사용 건수를 계산하고, 해당 지표를 트랙 인기의 척도로 확인합니다.

- 트랙 사용 건수 정의 : cnt_match 사용, 28일간 각 트랙 당 플레이 된 매치 수

데이터 가공

(1) 결측치 제거

track 메타 데이터와 kpi 데이터를 track_id를 기준으로 join하여 만든 데이터
만약 null이 출력된다면 kpi 에는 존재하지만, track 메타 데이터에 track_id가 없는 값
최종 kpi 데이터에서 출력되는 null값은 없었음.

(2) 지표 정하기

cnt_match : 28일간 각 트랙 당 플레이 된 매치 수
cnt_user : 28일간 각 트랙을 플레이 한 유저 수
- 둘 중 어떤 지표로 '사용률'을 정의할 것인지 정의 필요
- 두 지표가 큰 상관성을 가지는지 파악 위해 상관분석 진행
- 두 지표는 0.81의 높은 상관성을 가지는 것으로 파악되어, 둘 중 어떤 지표를 사용하든 트랙 정렬에 있어 비슷한 추이를 보일 것이라고 판단.

(3) 이용하지 않을 데이터 삭제

하루에 한 번도 플레이 하지 않았다면, 사용이 거의 되지 않는 맵이라고 판단
28일 데이터 기준, 28회 이하로 플레이 된 맵은 삭제

(4) 상위, 하위 트랙 설정

28회 초과 플레이 된 트랙들을 줄 세워 상위 25%, 하위 25%에 속하는 트랙을 각각 상위, 하위 트랙으로 설정
Q3 이상 44건, Q1 미만 44건을 각각 상위, 하위 트랙으로 출력하였음.

karttrack-lap / kartrider-game-analysis Goto Github PK