Giter Site home page Giter Site logo

data-science's Introduction

data-science

5월 프로잭트까지 화이팅합시다 ㅎㅎ

//--//프로잭트(x) -> 프로젝트(o)

data-science's People

Contributors

devryu avatar easy-hyun avatar joonhyeok-hozy-kim avatar nabbonge avatar

data-science's Issues

건설사 아파트 공급량 지도에 찍기 (still workin')

library("readxl")
library("dplyr")
library("tibble")
library("ggplot2")
library("stringr")

setwd("D:/R/BDS911")
db0000 <- read.csv("db0000.csv")
##View(db0000)
colnames(db0000)

db0001 <- db0000 %>% filter(area != "서울특별시") %>%
filter(area != "인천광역시") %>%
filter(area != "경기도")
##View(db0001)

library("kormaps2014")
library("ggplot2")
library("moonBook2")

top10 <- c("삼성물산","현대건설","대림산업",
"대우건설","GS건설","현대엔지니어링",
"포스코건설","롯데건설","SK건설",
"HDC현대산업개발")

top10_list <- list()
for(i in 1:10){
top10_list[[i]] <- db0001 %>% filter(newcol == top10[i])
}

areacode01 <- read_excel("areacode_sel.xls")
areacode02 <- read_excel("areacode_icn.xls")
areacode03 <- read_excel("areacode_gg.xls")
areacode00 <- rbind(areacode01,areacode02,areacode03)
colnames(areacode00) <- c("code","area")
areacode00$code <- as.double(areacode00$code)
##View(areacode00)

areacode10 <- areacode00 %>% filter(code%%100000==0) %>%
filter(code%%100000000!=0)
areacode11 <- areacode10 %>%
filter(word(areacode10$area,1)=="서울특별시" |
word(areacode10$area,1)=="인천광역시" )
areacode12 <- areacode10 %>%
filter(word(areacode10$area,1)=="경기도") %>%
filter(code%%1000000==0)

areacode20 <- rbind(areacode11,areacode12)
areacode20$area <- word(areacode20$area,2)
areacode20$code <- areacode20$code/100000
##View(areacode20)

for(i in 1:10){
top10_list[[i]] <- left_join(top10_list[[i]],areacode20,by="area")
}
View(top10_list[[3]])

library(ggplot2)
library(mapproj)
theme_set(theme_gray(base_family="NanumGothic"))

for(i in 1:10){
ggplot(top10_list[[i]],
aes(map_id=code,fill=sum)) +
geom_map(map=kormap2,colour="black",size=2) +
expand_limits(x=kormap2$long,y=kormap2$lat) +
scale_fill_gradientn(colours=c('white','orange','red')) +
ggtitle(paste(top10[i],"아파트 공급지도")) +
coord_map()
}

ggplot(top10_list[[1]],
aes(map_id=code,fill=sum)) +
geom_map(map=kormap2,color="black",size=0.2) +
expand_limits(x=kormap2$long,y=kormap2$lat) +
scale_fill_gradientn(colours=c('white','orange','red')) +
ggtitle(paste(top10[1],"아파트 공급지도")) +
coord_map()

ggChoropleth(top10_list[[1]],kormap2,fillvar="sum",
interactive = T)

하루에 1주제(지현)

주제 : 얼마나 살기 좋은지에 대한 점수 부여제도 서비스

필요 배경 : 현재 REPS에서는 단지 사진과 근처 지하철 역 같은 정보도 같이 포함이 되긴 하나
좀 더 구체적이고 다양한 정보가 포함되어 있으면 어떨까?

활용지표 : 교통 지수, 소음 및 방음 정도, 공기 청정도, 학군 및 학원,
에너지 사용량 및 관리비 등등

활용 데이터 : 표로 만들엇는데 표가 안 올라가서 csv 파일 읽듯이 읽어주세용....

활용데이터 | 데이터 설명 | 장점 | 단점
교통 문화지수 | 지자체 간 교통문화 수준을 비교하는지수 | 교통이 편리한 지역 / 불편한 지역구분 가능 | 시군구 별 지수만 존재하며동, 아파트 별 지수 존재 X최근 데이터 X → 최근 데이터 발견
공동주택관리비 | 전국의 의무관리대상 공동주택에 대해단지기본정보,관리비 부과내역,입찰공고 내역 제공 | 관리비 비싼 곳과 싼 곳 비교 가능 | 뚜렷한 엑셀파일존재 X
건물에너지 사용량 | 전국 번지단위의가스사용량에 대한정보 제공 | 에너지 사용량 비교 | 건축데이터개방회원가입 필요
CCTV 위치도 | 도로교통상황을실시간 분석하기위한 데이터 | 도로에 설치된CCTV만 말하는 듯 | 현재 데이터 접근 X
버스 정류소 정보버스 노선 정보지하철? | ? | 대중교통 접근성이좋은 지역 파악 | 서비스 키 발급필수

서비스 필요성 : 판매자나 공인중개사들의 말이 아닌 객관적인 지수로 집에 대한 설명 가능
그렇기에 구매자들에게 확실하고 유익한 정보가 될 것
동네 매물을 구매하는 경우가 아니라 타지역의 매물을 구매하는 경우
유용한 지표로 활용이 가능


주제 : 애견인??


금융권 - 돈이 될 만한? 집값 상승이 많이 될 법한? 투자 가치가 있는?
⇒ 각 기업의 분석과 REPS로 충분히 확인 가능할 듯
⇒ 걔네가 확인 못하는 무언가를 확인하면 참신하고 좋을 듯!

건설회사 - 잘 구성되어 있으며 분양 경쟁률이 치열한 지역?
⇒ 청약경쟁률 존재 ⇒ PASS

   인구 밀도가 심하게 빽빽한 지역?
   ⇒ REPS에 시군구 별 인구수는 있으나 동별 인구수 존재 X
   ⇒ REPS에 동 별 면적 데이터 X, but 외부 데이터 존재 O
   
   지역 주민들의 수입?(max, 75%, avg, 25%)
   ⇒ REPS에 데이터 X
   ⇒ 국세청 행정구역별 소득종류별 종합소득금액 신고 현황 통계자료, 그런데 못 찾겠다
      (http://www.biz-gis.com/index.php?mid=BigDataList&document_srl=179877)
   ⇒ 
   
   상가 혹은 건물 짓기 좋은 지역? (밑에 것이랑 연관)
   ⇒ 데이터 받았는데 컴퓨터 문제인가 계속 안 열림ㅠㅠ

학교 & 연구소 - 학교 건물, 연구소, 기숙사 설립을 위한 토지 보려고 쓰겟지?
싸고 넓은 토지가 필요(상권?)
⇒ 위와 동일

공공기관 - 현황파악?
⇒ 몰라

하루에 1주체 (hozy)

주제 : 건설사가 단지 조성하기 좋은 지역 찾아보기

ㄴTop 10 건설사의 수도권 아파트 공급량 비교 (구별 자료 REPS에 있음.)
ㄴTop 10 : "삼성물산","현대건설","대림산업", "대우건설","GS건설","현대엔지니어링",
"포스코건설","롯데건설","SK건설", "HDC현대산업개발"
ㄴ1990년부터 2019년까지 자료

ㄴ인구 증감을 보면, 서울은 점점 감소 중인 반면, 경기도와 인천은 늘고 있는 중

ㄴ지어진 아파트의 가격 추이를 추적하여, 결과적으로 거래가가 높게 유지되는 곳 찾기
ㄴ해당 지역의 거래가가 높게 유지되는 원인 유추해보기
ㄴ지하철역 개통
ㄴ일자리 수의 증가
ㄴ학군 조성

ㄴ이를 통해 얻을 수 있는 것 : 잘 나가는 아파트들의 입지에 패턴이 존재하나?

ㄴ활용 가능성 : 앞으로 건설사가 신축하게될 아파트는 주로 경기도, 인천임.
경기도, 인천 지역 중, 위에서 찾은 패턴에 부합하는 지역 찍어주기
미분양 사태 방지


<현재까지 한 작업>
1. (Top 10 건설사)의 (2019년까지의) (아파트 공급량)자료를 (서울, 경기도, 인천)으로 집계함.
2. 해당 데이터를 전처리 작업 중
<<<<<<<<<<<<< R Code >>>>>>>>>>>>>>>>>>>>
library("readxl")
library("dplyr")
library("tibble")
library("ggplot2")
library("stringr")

top10 <- c("삼성물산","현대건설","대림산업",
"대우건설","GS건설","현대엔지니어링",
"포스코건설","롯데건설","SK건설",
"HDC현대산업개발")
sel_list00 <- list()
gg_list00 <- list()
icn_list00 <- list()

for(i in 1:10){
sel_list00[[i]] <- read_excel("top10_sel.xlsx",sheet=i)
sel_list00[[i]] <- sel_list00[[i]][,-2]
colname00 <- colnames(sel_list00[[i]])
colname01 <- colname00[3:33]
colname02 <- substr(colname01,3,4)
colname03 <- paste("y",colname02,sep="")
colname04 <- c("area","sum",colname03)
colnames(sel_list00[[i]]) <- colname04
newcol <- vector()
num00 <- dim(sel_list00[[i]])[1]
for(j in 1:num00){
newcol <- c(newcol, top10[i])
}
sel_list00[[i]] <- cbind(sel_list00[[i]],newcol)
newcol <- NULL
num00 <- NULL
}

for(i in 1:10){
gg_list00[[i]] <- read_excel("top10_gg.xlsx",sheet=i)
gg_list00[[i]] <- gg_list00[[i]][,-2]
colname00 <- colnames(gg_list00[[i]])
colname01 <- colname00[3:33]
colname02 <- substr(colname01,3,4)
colname03 <- paste("y",colname02,sep="")
colname04 <- c("area","sum",colname03)
colnames(gg_list00[[i]]) <- colname04
newcol <- vector()
num00 <- dim(gg_list00[[i]])[1]
for(j in 1:num00){
newcol <- c(newcol, top10[i])
}
gg_list00[[i]] <- cbind(gg_list00[[i]],newcol)
newcol <- NULL
num00 <- NULL
}

for(i in 1:10){
icn_list00[[i]] <- read_excel("top10_icn.xlsx",sheet=i)
icn_list00[[i]] <- icn_list00[[i]][,-2]
colname00 <- colnames(icn_list00[[i]])
colname01 <- colname00[3:33]
colname02 <- substr(colname01,3,4)
colname03 <- paste("y",colname02,sep="")
colname04 <- c("area","sum",colname03)
colnames(icn_list00[[i]]) <- colname04
newcol <- vector()
num00 <- dim(icn_list00[[i]])[1]
for(j in 1:num00){
newcol <- c(newcol, top10[i])
}
icn_list00[[i]] <- cbind(icn_list00[[i]],newcol)
newcol <- NULL
num00 <- NULL
}

sel_df00 <- data.frame()
icn_df00 <- data.frame()
gg_df00 <- data.frame()

for(i in 1:10){
sel_df00 <- rbind(sel_df00,sel_list00[[i]])
icn_df00 <- rbind(icn_df00,icn_list00[[i]])
gg_df00 <- rbind(gg_df00,gg_list00[[i]])
}
<<<<<<<<<<<<<<<<<<<<>>>>>>>>>>>>>>>>>>>>>>>>

추후 할 일 : 데이터 전처리 마무리
학군, 일자리 증감, 지하철역 신설 등 자료 찾아보고 DB랑 엮어보기

2차 만남

3월 25일
서울특별시 중구 난계로 159 헤세드빌딩 8층 그린 스터디 독서실
가설 설정
개발 방법 설정
데이터 논의

BOO사업 플랫폼

• 플랫폼 개념 설계도
	○ 이용자
		1) 시설을 원하는 일반인
			□ 회원가입을 통해 (이름, 성별, 나이, 거주지, 연락처, 이메일) 정보 수집
		2) BOO 서비스를 원하는 기업
			□ 회원가입을 통해 기업 신원 확인 (사업자등록증, 재무상태)
		3) 시설에 대한 수요-공급 정보를 원하는 기관
			□ 정부, 지자체, 공기업, 연구기관 등
		
	○ 제공 서비스
		1) 일반인이 특정 지역에 설치를 원하는 시설 소요 제기
			□ 크라우드 펀딩 제도 <공유경제!>
				® 존재 이유
					1) 시설 도입 시 필요한 초기 자금의 개념으로 사용 가능
					2) 시설에 대한 일정정도의 권리를 지급하기 위한 주식의 개념
					3) 시설에 대한 권리를 제공함으로써, 사용자의 시설에 대한 주인의식 고취
					4) 어뷰징 차단
				® 작동 방식
					◊ 최초 소요제기자가 자금을 출자하고 시설에 대한 크라우드 펀딩 모집
					◊ 이에 동참을 원하는 이용자들이 자금을 출자하여 초기 자금 구성
					◊ 자금 형성의 추이를 "우리 플랫폼"이 지속적으로 트래킹
					◊ 해당 사업에 적합할 만한 기업고객에게 추천
				® 크라우드 펀딩에 참여할 유인
					◊ 크라우드 펀딩을 통해 해당 시설 이용에 대한 차별적 권리 부여
						} ex) 이용권 n매 정기적 지급
						} ex) 수익의 일부 배당으로 수취 가능
							– 공공시설에 대한 민간인의 투자 수단으로써도 작용 가능
							
							
		2) BOO 서비스를 원하는 기업
			□ 플랫폼이 크라우드 펀딩 시스템을 통해 선별한 시설 사업을 제공 받음
			□ 크라우드 펀딩을 통해 출자된 자금이 BOO 서비스를 위한 초기 자금으로 이용가능
			□ 해당 시설의 장기적 운영, 유지 및 보수를 통해 수익 창출
			□ 시설에 대한 수요가 "검증"된 사업에 참여 가능
			
			
		3) 공공기관 및 연구기관
			□ 정부 및 지자체
				® 정부 주도 시설 건립 사업을 위한 아이디어 획득의 원천
			□ 연구기관
				® 해당 지역 주민의 생활패턴, 시설 소요 등의 정보 획득 가능
				® 공유 경제 플랫폼의 사례 연구 대상

Updated code

library("readxl")
library("dplyr")
library("tibble")
library("ggplot2")
library("stringr")

##setwd("D:/R/BDS911")
db0000 <- read.csv("db0000.csv")
##View(db0000)
colnames(db0000)

db0001 <- db0000 %>% filter(area != "서울특별시") %>%
filter(area != "인천광역시") %>%
filter(area != "경기도")
##View(db0001)

library("kormaps2014")
library("ggplot2")
library("moonBook2")

top10 <- c("삼성물산","현대건설","대림산업",
"대우건설","GS건설","현대엔지니어링",
"포스코건설","롯데건설","SK건설",
"HDC현대산업개발")

top10_list <- list()
for(i in 1:10){
top10_list[[i]] <- db0001 %>% filter(newcol == top10[i])
}

areacode01 <- read_excel("areacode_sel.xls")
areacode02 <- read_excel("areacode_icn.xls")
areacode03 <- read_excel("areacode_gg.xls")
areacode00 <- rbind(areacode01,areacode02,areacode03)
colnames(areacode00) <- c("code","area")
areacode00$code <- as.double(areacode00$code)
##View(areacode00)

areacode10 <- areacode00 %>% filter(code%%100000==0) %>%
filter(code%%100000000!=0)
areacode11 <- areacode10 %>%
filter(word(areacode10$area,1)=="서울특별시" |
word(areacode10$area,1)=="인천광역시" )
areacode12 <- areacode10 %>%
filter(word(areacode10$area,1)=="경기도") %>%
filter(code%%1000000==0)

areacode20 <- rbind(areacode11,areacode12)
areacode20$area <- word(areacode20$area,2)
areacode20$code <- areacode20$code/100000
##View(areacode20)

for(i in 1:10){
top10_list[[i]] <- left_join(top10_list[[i]],areacode20,by="area")
}
View(top10_list[[3]])

library(ggplot2)
library(mapproj)
##theme_set(theme_gray(base_family="NanumGothic"))

maps00 <- list()
for(i in 1:10){
maps00[[i]] <- ggplot(top10_list[[i]], aes(map_id=code,fill=sum)) +
geom_map(map=kormap2,color="black",size=0.2) +
expand_limits(x=kormap2$long,y=kormap2$lat) +
scale_fill_gradientn(colours=c('white','orange','red')) +
ggtitle(paste(top10[i],"아파트 공급지도")) +
coord_map()
}

maps00[[1]]
maps00[[2]]
maps00[[3]]
maps00[[4]]
maps00[[5]]
maps00[[6]]
maps00[[7]]
maps00[[8]]
maps00[[9]]
maps00[[10]]

태양광

태양광
부문내 주제 택1 : 부문2.2

누구를 위한 서비스 인가 : 부동산업 종사자. 아파트 투자자 등.

주제
대체에너지 지향형 주거공간

과정
예를들어 태양에너지의 경우,
1/집의 방향 (남향, 남서향..)
2/집의 높이
3/집의 위치
4/사는 곳의 날씨
등등 태양에너지가 영향받는 요소들을 고려해서
그 집이 태양에너지를 씀으로서 몇 년 주거할 경우, 얼마의 경제적 이익이 있는지를 알려준다.

장점
그 집에 실제로 얼마나 햇빛이 잘드는지를 알수있다.
환경보호
태양에너지 사업 활성화
수익 창출

장점에 대한 근거)
1.실제로 사람들이 집에서 살고 난 후에야, 햇빛이 잘드는지 아닌지를 아는 경우가 많다. 사전에 이 문제를 해결해줄 수 있다. (남향이여도 주위 아파트가 크게 지어져 있는 경우는 빛이 안들수도 있고, 계절이나 시간대에 따라서도 다 다름.)
2.사람들이 태양에너지가 환경에 좋은 것은 알지만, 초기 설치비용이 비싸고 전기요금을 한달 단위로 내기때문에 전기요금으로 나가는 비용이 적다고 생각해서 태양에너지 쓰려고 안하는 경우도 많음 -> 실제로 본인이 태양에너지를 씀으로서 얼만큼의 이득을 볼 수 있는지 개인에 맞춰서 계산해준다면(과거 전기사용 내역을 받을 수 있다면 넣어서 개인 맞춤형 서비스 제공 가능. 없다면 평균치로 계산.) 태양에너지 쓸 확률 높아짐 -> 환경에도 좋고 태양열 산업 활성화 가능. 이때 태양열 회사들 추천해주면서 중간에서 광고비도 벌수있음.

단점
태양에너지 공부해야함.
빛이 아파트에 어떻게 들어오는지 어떤 영향을 받는지 등등을 계산할수있어야 한다.

<REPS의 신규서비스 제안 중, 부동산과 타 분야데이터의 융합 활용 방안>
ex) 최저가 서칭, 전세 보증금 대출, 청소업체 연결, 인테리어 업체 연결 서비스 등이 현재 부동산114에 등록되어 있다.
1.태양광 원리 (https://www.knrec.or.kr/energy/sunlight_summary.aspx)
2.태양광 전기세 한계(http://www.cnews.co.kr/m_home/view.jsp?idxno=201808091541553700332#cb)
: 서울시가 홍보하는 미니태양광의 월 전기 생산량은 24kw. 월평균 전기요금 절감 수준은 4000원 정도다. 누진세 폭탄을 피하기에는 발전량이 너무 적다.
3.해결 : 누진세 폭탄을 피하기에 적합한 태양광 설치(https://blog.naver.com/PostThumbnailView.nhn?blogId=kimdh0567&logNo=221188194644&categoryNo=15&parentCategoryNo=0)
4.결론 : 결국 누진세가 적용되는 우리나라 가구에게 태양광은 전기세 감면을 도와준다!
5.방법 : 내가 하려는 서비스의 태양광 원리에서 필요한 계산을 위한 계산은?
->일조권 계산 https://m.blog.naver.com/PostView.nhn?blogId=trseo79&logNo=220679049837&proxyReferer=https%3A%2F%2Fwww.google.com%2F
5.1) 아래의 페이지에 모든 건축물의 높이와 층갯수, 면적 등등이 나와있다.
건축데이터 개방(http://open.eais.go.kr/opnsvc/opnSvcInqireView.do?viewType=1#)
5.2) 위의 데이터와 좌표데이터를 연동시켜서 각 집에 들어오는 일조량을 계산할 수 있겠다!

하루에 1주제(DevRyu)

주제 : 다문화, 외국인에게 문화,정서를 고려한 데이터 분석과 REPS를 활용하여서 지표에 맞춤 주택을 웹 서비스화 하자

도입 배경
-현재 외국인,다문화가 한국에서 주택을 구매,임대시 특정 지역에 모국어를 서비스하는 부동산중개업자나 지인에 의존하여 매물을 구매함(서울경기권 한정)
-다문화, 외국인 근로자에 대해 지역사회, 시민단체에서 도움을 주는 서비스도 존재하나 오프라인으로 운영됨
-웹이나 앱으로 1차조사를 할 수 있는 글로벌서비스 제공할 수 있는 사이트가 부재
(http://acerealty.co.kr/ 가있으나 서울 특정 구만 서비스를 제시 매물의 부족)

서비스 도입시 기대 효과

[1] 부동산 매물 구매 경로의 변화
-전세계적으로 웹괘 앱으로 공유경제정보 서비스(여기서는 매물)사용에 젊은층이 많이 활용하고 있다.
-젊은층의 한국인들은 과거 부동산중개소,지인 추천-매물구매의 패턴보다 인터넷(사전조사)-부동산중개소- 매물구매
-외국인, 다문화 또한 또한 2번의 패턴활용이 크다.
-신규시장의 경우 선점효과가 크니 부동산 114는 우리가 분석한1,2,3결과와 추가자료를 바탕으로 서비스를 런칭해야 한다.

[2] 정서적 문화적 분석이 필요한 이유
-대한민국으로 유입되는 나라들은 대체로 1.동아시아권 2. 동남아시아권 3.미국권 4. 유럽권 등이 있음 하지만 이ㅇ들의 주거 공간의 개념과 문화는 다름 예) 신발,침대,높낮이, 아파트에 대한 인식

-이런것들은 외부데이터에와 REPS의 융합을 한다면 큰 시너지를 얻을수 있음

[3] 전국단위의 최초의 선점효과

[4] 점점 다문화 사회가 되어감에 따라 특정지역에 특정 문화가 편중되면 도시 미관을 해침 예) 대림,
(이 문장에서 숨은 의미는 거시적으로 도시계획을 하는 정부의 입장에서 다인종 분산배치, 균형발전, 외국인 기피해소에 도움이 됨, 정부 정책 방향성과 활용방향에 맞아ᄄᅠᆯ어짐)

[5] 현재 재대로된 외국인 다문화 인들 위한 서비스가 없음

데이터 활용 방향
공공데이터
1.외국인 체류 데이터 (https://www.data.go.kr/dataset/3075821/fileData.do)
-단기, 장기 체류 자격별, 비자별 구분
-총 체류외국인은 60만명으로 조사됨
2.다문화 실태 조사 (조금더 찾아보겟음)
-배우자의 유무에 따라 도움을 받을수 있는것이고 귀화냐 결혼비자를 통한 장기체류에 따라서
수요 예측이 어려움

3.18년 하반기법무부 유학생 데이터(https://www.data.go.kr/dataset/3069982/fileData.do)
-성별 생년, 국적 ,체류 자격, 대학교, 시도별, 구군별로 csv파일
-15만5천명정도가 전국적으로 거주 그중 절반이 서울 경기도

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.