Giter Site home page Giter Site logo

structure-of-science's Introduction

Structure-of-Science

structure-of-science's People

Contributors

jisungyoon avatar

Stargazers

 avatar Jinhyuk Yun avatar

Watchers

 avatar Jinhyuk Yun avatar Woo-Sung Jung avatar

structure-of-science's Issues

Papers to read (2018/11-2018/12)

Memo

  • 나중에 reference등에 사용할 지도 모르고, 연구에 도움이 될 수 있는 paper들을 미리미리 정리해둡시다.
  • 월별로 이슈를 나누는 게 좋을 것 같습니다.

Personalized Page Rank Experiment

PPR을 미국 위키에서 돌려보고 있는 중입니다.
일단은 어떻게 구했는지, 그리고 지금의 느낌은 어떤지에 대해서 간략하게 정리 해보았습니다.

스크린샷 2019-03-12 오후 9 05 50

정의는 이 정의를 따라갔고 한번 쭉 계산하는 데에는 오래걸리지만, 3번 정도 계산이면 수렴하는 것을 확인하였습니다.
(행렬 계산처럼 한꺼번에 하는게 아니라 라인바이라인으로 계산을 하고 있어서, gpu를 한번 활용해볼까 생각중입니다.)

단계는 다음과 같습니다.
alpha와 threshold를 정하면

  1. 위의 정의 대로 계산하고, 정지 조건에 따라서 계산 종료
  2. 얻어진 계산결과에서 threshold 보다 작은 값들은 0으로 바꿈
  3. normalize (sum=1)

밑의 결과는 complex system에 대해서 구한 결과 중 값이 0.001 이상인 것을 선택해서 인쇄한 것입니다.
alpha = 0.2 threshold = 0.001
스크린샷 2019-03-12 오후 9 09 39

기존의 complex system이 엄청나게 많이 차지 하는 것을 볼수 있는데 일단은 이 노드를 제외하더라고 매우 로컬에서 노는 것을 볼수 있습니다.
그리고 normalize를 안하면 sum이 0.2340 정도로 매우 낮은 값을 가집니다. 이는 아마도 처음에 유니폼하게 시작했지만 acyclic directed graph의 특성상 sink로 많은 값들이 빠져 나가서 그런걸로 생각됩니다.

그래서 알게 된 점은

  1. citation network 에서는 p를 낮게하는 것이 좋을 것 같다. (그래야 랜덤워커가 시작노드에서 멀어질수 있음)
  2. normalize 할 때 기본 방식 대로 시작 노드를 빼고 정규화해야 한다.

정도 인 것 같습니다.

그래서 앞으로의 방향은 p를 낮게하면서 어떻게 결과가 바뀌는지 한번 알아볼려고 합니다.

Figure for IC2S2

초록에 쓸 피규어를 만들고 있습니다.
이 참에 그림을 더 이쁘게 다시 그리는걸로..

Country Language Decomposition

저번에 제안 주셨던 Decomposition 이 가지는 의미에 대해서 생각해보았는데, 다음과 같은 해석이 가능 할 것 같습니다.

A 나라에서 B나라로 가는 학생들이 있다고 할 경우, A가 가지고 있는 언어프로필, B가 가지는 언어프로필로 Decomposition을 하게 됩니다.

Origin에 대한 Decomposition은 사람에 대한 Decomposition이고, Dest에 대한 Decomposition은 학교에 대한 Decomposition이 될 것 같습니다. (나라의 언어 프로필만큼 학교도 Decomposition된다고 생각하면 될 것 같습니다.)

나름 말이 되는 것 같네요:)
어떻게 설명할지는 조금 더 다듬어야 하겠지만요

Export data 처리 관련

UN_export Data 크롤링과 파싱이 완료되었습니다.
다만 service의 경우는 데이터가 의심되는 면이 많아서 쓰는게 좋을지 의문이군요

중간 결과

우선은 간단하게 그룹(지역, 어족) 별로 나누어보았습니다.
그리고 한 그룹을 타겟 그룹이라고 했을 때
그룹 안의 거리들 (inter_group) 과 그룹 밖의 언어와의 거리(cross_group) 에 차이가 있는 간단히 봐 보았습니다.

Network 구축 결과

네트워크 구축결과 공유합니다.
우선은 과학, 기술 노드가 없어서 네트워크를 못만드는 위키가 있습니다.
Macedonian (Македонски), Cebuano (Sinugboanong Binisaya),Luxembourgish (Lëtzebuergesch), Volapük (Volapük)

4 개의 위키가 기술 노드가 없고, 마지막 위키는 과학 노드도 없습니다.

그리고 위키가 다 있더라도 네트워크가 이상하게 구축된 경우
(이 경우에는 링크된 과학, 기술 노드가 이상하거나, 원래 네트워크가 이상하게 구축되어 있거나 하는 경우입니다.)

Telugu (తెలుగు), Albanian (Shqip)

따라서 71개 의 위키만 네트워크가 만들어진 상황입니다.

IC2S2 review

----------------------- REVIEW 1 ---------------------
PAPER: 154
TITLE: The interrelationship of knowledge structure across language groups in communal data set
AUTHORS: Jisung Yoon, Jinhyuk Yun and Woo-Sung Jung

Fit with the conference: 1 (good)
Technical and/or theoretical quality: -1 (low)
Novelty and potential for impact: 0 (moderate)
Overall evaluation: -1 (weak reject)

----------- Overall evaluation -----------
The work offers a study of overlap between wikipedia language editions. The specific algorithm for the work utilizes a "random walker" but the details aren't entirely clear. This may represent an interesting way of understanding knowledge overlap, but I do have some concerns with the work.

  1. There is some (not a lot) of related work on contrasting wikipedia language editions. Probably the most prominent is the work by Hecht. The results are spread through a number of papers, but if I recall, most are captured in his dissertation (http://www.brenthecht.com/publications/bhecht_thesis_final.pdf). Here, he contrasts 20-something language editions (pairwise, similarly to Figure 1) using a specific idea of sub-concept mappings. It may be that the offered study offers new (or even overlapping) results, but I would like to understand this in more detail. More recent work (see He et al.) at ICWSM also looks at overlap between language editions based on images.

  2. The work seems to entangle wikipedia language editions with culture. I'm not entirely certain how to map these. Language editions do not necessarily connect to countries or specific populations so I'm not sure I buy that they reflect culture. There are a lot of other aspects to wikiwork on what articles are created/translated which don't necessarily reflect any specific culture (other than that of the wikipedia editors). This nuance is important.

In all, I think the topic is very interesting but without the detail of the algorithm it is hard to assess the contribution relative to existing work.

----------------------- REVIEW 2 ---------------------
PAPER: 154
TITLE: The interrelationship of knowledge structure across language groups in communal data set
AUTHORS: Jisung Yoon, Jinhyuk Yun and Woo-Sung Jung

Fit with the conference: 1 (good)
Technical and/or theoretical quality: -1 (low)
Novelty and potential for impact: -1 (low)
Overall evaluation: -1 (weak reject)

----------- Overall evaluation -----------
The paper studies different wikipedia language editions. The authors state that the differences in knowledge structure are not well studied. However, there exists a body of literature on that topic, e.g. Bao et al:Omnipedia: bridging the wikipedia language gap. Additionally, the authors say that they introduce a new way to calculate cognitive similarities between the same concept based on different languages using random walks. It is not clear what the novelity is since the method is not explained and the usage of random walks itself does not qualify as a novelty.

해당 논문을 읽은 뒤 정리 할 이슈입니다.

새로운 언어 추가

이번 결과에 쓰인 데이터는 9월 기준 page view 기준 상위 20개의 나라 데이터 입니다.
이전 이슈한 내용을 반영하자면

  1. 아시아 언어를 더 넣자.
  2. 인공어 (Simple English, 에스페란토나, 이도)

https://stats.wikimedia.org/EN/TablesPageViewsMonthlyCombined.htm
여기에 가보면, 월별 통계 자료를 볼 수 있습니다.
15위까지는 거의 고정적이지만 그 밑에 있는 위키의 경우에는 변동이 심함을 확인할 수 있습니다.
따라서 선정 방법을 2017년 10월 부터 2018년 9월까지의 평균 값을 내서, 그 데이터의 평균으로 랭킹을 다시 산출하는 걸로 바꾸는게 어떤가 합니다.

따라서 새로운 언어목록을 정하는 방법에는 크게 2가지 방법이 있을 것 같습니다.

  1. 새로운 평균 view의 랭킹을 정한 뒤 몇 위까지 볼 껀지는 지도에 위치를 뿌려봐서 결정한다.
  2. 어족이나, 위치들을 미리 고려해서 통계자료를 보지 않고 임의로 정한다.

어느 방법이 좋을까요?

Server relocation

연구소 내에 제가 몇년-_-간 염원하던 작은 장비실을 드디어 만들었습니다.
그래서 세들어 살던 기존 방에서 서버를 옮겨야 합니다. 예상 시간은 (아마도) 하루 안에 끝날 예정이며, 윤지성선생님과 시차가 있으니 아마 주무실 때 하게 되겠네요.

혹시 장기 계산을 돌리고 계신지요. 어느정도 시간 여유는 있으니 약간 뒤에 옮겨도 됩니다.

@balla2081

유사도와 language links 개수와의 상관관계

오늘 생각하던 중에 유사도와 language links 갯수가 상관관계를 가지고 있을 것 같아서 한 번 측정해 보았습니다.

2019-02-14 11 22 41

x 축은 유사도이며 y축은 비교한 set 숫자(이 양은 language links에 비례합니다) 입니다.
어느정도 우상향하는 경향을 볼 수 있습니다.
어족과 관련된 결과가 나온 것이 이 영향인지가 의심되서 일단은 공유합니다.
살짝 size-effect가 있는 것 같기두 하구요

대상 위키 선정문제

10월 기준으로 다시 wiki stats을 본결과 순위의 변동이 있네요.

Code Language Primary+Sec spearker Editors per million speaker 5+ edit user 100+ edit user view per hour Contents 있는지 없는지
en English 1121 M 26 29441 3453 4851904 5745090 O
de German 132 M 41 5360 861 675944 2234227 O
ru Russian 264 M 11 3003 524 645367 1506465 O
es Spanish 513 M 8 4126 555 574411 1485176 O
ja Japanese 128 M 36 4561 405 559966 1126706 O
fr French 285 M 16 4674 780 505608 2052710 O
zh Chinese 1107 M 2 2690 379 290547 1029228 O
it Italian 68 M 35 2355 403 247648 1472806 O
pl Polish 43 M 28 1195 238 191416 1305790 O
pt Portuguese 236 M 6 1448 193 177689 1009043 O
nl Dutch 28 M 42 1187 210 98735 1946571 O
cs Czech 12 M 45 535 89 59766 415473 O
ar Arabic 422 M 2 801 123 57727 622228 O
sv Swedish 10 M 63 634 104 53300 3763529 O
ko Korean 77 M 9 678 119 49016 431437 O
id Indonesian 199 M 3 528 55 42882 443820  
uk Ukrainian 45 M 18 825 164 39455 849727  
fa Persian 110 M 9 1018 111 39269 645683 O
hu Hungarian 15 M 33 490 121 34622 439032 O
fi Finnish 6 M 76 458 79 34528 446552 O

히브리아, 타이어가 빠지고, 인도네시아와 우르라이너어가 추가 됬네요, view per hour 기준입니다.
어떻게 하는게 좋을까요?

RCA 기반 분석.

기존의 z-score 기반 방식의 문제점(정규화의 문제)을 찾아서 새로운 방법으로 분석을 진행해보았습니다.
양측으로 정규화가 필요하다고 생각되어 RCA를 한번 시도해보았는데 생각보다 결과가 괜찮네요..
어떻게 해석할 건지가 문제긴 하지만 방법은 다음과 같습니다.

  1. similarity = 1 - distance로 국가별 유사도를 계산한다.
  2. RCA 값을 구한다.
  3. RCA 값에 문턱값을 적용해서 네트워크를 구축한다.

science subnetwork vs technology subnetwork

영어 위키 관련 데이터 뜯어본 결과 공유합니다.
예상과는 달리 결론은 depth 차이는 아닌 듯 합니다..
물론 지금 뜯어본 데이터 같은 경우는 최신의 데이터 (2월 기준) 이긴 하지만...

우선 거의모든 문서가 과학에서도 접근 가능하고 기술에서도 접근 가능합니다. (아닌 문서는 2개 정도입니다 - 'Real-time_game', 'Real-time_technology')

compare_fig
이 피규어는 서브네트워크에서의 depth를 heat map으로 찍어본 결과입니다.

그리고 밑의 피규어는 과학 depth - 기술 depth 의 hist이며
평균은 -0.5 정도입니다.
이말은 기술의 depth가 더 깊다는 소리입니다.

countplot

language link check

우선 새로추가한 위키 + 한국어 위키 대상으로 langlinks 갯수의 heatmap 을 그려보았습니다.

스크린샷 2019-03-18 오후 7 36 21

재밌네요 zh_yue, be_x_old 두 위키의 경우 나가는 랭기지링크는 있어도 들어오는 위키가 없네요... 데이터가 임포팅이 안된 건 아닙니다. 그러면 반대의 상황이 됬었어야.. 생각보다 lang_links는 서로 잘 연결 되어 있는 것 같습니다. (신기하게도... 누가 이런 걸 다 이어 놓는지) 우선 저 두 위키는 버리는게 맞을까요?

이제 어느정도 처리한다음 널모델(random bipartite network) 에 비해 얼마나 연결이 있는지 체크 해보겠습니다.

Result For Abstract

일단 abstract를 쓰기 위한 중간 결과를 공유합니다.
금일 오후 2시에 미팅으로 관련된 내용들을 정리하였습니다.

  1. 매칭갯수가 1인 것도 평균 낼 떄 포함
  2. 베타는 1로 고정, 방법론을 이야기할 때에는 포함

cluster_map 1

Similarity Matrix를 보았을 떄 크게 5개의 클러스터가 관측되었습니다.

  1. 영어, 중국어, 스페인어, 한국어, 이탈리아가 포함된 클러스터 (이탈리아는 좀 애매하긴 합니다)
  2. 대부분의 유럽 권들이 포함되어 있는 클러스터
  3. 프랑스와 히브리어 (연결강도가 약합니다)
  4. 아랍어와 페르시아어
  5. 타이어
    asdfasdfasdf

그 기반으로 distance matrix ( 1 - similiart matrix) Minimum spanning tree를 그린 결과(similiarty의 Maximum spanning tree)이며 클러스터링 결과와 그렇게 다르지 않습니다.
좀 더 정보를 제공하기 위해, A-B라는 링크가 있을 때 A에서의 링크의 중요도 vs B에서의 링크 중요도를 비교해서 상대적으로 더 중요한 쪽에서 아닌 쪽으로 방향성을 주었습니다.
링크 중요도는 Similiarty의 크기로 rank를 매겨서 사용하였습니다. (만약 같다면 두 방향 모두)

mds

이 그림은 distance matrix ( 1 - similiart matrix)를 이차원에 투영시키는 방법론인 MSD(https://en.wikipedia.org/wiki/Multidimensional_scaling) 을 이용해 본 결과이며 이 결과도 그렇게 다르지 않습니다.

중간결과이기 때문에 클러스터의 대략적 의미와 내용을 정리해 초록을 작성중이며, 이후에는 여러가지 factor들을 넣어서 regression을 돌려보려고 합니다.

혹시 figure에 대한 코멘트가 있으시면 달아주시면 감사하겠습니다.

pruning 과정에 대한 고민

Pruning 과정에 대해서 고민을 공유합니다.
예제를 좀 찾기 위해 네트워크를 navigation 하던 중 complex system 예제를 찾아보았습니다.

5485772 Complex_system
1197580 Cybernetics
3989590 Technology_by_type
1707002 Technology
6050252 Science_and_technology_en

다음과 같은 유니크한 shortest_path를 확인할 수 있는데, 원래 complex system이란 문서가 refer 하고 있는 분류들은

Complex dynamics
Complex systems theory
Cybernetics
Emergence
Systems
Systems science
Mathematical modeling

다음과 같습니다. shortest_path 정보를 활용한다는 점에서 지나치게 많은 량의 정보가 생략되는 것 같아서 고민을 하고 있습니다.

모든 path들을 고려하면 좋겠지만, 지금의 계산도 매우 복잡한 상황이라 ㅜㅜ
딱히 떠오르는 해결안은 없지만, 계속 고민해야할(공격이 들어올 가능성이 높은) 이슈라 공유합니다.

Calculating distance measure

PPR은 성공적으로 계산이 되어서, distance measure 를 계산하는 페이즈로 넘어왔습니다.
문제는 생각보다 이것도 시간이 많이 걸린다는 문제가 있네요. PPR이 많은 노드들을 커버해서 생기는 문제로 생각됩니다.
생각보다 빨리 될 것 같지는 않군요 ㅜ

Data Cleaning Issue

영어 위키 중에 우선은 Wikipedia_ 로 시작하는 노드들을 다 지워보았습니다.
총 30067개의 문서가 삭제되었으며, 이 노드들이 지워짐으로 인해서 컴포넌트가 갈리게 됩니다.

즉 원래 노드의 갯수 10,682,409
삭제 한 후 : 10,652,342
가장 큰 컴포넌트의 갯수: 10,579,737 (두 번째로 큰 컴포넌트는 147)

즉 거의 102,672개의 노드가 날라감을 알 수 있습니다.

일단 가장 큰 컴포넌트로 네트워크를 지정하고 한국에 연결된 아이들을 지워보도록 하겠습니다.

Supplementary data set collection

  • Wikipedia 내에서 20개 언어(국가)의 과학기술 구조 차이를 본 이후, 이를 풀어가기 위해 다른 류의 국가별 상관관계와 매칭을 해 보는 것이 좋을 것 같습니다.

  • 이를 위해 현재 가지고 있는 데이터에 대해 공유하고, 사용 가능성에 대해 논의했으면 싶습니다.

Check Italian wiki path and analyze wiki data

이탈리아 위키 path 관련 요청입니다. 간단하게 몇개만 뽑아보았습니다.


Ingegneria_industriale <- Industria <- Tecnologia <- Science_and_technology_it

Fisica <- Scienze_naturali <- Scienze_matematiche,_fisiche_e_naturali <- Scienza <- Science_and_technology_it


Sistema_complesso <- Controllare_-scienza <- Lavoro_sporco-_scienza <- Scienza <- Science_and_technology_it

Sistema_complesso <- Epistemologia <- Storia_della_scienza <- Scienza <- Science_and_technology_it


Biologia <- Scienze_naturali <- Scienze_matematiche,_fisiche_e_naturali <- Scienza <- Science_and_technology_it

Check 'scientific discipline' issue

  1. S&T가 있는 위키의 경우는 S&T를 root node로 두고 네트워크를 구축
  2. S&T가 없는 위키의 경우는 Science와 Technology를 묶는 가상의 root node를 만든 후 네트워크 구축

Final result_ver 2

평균을 구할 때 매칭 수가 1개인 노드를 뺏었는데, 그걸 넣은 결과입니다.
값의 차이(min, max)가 커서 이 버전의 결과가 괜찬으면 이걸로 진행해도 될 것 같습니다.

새로운 데이터 dump 문제 관련

새로운 언어 셋을 정했고, 대상 언어를 받는 중에 문제가 생겼습니다.
이전의 데이터 (20개국) 의 경우는 2018-08-01 기준 이였고,
현재 받을 수 있는 가장 최근의 데이터는 2018-09-20이라 데이터의 싱크 문제가 발생하였습니다.
어떻게 처리하면 좋을까요?

네트워크 구축 방식 관련 이슈

  1. 과학에 해당하는 노드를 찾는다. (과학이 refer하고 있는 링크는 모두다 삭제)
  2. 기술에 해당하는 노드를 찾는다. (기술이 refer하고 있는 링크는 모두다 삭제)
  3. 그 두 노드를 묶는 가상의 root 노드를 만든다.
  4. root node를 root 로 두는 subnetwork를 구축한다

지금은 이렇게 네트워크를 구축하고 있습니다.
저기서 sub-root node인 과학, 기술에 연결되어 있는 링크들을 어떻게 처리하는지에 대해서 지난 회의 때 논의하였고, 크게는

  1. 연결된 링크만 제거한다.
  2. 연결된 노드를 네트워크에서 제거 한다.

이렇게 두 가지 방법이 논의 되었습니다.
어떤 방향이 좋을까요? 각 위키별 어떤 노들이 연결되어 있는지는 공유드리겠습니다!

영어 포함 결과

우선은 기존의 분석을 하기전에 새로운 시도를 해보았습니다. 평균으로 방향성을 없애지 말고 방향성을 이용하는 방법입니다.

A라는 언어와 다른 언어의 거리를 재면 보통 정규 분표에 가까운 값을 가집니다. 따라서 Z_SCORE을 잴 수 있습니다.
[d_a1, d_a2 .... d_an] => [z_a1, z_a2,... z_an]
따라서 이 Z_SCORE로 A 언어와 상대적으로 유사한 언어를 찾을 수 있게 됩니다.
모든 언어에 대해서 계산한 뒤, threshold를 잡아서 자르면 네트워크를 만들 수 있게 됩니다.

Path 확인 대상 set 정하기

나라별 위키 네트워크를 만든 후 Path를 확인할 셋을 정하려고 합니다.
자유롭게 올려주시면 감사하겠습니다.

언어 - 국가 매칭문제

Links that speak를 자세히 읽어본 결과, 이 논문에서는 언어 - 국가 매칭을 직접 하지 않았더군요.
대신 언어별 스피커의 숫자 데이터를 이용해서 가중평균으로 직접적으로 언어의 GDP를 계산했습니다.
이 논문도 이전의 논문의 방법을 따라가서 이용했더군요.

이 방법이 뭔가 좀 더 맞는 것 같은데, 어떻게 생각하시는지요?

Progress check

각 언어별 Progress check를 위한 이슈입니다.

Nation code prerocess pruning impact value genetic code
English en
  • German de
  • Russian ru
  • Spanish es
  • Japanese ja
  • Chinese zh
  • French fr
  • Italian it
  • Portuguese pt
  • Polish pl
  • Dutch nl
  • Arabic ar
  • Korean ko
  • Czech cs
  • Swedish sv
  • Persian fa
  • Hebrew he
  • Hungarian hu
  • Thai th
  • Finnish fi
  • 일본 위키 관련 요청

    일본의 '기술' 문서를 보면
    テクノロジー
    https://ja.wikipedia.org/wiki/%E3%83%86%E3%82%AF%E3%83%8E%E3%83%AD%E3%82%B8%E3%83%BC
    라는 문서가 있고

    Category:技術
    https://ja.wikipedia.org/wiki/Category:%E6%8A%80%E8%A1%93
    라는 문서가 있습니다.

    같은 개념인데 표기법을 다르게 쓴건 가요??

    그리고 위키 데이터를 보면
    technology -> テクノロジー
    Category:Technology -> Category:技術

    이렇게 링크가 되있긴 합니다.

    asd

    Solar System Exploration, 1950s – 1960s

    • Mercury
    • Venus
    • Earth (Orbit/Moon)
    • Mars
    • Jupiter
    • Saturn
    • Uranus
    • Neptune
    • Comet Haley

    Result for ccs

    ccs에 발표할 결과에 대해서 공유하는 이슈입니다.
    크게 피규어 기준으로 작성해보겠습니다. 결과를 보시고 코멘트 주시면 좋을 것 같습니다.

    language title 매칭 이슈

    한국 위키 -> 미국 위키
    미국 위키 -> 한국 위키 를 잇는 데이터를 처리하는 중에 몇 이슈가 있어서 공유드립니다.
    어떻게 처리하는 것이 좋을 지 의견주시면 감사하겠습니다.

    1. 한국에서 영어로 잇는 문서를 보면 Ruby_(disambiguation) 와 같이 뒤에 플래그를 가지고 있는 링크들이 있습니다. disambugation 에 관련한 문서를 보면

    Naming articles in such a way that each has a unique title. For example, three of the articles dealing with topics ordinarily called "Mercury" are titled Mercury (element), Mercury (planet) and Mercury (mythology).

    이렇게 한가지 단어가 여러 의미를 가지고 있을 때 쓴다고 합니다. 이를 하나하나 매칭하게 되면 매우 수작업이 될 것 같아서 어떻게 좋을까요?

    1. 영어에서 한국으로 잇는 문서중 보면 bottleneck -> 병목_(공학) 이렇게 연결되어 있는데 병목_(공학) 이라는 문서는 없고 병목 이라는 문서는 존재합니다. 이 경우에는 어떻게 처리해야할까요?

    의견주시면 감사하겠습니다.

    Final result

    마지막 결과 공유드립니다.
    결과해석을 위한 논의가 필요한 것 같습니다.
    Beta 는 1.0, 0.9, 0.7, 0.5 로 진행하였으며, Beta가 낮은 것은 낮은 레벨에 좀 더 힘을 준 결과입니다.

    차례대로 클러스터맵, dendrogram(ward method), MST, MDS(https://en.wikipedia.org/wiki/Multidimensional_scaling)
    입니다.

    PPR_statstics

    한국에 대해서 결과를 한번 뽑아보았습니다. 전체 점수의 히스토그램은 다음과 같습니다.
    hist_all
    로그 스케일로 그려본 그림입니다.
    hist_all_log_scale

    Recommend Projects

    • React photo React

      A declarative, efficient, and flexible JavaScript library for building user interfaces.

    • Vue.js photo Vue.js

      🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

    • Typescript photo Typescript

      TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

    • TensorFlow photo TensorFlow

      An Open Source Machine Learning Framework for Everyone

    • Django photo Django

      The Web framework for perfectionists with deadlines.

    • D3 photo D3

      Bring data to life with SVG, Canvas and HTML. 📊📈🎉

    Recommend Topics

    • javascript

      JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

    • web

      Some thing interesting about web. New door for the world.

    • server

      A server is a program made to process requests and deliver data to clients.

    • Machine learning

      Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

    • Game

      Some thing interesting about game, make everyone happy.

    Recommend Org

    • Facebook photo Facebook

      We are working to build community through open source technology. NB: members must have two-factor auth.

    • Microsoft photo Microsoft

      Open source projects and samples from Microsoft.

    • Google photo Google

      Google ❤️ Open Source for everyone.

    • D3 photo D3

      Data-Driven Documents codes.