Giter Site home page Giter Site logo

globosc / bigdata Goto Github PK

View Code? Open in Web Editor NEW
0.0 1.0 0.0 3.64 MB

Análisis al Proyecto GDELT con herramientas bigdata basadas den hadoop en nube Microsoft Azure

Shell 23.03% Python 58.30% HiveQL 18.67%
bash-script gdelt-events hiveql pig python spark-sql

bigdata's Introduction

Trabajo realizado sobre nube Microsoft Azure en un cluster hdInsight

Introducción

En este repositorio se utilizan herramientas basadas en el framework spark a través de un cluster hdInsight de la nube de microsoft en donde se analizan los archivos generados por la iniciativa GDELT. En primera instancia consistió en todo un desafío ya que primero el investigador tuvo que entender que era GDELT, como funcionaba, y como integrarlo a la nube azure. Para lo cual y haciendo gala de su pasado como ingeniero en sistemas, el investigador optó por realizar un script en bash para descargar las direcciones web de los arhivos publicados en GDELT, para posteriormente descargarlos, descomprimirlos y subirlos al sistema de almacenamiento distribuido de microsoft para ser analizados. Es por esto que se incluyen el script. Posterior a esto, se responden todas las consultas del desafío utilizando:

  1. PIG
  2. HIVE
  3. PySpark
  4. Spark SQL
  5. Python
  6. Bash

About GDELT

El proyecto de la base de datos global de eventos, lenguaje y tono (GDELT por sus siglas en inglés) es una base datos abierta global en tiempo real de la sociedad humana según los medios informativos del mundo, que profundiza en los acontecimientos, las reacciones y emociones de cada parte del mundo en tiempo casi real. Toda esta información está disponible de forma gratuita para investigar, analizar, visualizar e incluso predecir la sociedad humana de acuerdo con la cobertura de noticias globales. También incluye un catálogo completo y de alta resolución de los eventos sociopolíticos geo-referenciados desde 1979 hasta la actualidad. El proyecto GDELT hace un seguimiento de cada boletín de noticias impreso y digital accesible en todo el mundo cada 15 minutos en más de 100 idiomas. La información se procesa utilizando una gran variedad de algoritmos para identificar cientos de categorías de eventos (desde protestas hasta llamamientos por la paz), miles de emociones (desde la ansiedad hasta la felicidad), millones de temas narrativos (desde los derechos de las mujeres hasta el acceso al agua potable), así como ubicaciones, personas, organizaciones y otros indicadores. Link: https://www.gdeltproject.org/ image

bigdata's People

Contributors

globosc avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.