Giter Site home page Giter Site logo

jessie's Introduction

Jessie, a case of study

Jessie was developed as a tool to help students and data analists from Brasil that want to process data from Twitter. It is meant to work as a step by step guide to the use of NLTK to tag tweet text.

In this source repository you will find a guideline in Portuguese (I intend to add English translations later) to the steps I used in my course final project.

Identificação de entidades mencionadas para análise de sentimentos em microblogs


Discente: Jessica Caroline Alves Nunes Temporal Número USP: 7547611 [email protected]

Orientador: Evandro Eduardo Seron Ruiz [email protected]

Co-Orientador: Mateus Tarcinalli Machado [email protected]


Tese de Conclusão de Curso

O meu TCC pode ser encontrado aqui.

E os slides da minha apresetaço estão aqui.

Pipeline de processamento

A pipeline segue os seguintes passos:

  • Preparar o seu ambiente
  • Buscar dados no servidor da faculdade e armazená-los localmente
  • Pré-processar esses dados
  • POS-Tagging
  • Anotar as frequências de termos candidatos usando o algoritmo FREQ Baseline
  • Anotar as frequências de termos candidatos usando o algoritmo de Hu e Liu

Como Usar

Cada script dentro do módulo Jessie, pode ser importado a partir do console Python. Cada script possui dois arquivos markdown. O primeiro deles traz as informações sobre como aquele script funciona e qual o resultado esperado ao fim dele. E o segundo, traz informações sobre como funciona o código escrito naquele script. Assim você poderá também entender o que cada função e cada objeto faz.

Como mencionado anteriormente, o primeiro passo é preparar o seu ambiente. Vá para o markdown configuration, e siga os passos descritos lá =)

Dúvidas, sugestões, discussões e contribuições

O canal oficial para issues, dúvidas e sugestões são o sistema de issues aqui desta plataforma.

Contribuições

Caso queira contribuir, faça um fork do projeto e depois um pull request. Se tiver dúvidas quanto à isso, pode abrir uma issue que ficarei feliz em ajudar =)

Eventualmente o projeto será integrado com uma ferramenta de CI e um dos checkpoints será o falke8, então fique atento a isso para agilizar o processo de aceitar PRs.

jessie's People

Contributors

deboraazevedo avatar hi-hi-ray avatar jtemporal avatar vmesel avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar

Forkers

deboraazevedo

jessie's Issues

Improve string normalization

use something like:

import unicodedata

def normalize_string(string):
    nfkd_form = unicodedata.normalize('NFKD', string.lower())
    return nfkd_form.encode('ASCII', 'ignore').decode('utf-8')

instead of this

Translation

Should have both pt-br and en translations available

Review text

Should review and release new project manuscript

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.