Giter Site home page Giter Site logo

tpicd's Introduction

Trabalho Prático de Introdução a Ciência dos Dados

Integrantes:

  • Bruno Henrique Evangelista Pereira
  • Francisco Teixeira Rocha Aragão
  • Lorenzo Carneiro Magalhaes
  • Tomas Lacerda Muniz
  • Victor de Almeida Nunes Murta

Objetivo

Analisar como os usuários do twitter encaram o chatGPT, de modo que também seja analisado esse fato ao longo do tempo e conforme localização geográfica.


Análise Exploratória dos Dados

Nessa segunda etapa do trabalho sobre o tema: Como estão as reações sobre o ChatGPT no twitter?

Buscamos realizar a análise exploratória dos dados para entender melhor o principal dataset selecionado, além de iniciar os preparativos para algumas funções que serão úteis para o desenvolvimento do trabalho.

Primeiramente, aumentamos a base de dados utilizando algumas fontes complementares, referenciadas a seguir:

Tal decisão foi motivada visto que a database selecionada primeiramente continha relativamente poucos dados, então buscamos novas fontes razoavelmente semelhantes a original contendo atributos importantes, como número de retweets, conteúdo do tweet, quantidade de likes, entre outros.

Dessa forma, algumas ações sobre os dados foram feitas a partir do dataset mais completo (ChatGPT-1000-daily-tweets), tais análises estão no notebook analiseInicial.ipynb . Assim, foi feito uma filtragem inicial, retirando algumas colunas com informações que não são relevantes, como user_id e user_created, além de uma filtragem nos tweets; usamos apenas tweets com mais de 0 curtidas. Após isso, outras análises foram feitas, tendo em vista o idioma e a quantidade de curtidas juntamente da análise de sentimento e da tradução de tweets em diferentes idiomas, que podem ser acompanhadas melhor seguindo o notebook.

Além disso, outros arquivos também foram desenvolvidos nessa etapa, como o teste e utilização de algumas bibliotecas e funcionalidades que serão úteis futuramente. Como exemplo, foram feitos notebooks voltados para a utilizacao da biblioteca "vader" que faz a análise de sentimento dos conteúdos dos tweets. Além disso, tal funcionalidade foi feita testando diferentes conjuntos de frases, como textos em português, inglês e outras línguas. Tal fato é importante pois além de nos familiarizarmos com a análise de sentimento, também iniciamos o processo de tradução com a utilização da biblioteca do Google tradutor para fazer esse trabalho. Todas essas ações estão representadas nos notebooks apresentados.


Para instalar as dependências:

cd src/utils
python3 installPackages.py

Instruções para desenvolvimento

Primeiramente, é interessante a criação de um ambiente virtual para tal.

Utilizando o anaconda, é possível criar um ambiente de desenvolvimento utilizando o comando:

conda create --name tpICD python=3.10.11

Para ativá-lo em sistemas baseados em unix digite:

conda activate tpICD

Além disso, é importante que o desenvolvimento siga essas regras:

  • Sempre ao instalar novas bibliotecas inserir as dependências novas no arquivo requirements.txt

  • Sempre atualizar o decorrer das tarefas na aba projects

    OBS: para inserir a dependência instalada basta, no ambiente virtual do trabalho, utilizar o comando:

pip freeze > requirements.txt

tpicd's People

Contributors

lorenzo-cm avatar francisco-aragao avatar tomas-lm avatar victoranm2 avatar excalibruno avatar

Stargazers

 avatar

Watchers

 avatar

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.