Trabalhar com dados no Excel e no Google Sheets se tornou uma habilidade essencial em diversas áreas, incluindo marketing, vendas e muitas outras. Essas ferramentas oferecem uma plataforma versátil para coletar, analisar e visualizar dados, permitindo que profissionais tomem decisões assertivas e estratégicas.
Nesta primeira aula, vamos te apresentar o Kaggle e fazer uma análise exploratória com uma base de dados de compras da Amazon, usando o ChatGPT como auxiliar na hora de gerar fórmulas básicas do Google Sheets.
Informações representadas por cada coluna na planilha de dados:
- product_id: ID do produto
- product_name: Nome do produto
- category: Categoria do produto
- actual_price: Valor do produto com desconto
- product_price: Valor do produto com valor cheio
- rating: Valor de 0 a 5 avaliando o produto
- rating_count: Quantidade de pessoas que avaliaram o produto
- about_product: Descrição do produto
- product_link: Link do produto na loja da Amazon
-
Adicionar a formatação condicional de cores à coluna de porcentagens.
-
Faça uma análise exploratória e aplique as mesmas técnicas com o ChatGPT a uma nova base de dados do Kaggle: Top 1000 IMDb Movies Dataset.
Usar a IA como assistente na manipulação de planilhas.
Vamos dar continuidade à utilização do ChatGPT para aprender a criar fórmulas no Google Sheets. Abordaremos algumas fórmulas mais avançadas, como o cálculo de média para faixas de valores e média ponderada, exploraremos a criação de gráficos e te apresentaremos a uma nova ferramenta de IA para dados.
- Personalize o gráfico para adicionar as quantidades
- Analise qual seria o melhor gráfico para o seu caso usando o guia citado pelo Marcell, que está nos links da aula
- Faça uma análise exploratória e aplique as mesmas técnicas vistas na aula de hoje, incluindo a criação de gráficos, a uma nova base de dados do Kaggle: base de dados de hotéis do Kaggle.
- ChatGPT OpenAI
- Guia para escolher gráficos
- Sheet+ (IA específico para planilhas Excel e Goggle Sheets)
- Magical (Extensão browser para recriar textos ou gerar textos com IA)
- Rows (Webapp de planilhas com recursos de IA)
Uma nova base de dados, também da Amazon, que é relacionada à base antiga, e aprenderemos como conectá-las usando uma coluna comum a ambas. Apresentaremos também uma extensão que te permitirá ter o ChatGPT dentro do seu Google Sheets, e a empregaremos para realizar traduções, resumos e análises de sentimento de críticas. Por fim, focaremos uma parte da aula em te passar alguns dos principais conceitos de Engenharia de Prompt, como o uso de “few-shot” com o cadeia de pensamento, a fim de obter respostas mais precisas de IAs generativas como o ChatGPT.
Informações representadas por cada coluna na nova planilha de dados:
- product_id: ID do produto
- user_id: ID único do usuário
- user_name: Nome escolhido pelo usuário
- review_id: ID da crítica
- review_title: Título da crítica
- review_content: Conteúdo da crítica
- img_link: Link da imagem do produto
Pergunta: Tenho uma lista de valores. O meu resultado final será 30% da soma de valores. Porém, nem todos os valores serão somados, apenas aqueles acima de R$40.000,00. Para a lista abaixo, conte quantos valores existem e me diga qual é o meu resultado final?
R$10.000,00 R$20.000,00 R$50.000,00 R$60.000,00
Resposta: Nessa lista, existem 4 valores. Há 2 valores acima de R$40.000,00, que são R$50.000,00 e R$60.000,00. A soma desses valores é R$110.000,00. O resultado final é 30% da soma desses valores, portanto, 30% de R$110.000,00, que resulta em R$33.000,00.
Pergunta: Tenho uma lista de valores. O meu resultado final será 30% da soma de valores. Porém, nem todos os valores serão somados, apenas aqueles acima de R$40.000,00. Para a lista abaixo, conte quantos valores existem e me diga qual é o meu resultado final?
R$31.000,00 R$15.000,00 R$52.000,00 R$103.000,00 R$42.000,00 R$156.000,00 R$15.000,00 R$27.000,00 R$82.000,00 R$33.000,00
Resposta:
Nessa lista, existem 10 valores. Há 6 valores acima de R$40.000,00, que são R$52.000,00, R$103.000,00, R$42.000,00, R$156.000,00, R$82.000,00 e R$33.000,00. A soma desses valores é R$468.000,00.
O resultado final é 30% da soma desses valores, portanto, 30% de R$468.000,00, que resulta em R$140.400,00.
R$33.000,00 é menor que R$40.000,00
Peço desculpas pela resposta incorreta anterior. Você está absolutamente correto. R$33.000,00 está abaixo de R$40.000,00. Portanto, na lista fornecida:
Existem 10 valores. Há 5 valores acima de R$40.000,00, que são R$52.000,00, R$103.000,00, R$42.000,00, R$156.000,00 e R$82.000,00. A soma desses valores é R$435.000,00.
O resultado final é 30% da soma desses valores, portanto, 30% de R$435.000,00, que resulta em R$130.500,00.
- Gere a tradução das críticas e faça uma análise de sentimentos das mesmas usando a extensão SheetGPT em uma nova base de dados do Kaggle: base de críticas do aplicativo Threads.
- ChatGPT OpenAI
- SheetGTP
- Guia básico de engenharia de prompt
- Planilha para cálculo da arrecadação de impostos
Google Colab. Vamos mergulhar em Python e na biblioteca de manipulação de dados Pandas, demonstrando como importar tabelas e realizar análises iniciais com os comandos mais importantes. Não se preocupe se você não sabe programar! Nós utilizaremos o ChatGPT para nos auxiliar na criação de código em Python e Pandas, e também para plotar gráficos.
-
Usando o Google Colab com Python e Pandas, criar uma nova coluna chamada “actual_price_real”, que será o valor da coluna “actual_price” convertido para reais (dica: você pode apenas multiplicar o valor em rúpias por 0.05, como fizemos na Aula 01, ou então buscar o valor de hoje da conversão entre rúpias indianas e reais brasileiros no Google).
-
Realizar as análises que foram executadas nas aulas anteriores usando o Google Sheets, mas agora utilizando Python e Pandas no Google Colab.
-
Conectar as duas planilhas usadas nas aulas anteriores, como fizemos com o VLOOKUP, mas usando Python e Pandas.
-
Colocar a base já corrigida na biblioteca Pandas Profiling citada no conteúdo extra.
Código com desafios Google CoLab
Diferenças entre as principais carreiras nessa área de dados, tais como Analista de Dados, Cientista de Dados, Engenheiro de Dados, Engenheiro de Machine Learning, Engenheiro de IA e Engenheiro de Prompt.
- Responsável pela coleta dos dados, preparação para análises e armazenamento dos dados, conforme lei vigente. Pode desenvolver plataformas para isso. Pode ou não fazer a limpeza de dados.
- Responsáveis pelo intendimento da geração dos dados, exploração de dados, hipóteses para testes, transformações dos dados, de um input extrair um output necessário ao negócio. Determinar o que é necessário em investimentos, colaboradores, o custo benefício ou não.
- Responsável também pela limpeza e exploração de dados e também criar modelos de machine learning (aprendizado de máquina), métricas, modelos de regressão.
- Responsável pelo monitoramento dos modelos prontos, entender como funcionam em produção, estruturar o workflow de transformação e análise dos dados. Coleta de novos dados em produção para retreinamento de machine learning.
- Responsável pela educação da equipe de gera os dados, política e diretrizes dos modelos a serem criados, o que é possível disponibilizar de dados, ajuda a catalogar e entender os dados disponíveis. Garantir a qualidade dos dados e metadados, conformidade em relação a legislação e normas, quem pode acessar os dados.
- Responsável por gerir e entender os modelos de IA. Pesquisa e desenvolvimento de IA. Modelos de linguagem e processamento de linguagem natural. Testar formas de criação e servir os modelos, eficiência dos modelos. Treinamento e Avaliação do modelos, buscar e criar novos datasets para avaliar o modelo. Planejar novos experimentos.
- Responsável pela analise das melhores formas de criar um prompt, para ser preciso e funcional na maioria das vezes. Testar novas formas de criação de prompt, chain of thought, tree of thoughts, entre muitos outros que estão sendo criados. Trazer artigos acadêmicos para as empresas.