Giter Site home page Giter Site logo

dictionaries' encoding about plantr HOT 10 CLOSED

limaraf avatar limaraf commented on May 18, 2024
dictionaries' encoding

from plantr.

Comments (10)

AndreaSanchezTapia avatar AndreaSanchezTapia commented on May 18, 2024

collection_codes ficou com encoding bom (unicode-utf-8) mas tem linhas e quebras de linha estranhas. Das 6065 linhas, 752 começam com texto e 323 com caracteres especiais. O resto começa por números mas nem todas as linhas são linhas de coleções. Isto já acontecia no arquivo antigo. Isso quer dizer que há quebras de linha indesejáveis no meio da base.

07-jul: o arquivo utf-8 win parece ok.

from plantr.

LimaRAF avatar LimaRAF commented on May 18, 2024

@saramortara @AndreaSanchezTapia

Acabei de fazer o push pro dev com as novas versões dos dicionários: original (ANSI) e utf8-win (UTF-8-BOM). Resolvi tb os arquivos que tinham quebras que vinhas de outras planilhas. Agora talvez dê para resolver. Vocês me dando o ok de qual arquivo é o que deve ficar no raw, me avisem que eu movo os "errados" para outra pasta como backup. Em seguida, passerei a versionar os dicionários direto da pasta data/raw.

Para tudo ficar mais emocionante, eu troquei os nomes dos arquivos (tchanan!). Parece besta mas é para (1) evitar nomes duplicados de arquivos no meu subversion do servidor da LAGE, (2) deixar os nomes dos dicionarios mais intuitivos e (3) padronizar a notação entre eles de nomenclatura. Achei que pegaria mal um pacote com que promete padronizar nomenclatura, ter nomencalturas diferentes!

Ou seja, precisamos mudar a forma que chamamos esses arquivos no 00_SysData e nas funcoes. Mas eu faço isso em breve.

from plantr.

AndreaSanchezTapia avatar AndreaSanchezTapia commented on May 18, 2024

families_synonyms está melhor utf-8 win. ainda tem quatro campos de ordens fósseis "near Hamamelidales" sem pontuação padronizada. posso checar isso aqui. (pode buscar o campo near Hamamelidales ou as aspas para ver quais registros)

from plantr.

LimaRAF avatar LimaRAF commented on May 18, 2024

@AndreaSanchezTapia eu vejo aqui. O que vc quer dizer por pontuação padronizada??

Edit: resolvido. Subo pro git as versões editadas dos mesmos arquivos para testarmos se não teve erro? sim, pode ser.

from plantr.

AndreaSanchezTapia avatar AndreaSanchezTapia commented on May 18, 2024

fieldNames ok
gazetteer ok
replaceNames ok - mais adiante precisamos checar o funcionamento destes strings lembro ter visto algum comentário sobre departamento deL

from plantr.

AndreaSanchezTapia avatar AndreaSanchezTapia commented on May 18, 2024

taxonomists not OK action required. Nenhum dos dois arquivos está lidando bem com caracteres especiais, mesmo que utf-8 esteja sendo reconhecido como o encoding correto. (utf-8-win está melhor eu partiria dele).
Primeira alternativa: ler desde o pad o arquivo original e transformar lá em UTF-8. Segunda, pegar o melhor UTF-8 que tiver e editar diretamente (tomara que não seja isso).

from plantr.

LimaRAF avatar LimaRAF commented on May 18, 2024

@AndreaSanchezTapia Em quais colunas não está ok? Pq eu já tiha resolvido problemas na mão para as colunas que usamos (full.name, tdwg.name, etc) e não para as do começo. No meu arquivo local tem problemas tb (não é a leitura). Mas é muito trabalho olhar/corrigir na mão

from plantr.

AndreaSanchezTapia avatar AndreaSanchezTapia commented on May 18, 2024

Resolvido aparentemente na seleção de colunas e na criação de sysdata. Fecho esperando não ter que abrir de novo 😬

from plantr.

LimaRAF avatar LimaRAF commented on May 18, 2024

@saramortara @AndreaSanchezTapia

Só para fins registro. Adaptei/reorganizei os arquivos e o codigo para gerar os dicionarios funcionou super bem! Eu já rodei tudo e vou fazer o push com as versões mais recentes do sysData.

MAs como ontem tivemos problemas de conflitos no pull/pushs com eu e Andrea editando os mesmo arquivos e como o subversion não permite que eu versione pastas do pacote, eu migrei todos os arquivos da pasta data-raw/raw para o meu local. Isso que dizer que só eu altero os dicionarios e atualizo a pasta data-raw/dicitionaries. Solução centralizadora, mas acho mais seguro pois os dicionários são o core de muitas funções.

Vou fazer o push pro dev. Me avisem caso tenham duvidas ou problemas

from plantr.

AndreaSanchezTapia avatar AndreaSanchezTapia commented on May 18, 2024

O sonho seria que você trabalhasse diretamente só nos arquivos utf-8, sem ir e vir entre encodings, não que você salve UTF8 mantendo o sistema antigo. Que o locale do computador e das opções de RStudio ficasse já em UTF 8 mas não tenho como garantir à distância que qualquer mudança no seu computador não vai requerer fuçar mais outras coisas.
Mas com dictionaries como novo raw funciona. Vou separar mais tarde 00 para não mexer mais no código que checa raw raw.

from plantr.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.