Comments (10)
collection_codes ficou com encoding bom (unicode-utf-8) mas tem linhas e quebras de linha estranhas. Das 6065 linhas, 752 começam com texto e 323 com caracteres especiais. O resto começa por números mas nem todas as linhas são linhas de coleções. Isto já acontecia no arquivo antigo. Isso quer dizer que há quebras de linha indesejáveis no meio da base.
07-jul: o arquivo utf-8 win parece ok.
from plantr.
@saramortara @AndreaSanchezTapia
Acabei de fazer o push pro dev com as novas versões dos dicionários: original (ANSI) e utf8-win (UTF-8-BOM). Resolvi tb os arquivos que tinham quebras que vinhas de outras planilhas. Agora talvez dê para resolver. Vocês me dando o ok de qual arquivo é o que deve ficar no raw, me avisem que eu movo os "errados" para outra pasta como backup. Em seguida, passerei a versionar os dicionários direto da pasta data/raw.
Para tudo ficar mais emocionante, eu troquei os nomes dos arquivos (tchanan!). Parece besta mas é para (1) evitar nomes duplicados de arquivos no meu subversion do servidor da LAGE, (2) deixar os nomes dos dicionarios mais intuitivos e (3) padronizar a notação entre eles de nomenclatura. Achei que pegaria mal um pacote com que promete padronizar nomenclatura, ter nomencalturas diferentes!
Ou seja, precisamos mudar a forma que chamamos esses arquivos no 00_SysData e nas funcoes. Mas eu faço isso em breve.
from plantr.
families_synonyms está melhor utf-8 win. ainda tem quatro campos de ordens fósseis "near Hamamelidales" sem pontuação padronizada. posso checar isso aqui. (pode buscar o campo near Hamamelidales ou as aspas para ver quais registros)
from plantr.
@AndreaSanchezTapia eu vejo aqui. O que vc quer dizer por pontuação padronizada??
Edit: resolvido. Subo pro git as versões editadas dos mesmos arquivos para testarmos se não teve erro? sim, pode ser.
from plantr.
fieldNames ok
gazetteer ok
replaceNames ok - mais adiante precisamos checar o funcionamento destes strings lembro ter visto algum comentário sobre departamento deL
from plantr.
taxonomists not OK action required. Nenhum dos dois arquivos está lidando bem com caracteres especiais, mesmo que utf-8 esteja sendo reconhecido como o encoding correto. (utf-8-win está melhor eu partiria dele).
Primeira alternativa: ler desde o pad o arquivo original e transformar lá em UTF-8. Segunda, pegar o melhor UTF-8 que tiver e editar diretamente (tomara que não seja isso).
from plantr.
@AndreaSanchezTapia Em quais colunas não está ok? Pq eu já tiha resolvido problemas na mão para as colunas que usamos (full.name, tdwg.name, etc) e não para as do começo. No meu arquivo local tem problemas tb (não é a leitura). Mas é muito trabalho olhar/corrigir na mão
from plantr.
Resolvido aparentemente na seleção de colunas e na criação de sysdata. Fecho esperando não ter que abrir de novo 😬
from plantr.
@saramortara @AndreaSanchezTapia
Só para fins registro. Adaptei/reorganizei os arquivos e o codigo para gerar os dicionarios funcionou super bem! Eu já rodei tudo e vou fazer o push com as versões mais recentes do sysData.
MAs como ontem tivemos problemas de conflitos no pull/pushs com eu e Andrea editando os mesmo arquivos e como o subversion não permite que eu versione pastas do pacote, eu migrei todos os arquivos da pasta data-raw/raw para o meu local. Isso que dizer que só eu altero os dicionarios e atualizo a pasta data-raw/dicitionaries. Solução centralizadora, mas acho mais seguro pois os dicionários são o core de muitas funções.
Vou fazer o push pro dev. Me avisem caso tenham duvidas ou problemas
from plantr.
O sonho seria que você trabalhasse diretamente só nos arquivos utf-8, sem ir e vir entre encodings, não que você salve UTF8 mantendo o sistema antigo. Que o locale do computador e das opções de RStudio ficasse já em UTF 8 mas não tenho como garantir à distância que qualquer mudança no seu computador não vai requerer fuçar mais outras coisas.
Mas com dictionaries como novo raw funciona. Vou separar mais tarde 00 para não mexer mais no código que checa raw raw.
from plantr.
Related Issues (20)
- Error in formatLoc function HOT 14
- fixSpecies error HOT 3
- Error de Instalação HOT 8
- Erro em "Making request to speciesLink..." HOT 4
- validateCoord() HOT 4
- formatOcc() HOT 10
- Errors in validateCoord() & formatTax() HOT 11
- Erro checkCoord HOT 2
- Make fixSpecies() handle typical NCBI organism names
- formatDwc() — "can't combine" HOT 7
- Error in x1$col.year[ids] - validateDup HOT 4
- Error in tax.check HOT 8
- The Plant List website is no longer functional HOT 4
- Error in validateCoord() HOT 1
- Problem while handling first family name with preposition
- Issue while preparing names with two family names
- Issue while handling names with a comma between spaces
- readData(): grepl() error? HOT 6
- Error in formatTax() HOT 1
- Replace function flora::remove.authors from function fixSpecies()
Recommend Projects
-
React
A declarative, efficient, and flexible JavaScript library for building user interfaces.
-
Vue.js
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
-
Typescript
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
-
TensorFlow
An Open Source Machine Learning Framework for Everyone
-
Django
The Web framework for perfectionists with deadlines.
-
Laravel
A PHP framework for web artisans
-
D3
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
-
Recommend Topics
-
javascript
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
-
web
Some thing interesting about web. New door for the world.
-
server
A server is a program made to process requests and deliver data to clients.
-
Machine learning
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
-
Visualization
Some thing interesting about visualization, use data art
-
Game
Some thing interesting about game, make everyone happy.
Recommend Org
-
Facebook
We are working to build community through open source technology. NB: members must have two-factor auth.
-
Microsoft
Open source projects and samples from Microsoft.
-
Google
Google ❤️ Open Source for everyone.
-
Alibaba
Alibaba Open Source for everyone
-
D3
Data-Driven Documents codes.
-
Tencent
China tencent open source team.
from plantr.