Giter Site home page Giter Site logo

Comments (47)

brunoparodi avatar brunoparodi commented on July 21, 2024 1

Bom dia, eu fiz o download já duas vezes e sempre da que os dados estão corrompidos, aconteceu isso com vocês também não consigo nem descompactar, usei um gerenciador de download.

Faz o download que eu disponibilizei.

Quanto as mudanças nas linhas 98 e 130, surgiram efeito.

Início do processo 06:35, fim 08:22. Nem 2h.
Blocos processados: 831 até linha 83.100.000
Tamanho do arquivo 11,8GB

link do arquivo processado, zipado 3GB - https://drive.google.com/open?id=17GfB4uCLoMu0UqfD9znShg2WS0IxMM1a

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024 1

Subi uma nova versão do cnpj.py sem a conversão dessas colunas para float, e aproveitei para aprimorar o processamento para imprimir as informações das linhas de header e trailler, além de contabilizar as linhas e confrontá-las com as informações de controle no trailler, dando mais segurança se o arquivo foi completamente convertido.

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024 1

lançaram na receita http://200.152.38.155/CNPJ/ o arquivo separado em 20 partes, agora é testar para ver se está tudo ok

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024 1

Todo processo levou umas 2 horas, rodei em um windows 7 sp1, 4gb de ram e core i3. Com um monte de coisa rodando. Gerei o arquivo no formato sqlite e ficou perfeito as informações. Se alguém tiver tendo dificuldade para baixar posso colocar os arquivos no drive.

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

@brunoparodi, infelizmente ainda não consegui baixar o arquivo disponibilizado na sexta. O download do site está muito, muito lento. Enfim, pode ser que os dados atualizados tenham "quebrado" o processamento da carga. Pela exceção que você apresentou, parece ser um problema na hora de converter as colunas de capital_social das empresas e/ou perc_capital dos sócios, que nas versões anteriores ou tinha algum número ou vinham zerados. Se o problema for somente esse, uma solução rápida seria alterar o cnpj.py para tirar a especificação de conversão dessas colunas como "float", nas linhas 98 e 130. Só acho estranho o fato de atualizações referentes a dois meses (desde a última versão em março) terem resultado em um arquivo zip quase 15% maior que o anterior. Temo que possa haver alguma diferença estrutural ou problemas no arquivo disponibilizado, mas não consigo confirmar isso por enquanto.

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

from cnpj-full.

brunoparodi avatar brunoparodi commented on July 21, 2024

@brunoparodi, infelizmente ainda não consegui baixar o arquivo disponibilizado na sexta. O download do site está muito, muito lento. Enfim, pode ser que os dados atualizados tenham "quebrado" o processamento da carga. Pela exceção que você apresentou, parece ser um problema na hora de converter as colunas de capital_social das empresas e/ou perc_capital dos sócios, que nas versões anteriores ou tinha algum número ou vinham zerados. Se o problema for somente esse, uma solução rápida seria alterar o cnpj.py para tirar a especificação de conversão dessas colunas como "float", nas linhas 98 e 130. Só acho estranho o fato de atualizações referentes a dois meses (desde a última versão em março) terem resultado em um arquivo zip quase 15% maior que o anterior. Temo que possa haver alguma diferença estrutural ou problemas no arquivo disponibilizado, mas não consigo confirmar isso por enquanto.

Bom dia Fabio, obrigado pela rápida resposta.

Alterei as linhas 98 e 130 ({'capital_social': object}, {'perc_capital': object}) e vou executar novamente.

Quanto ao download, está extremamente lento e falhando direto, houve atualização dia 24, dois dias depois de eu baixar... essa ainda não consegui. A do dia 22/05/2019 deixei disponibilizado aqui:

https://drive.google.com/open?id=10UhGUqgpfCkdzV79pKNQgM-JUTULmRuy

Vou executar agora sem as linhas e informo o resultado.

Outra coisa, é possível filtrar logo no processamento a UF que eu quero, deixando o arquivo de saída mais leve?

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024

Bom dia, eu fiz o download já duas vezes e sempre da que os dados estão corrompidos, aconteceu isso com vocês também não consigo nem descompactar, usei um gerenciador de download.

from cnpj-full.

brunoparodi avatar brunoparodi commented on July 21, 2024

Segunda eu testo.
E tem um pull request para dividir o arquivo em estados. Fiz aqui e deu certo, poderia adicionar ao projeto.

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

Alguém já conseguiu fazer o download da versão de maio sem erro de CRC na descompactação? Já tentei duas vezes (e cada vez é sofrida!) e nas duas vezes deu erro de CRC. De qualquer forma rodei o cnpj.py nelas. A primeira vez deu divergência nas quantidades de linhas, o que parece confirmar que o arquivo veio corrompido. A segunda estou rodando nesse momento. @brunoparodi, estou achando que na sua primeira tentativa ele estava dando erro de conversão dos campos para float por provavelmente estar corrompido. Sugiro que tente rodar novamente com a nova versão do cnpj.py para que ele valide as quantidades ao final.

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

@brunoparodi, embora o foco do CNPJ-full fosse possibilitar a carga da base em algum BD (no caso dos CSVs, a ideia seria usá-los para fazer carga em SGBDs), de forma a permitir consultas e extrações relativamente rápidas, adicionei a contribuição do @AnthraxisBR para permitir dividir o arquivo empresas.csv por UF ou municípios.

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024

@fabioserpa o download da receita está corrompido mesmo, rodei o script e vem cnpj espaçado, com menos de 14 digitos, cnae inválido. Situação critica, baixei umas 5 vezes esse arquivo por computadores e redes diferentes e sempre o mesmo problema de arquivo corrompido.

from cnpj-full.

AnthraxisBR avatar AnthraxisBR commented on July 21, 2024

@fabioserpa @baiter12 Eu também tentei baixar, deixei essa noite pela quarta ou quinta vez já e não deu, tentei por varias redes diferentes também e não baixou o arquivo completo nenhuma vez.

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024

Eu até consegui fazer o download do arquivo umas 5 vezes tbm, redes e sistemas operacionais diferente, windows 10, centos, ios, mas todos dão falha na hora de descompactar.

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024

recomendo enviarem uma mensagem na ouvidoria da receita ou informar o Acesso à Informação.
Site Ouvidoria da Receita.

Site Acesso a Informação.

from cnpj-full.

lolmarcelol avatar lolmarcelol commented on July 21, 2024

Utilizei aria2c para efetuar o download do arquivo no site da receita, demorou cerca de 7 horas pra baixar tudo, o arquivo veio todo certinho e tudo ok !! utilizei o script para gerar o arquivo para sqlite e esta tudo ok !!! não deu nenhum erro, tudo perfeito !!

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

Quando você baixou? Você usou a versão mais atual do script que apresenta as informações de header e de controle e checa as quantidades?

from cnpj-full.

lolmarcelol avatar lolmarcelol commented on July 21, 2024

Eu baixei o arquivo da receita ontem, é a versão de 15-05-2019, e a sua versão eu clonei do repositório hoje dia 05-06

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

Olá

Sr. Fabio Serpa

Antemão gostaria de parabenizá-lo pelo excelente material acima apresentado !!!
Eu sem nenhum conhecimento de desenvolvimento consegui gerar quase todos os passo sem muitos problemas !!!

Consegui gerar os arquivos:
empresas.csv
cnaes_secundarios.csv
socios.csv

Porém na hora de rodar:

Para separar por UF:
python3 separar_csv_por_uf.py

Para separar por cidade:
python3 separar_csv_por_cidade.py

Obs.: imagino ter editado o caminho do arquivo "empresas.csv" corretamente.

Apareceu a seguinte seguinte mensagem, acredito que estou errando em algum passo.

PS H:\Downloads\DADOS_ABERTOS_CNPJ> python3 separar_csv_por_uf.py
PS H:\Downloads\DADOS_ABERTOS_CNPJ> python separar_csv_por_uf.py H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py:52: UserWarning: File doesn't exist
warnings.warn("File doesn't exist {}".format(self.dotenv_path)) # type: ignore
Traceback (most recent call last):
File "separar_csv_por_uf.py", line 1, in
import settings
File "H:\Downloads\DADOS_ABERTOS_CNPJ\settings.py", line 11, in
load_dotenv(dotenv_path=env_path)
File "H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py", line 277, in load_dotenv
return DotEnv(f, verbose=verbose, **kwargs).set_as_environment_variables(override=override)
File "H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py", line 77, in set_as_environment_variables
for k, v in self.dict().items():
File "H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py", line 61, in dict
values = OrderedDict(self.parse())
File "H:\Desenvolvimento\Python\lib\collections.py", line 69, in init
self.__update(*args, **kwds)
File "H:\Desenvolvimento\Python\lib_abcoll.py", line 571, in update
for key, value in other:
File "H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py", line 67, in parse
with self._get_stream() as stream:
File "H:\Desenvolvimento\Python\lib\contextlib.py", line 17, in enter
return self.gen.next()
File "H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py", line 47, in _get_stream
elif os.path.isfile(self.dotenv_path):
File "H:\Desenvolvimento\Python\lib\genericpath.py", line 37, in isfile
st = os.stat(path)
TypeError: coercing to Unicode: need string or buffer, WindowsPath found

from cnpj-full.

AnthraxisBR avatar AnthraxisBR commented on July 21, 2024

@erijunior1 Você criou o arquivo '.env' no projeto ?

Pra rodar os scripts da pasta extra_csv, precisa criar um arquivo .env na raiz do projeto, e informar o caminho dos arquivos .csv no 'root_folder'.

Veja o arquivo .env.example do projeto, só copiar ele, renomear pra .env, e colocar o caminho dos arquivos gerados.

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

Olá

Caros amigos Githubers.

@lolmarcelol @ernanisp @fabioserpa @AnthraxisBR @BaiterYamato

Não gostaria de ser visto pelos colegas deste grupo como um ASPONE.

Como acredito na ideia de ajudar para ser ajudado ou gentileza gera gentileza; gostaria de deixar aqui a minha contribuição para o grupo, nos últimos anos como não obtive muito sucesso em obter a base direto da Receita Federal, achei um outro repositor na internet.

E uma empresa que se beneficia destes dados para vende-los em forma de listas para outras empresas !!!

Caso alguém tenha interesse nesta base me solicite via e-mail: [email protected]

Obs.: base gerada em 31-05-2019 6GB

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

Caro amigo @AnthraxisBR

Eu já havia criado o arquivo conforme o .env.example

Fiz as seguintes alterações no arquivo:
Nome de .env.example para apenas .env
Dados do Arquivo de FILES_LOCATION=/media/Arquivos para H:\Downloads\DADOS_ABERTOS_CNPJ\empresas.csv e FILES_LOCATION=H:\Downloads\DADOS_ABERTOS_CNPJ\empresas.csv e FILES_LOCATION=H:\Downloads\DADOS_ABERTOS_CNPJ**

Nenhuma das mudanças funcionou !!!

@erijunior1 Você criou o arquivo '.env' no projeto ?

Pra rodar os scripts da pasta extra_csv, precisa criar um arquivo .env na raiz do projeto, e informar o caminho dos arquivos .csv no 'root_folder'.

Veja o arquivo .env.example do projeto, só copiar ele, renomear pra .env, e colocar o caminho dos arquivos gerados.

from cnpj-full.

AnthraxisBR avatar AnthraxisBR commented on July 21, 2024

@erijunior1 faz um teste com:

FILES_LOCATION=H:\Downloads\DADOS_ABERTOS_CNPJ\

Não precisa colocar o 'empresas.csv' no final

Tem que ter o 'barra' no final ali do files_location

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

@AnthraxisBR
Meu amigo já havia tentado neste formado e nada o corre a seguinte mensagem:

PS H:\Downloads\DADOS_ABERTOS_CNPJ> python separar_csv_por_uf.py
Traceback (most recent call last):
File "separar_csv_por_uf.py", line 1, in
import settings
File "H:\Downloads\DADOS_ABERTOS_CNPJ\settings.py", line 11, in
load_dotenv(dotenv_path=env_path)
File "H:\Desenvolvimento\Python\lib\site-packages\dotenv\main.py", line 277, in load_dotenv
return DotEnv(f, verbose=verbose, **kwargs).set_as_environment_variables(override=override)

@erijunior1 faz um teste com:

FILES_LOCATION=H:\Downloads\DADOS_ABERTOS_CNPJ\

Não precisa colocar o 'empresas.csv' no final

Tem que ter o 'barra' no final ali do files_location

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

@AnthraxisBR

Meu amigo vou abusar um pouco mais de sua boa vontade !!!
Acabei de mandar para o seu e-mail: [email protected]

O acesso remoto ao meu computador se puder dar uma olhadinha agradeço muito !!!

from cnpj-full.

AnthraxisBR avatar AnthraxisBR commented on July 21, 2024

@erijunior1 testei aqui e ta normal, é alguma configuração ai que ta dando problema, vamo ir debugando aqui:

Você clonou o projeto na pasta H:\Downloads\DADOS_ABERTOS_CNPJ ?

Segue esses passos:

  1. Clone o projeto
  2. Cria o arquivo .env com a licalização dos arquivos
  3. Da um cd na pasta extra csv
  4. Ai sim executa o script

Esse erro aí ta dizendo que o script separar_csv_por_uf.py não ta na mesma pasta que arquivo 'settings.py', você tirou ele da pasta extra_csv ?

Pelo que vi ali, você tirou os scripts da pasta extra_csv, e colocou na pasta H:\Downloads\DADOS_ABERTOS_CNPJ, coloca eles de novo na pasta extra_csv que vai funcionar, deixa todos os arquivos do jeito que estavam, só altera o .env.

PS: O anydesk não instala aqui onde eu to.

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

Não esta funcionado !!!

Primeiramente todos os arquivos estão soltos dentro da pasta :
H:\Downloads\DADOS_ABERTOS_CNPJ
F.K032001K.D90511 (Arquivo da Receita)
cnaes_secundarios.csv
empresas.csv
socios.csv
.env
cfwf.pyc
cfwf.py
settings.pyc
settings.py
CNPJ_full
cnpj.py
config.py
consulta.py
env.py
header_dict.py
rede_cnpj.py
separar_csv_por_cidade.py
separar_csv_por_uf.py

extra_csv (Pasta com os arquivos settings.py | header_dict.py | separar_csv_por_cidade.py |separar_csv_por_uf.py)

from cnpj-full.

AnthraxisBR avatar AnthraxisBR commented on July 21, 2024

Testei aqui com os arquivos iguais e está funcionando, pode ser algo com dotenv no windows, mas não sei, porém agora não tenho windows aqui pra testar, mas faz outro teste, assim talvez funcione:

abre o arquivo: settings.py

e deixa ele assim :

from dotenv import load_dotenv
load_dotenv()

se não funcionar, deixa ele assim:

from dotenv import load_dotenv

env_path = 'H:\Downloads\DADOS_ABERTOS_CNPJ\.env'
load_dotenv(dotenv_path=env_path)

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

from dotenv import load_dotenv
load_dotenv()

Ficou:

PS H:\Downloads\DADOS_ABERTOS_CNPJ\extra_csv> python separar_csv_por_uf.py Traceback (most recent call last):
File "separar_csv_por_uf.py", line 9, in
with codecs.open(location + file, 'r+', 'utf-8') as empresas:
TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'
PS H:\Downloads\DADOS_ABERTOS_CNPJ\extra_csv>


se não funcionar, deixa ele assim:

from dotenv import load_dotenv

env_path = 'H:\Downloads\DADOS_ABERTOS_CNPJ.env'
load_dotenv(dotenv_path=env_path)

Ficou:

PS H:\Downloads\DADOS_ABERTOS_CNPJ\extra_csv> python separar_csv_por_uf.py Traceback (most recent call last):
File "separar_csv_por_uf.py", line 9, in
with codecs.open(location + file, 'r+', 'utf-8') as empresas:
TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'
PS H:\Downloads\DADOS_ABERTOS_CNPJ\extra_csv>

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024

Bom dia pessoal, ontem tentei fazer novamente o download do arquivo e estava fora do ar, alguém conseguiu fazer um novo download sem dar problema na hora de descompactar? Eu mandei os e-mail informando que os arquivos estava com problema. Será que arrumaram este arquivo....

from cnpj-full.

LucasGeek avatar LucasGeek commented on July 21, 2024

Então, para a questão de nao dar problemas de no download e na hora de descompactar eu uso o ARIA2C "https://aria2.github.io/". Esse cara me ajuda bastante na questão de download de arquivos grandes. Faca download com esse cara ai tenta descompactar, fiz o download ontem do arquivo e nao tive problemas, no momento ja ate estrai sqlite do arquivo.

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024

o link está fora do ar. Obrigado pela dica do aria2.

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024

Pelo visto a receita deixou fora do ar o arquivo, devem estar refazendo para dar reupload (espero eu)

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

Ainda não baixei, mas são arquivos independentes ou dezipam para um mesmo arquivo? Se forem independentes, pelo menos a conversão para sqlite precisará de uma adaptação para ser util

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024

@fabioserpa pelo que eu vi são arquivos independentes, tendo que rodar o script para estruturar em cada parte e dar um join depois de estruturado

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

Não consegui terminar de baixar nem o segundo arquivo ainda (!!!) mas pelo que vi no primeiro, suponho que são arquivos independentes quando zipados, porém com registro header apenas no primeiro e registro de controle apenas no último. Já subi a adaptação do script para suportar essa nova forma.
Uso: python cnpj.py <pasta_dos_zips> <sqlite|csv> <pasta_de_saida> --dir

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024

Bom dia pessoal, baixei os novos arquivos e tentei rodar deu este erro, de alguem mais deu erro?

PS C:\DADOS_ABERTOS_CNPJ> python cnpj.py "C:\DADOS_ABERTOS_CNPJ" sqlite "C:\DADOS_ABERTOS_CNPJ" --dir
Iniciando processamento em 2019-06-11 09:51:54.744556
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_01.zip
Processando bloco 1: até linha 200000.
INFORMACOES DO HEADER:
Nome do arquivo: F.K032001K
Data de gravacao: 20190514
Numero da remessa: 00000001
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_02.zip
Traceback (most recent call last):0000.
File "cnpj.py", line 440, in
main()
File "cnpj.py", line 432, in main
cnpj_full(input_list, tipo_output, output_path)
File "cnpj.py", line 215, in cnpj_full
for i_bloco, bloco in enumerate(dados):
File "C:\DADOS_ABERTOS_CNPJ\cfwf.py", line 104, in _cfwf_chunck_reader
for chunk in reader:
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\parsers.py", line 1115, in next
return self.get_chunk()
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\parsers.py", line 1173, in get_chunk
return self.read(nrows=size)
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\parsers.py", line 1139, in read
ret = self._engine.read(nrows)
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\parsers.py", line 2388, in read
content = self._get_lines(rows)
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\parsers.py", line 3121, in _get_lines
new_rows.append(next(self.data))
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site-packages\pandas\io\parsers.py", line 3589, in next
line = next(self.f)
File "C:\Users\user\AppData\Local\Programs\Python\Python37\lib\encodings\cp1252.py", line 23, in decode
return codecs.charmap_decode(input,self.errors,decoding_table)[0]
UnicodeDecodeError: 'charmap' codec can't decode byte 0x8f in position 7256: character maps to

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

@ernanisp, pelo visto o problema ocorreu no segundo arquivo, onde ainda não cheguei. Só conseguirei trabalhar no debug e ajustes disso mais tarde, porém uma tentativa que você pode fazer é alterar diretamente o cfwf.py na sua máquina e incluir o parâmetro encoding='ISO-8859-15' na chamada do pd.read_fwf() (linhas 39 a 47). Se quiser tentar e nos dar um retorno, seria ótimo.

from cnpj-full.

ernanisp avatar ernanisp commented on July 21, 2024

Boa tarde @fabioserpa as alterações que você indicou surtiram efeito. Importação realizada com sucesso.

PS C:\DADOS_ABERTOS_CNPJ> python cnpj.py "C:\DADOS_ABERTOS_CNPJ" sqlite "C:\DADOS_ABERTOS_CNPJ" --dir
Iniciando processamento em 2019-06-11 11:41:07.050410
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_01.zip
Processando bloco 1: até linha 200000.
INFORMACOES DO HEADER:
Nome do arquivo: F.K032001K
Data de gravacao: 20190514
Numero da remessa: 00000001
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_02.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_03.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_04.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_05.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_06.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_07.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_08.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_09.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_10.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_11.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_12.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_13.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_14.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_15.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_16.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_17.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_18.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_19.zip
Processando arquivo: C:\DADOS_ABERTOS_CNPJ\DADOS_ABERTOS_CNPJ_20.zip
Processando bloco 21: até linha 4200000.
INFORMACOES DE CONTROLE:
Total de registros de empresas: 40754938
Total de registros de socios: 25873191
Total de registros de CNAEs secundarios: 16445774
Total de registros incluindo header e trailler: 83073905

Conversao concluida. Validando quantidades:
Total de registros de empresas: 40754938 ok
Total de registros de socios: 25873191 ok
Total de registros de CNAEs: 16445774 ok

Arquivo SQLITE gerado: C:\DADOS_ABERTOS_CNPJ\CNPJ_full.db
OBS: Uso de índices altamente recomendado!

Criando índices...
Essa operaçao pode levar vários minutos.

Index ix_empresas_cnpj criado.

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

@ernanisp, maravilha! Que bom ver que aparentemente deu tudo certo. Quando você copiou esse output o processamento ainda não havia encerrado, certo? Ainda estava criando os índices no sqlite. Depois poderia informar o tempo total do processamento e as suas configurações de máquina? Obrigado.

from cnpj-full.

fabioserpa avatar fabioserpa commented on July 21, 2024

Em tempo, já atualizei os scripts no repositório para esse usar esse encoding.

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024

startando o processamento aqui, em breve informo o tempo total decorrido e as config.

from cnpj-full.

BaiterYamato avatar BaiterYamato commented on July 21, 2024

1 hora e 24 minutos, windows 10, 16gb ram, intel core i7 7 geração

from cnpj-full.

erijunior1 avatar erijunior1 commented on July 21, 2024

Processo show de bola !!!

Mesmo sem saber nenhuma linha de programação corretamente, consegui gerar o arquivo em CSV !!!

Só não deu certo o script de divisão de UF nem CIDADES !!!

Acabei usando o Power Query para efetuar as divisões, deu muito certo !!!

PS H:\Downloads\cnpj> python cnpj.py H:\Downloads\cnpj\ csv H:\Downloads\cnpj\ --dir Iniciando processamento em 2019-06-18 10:48:16.953000
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_01.zip

INFORMACOES DO HEADER:
Nome do arquivo: F.K032001K
Data de gravacao: 20190514
Numero da remessa: 00000001
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_02.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_03.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_04.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_05.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_06.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_07.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_08.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_09.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_10.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_11.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_12.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_13.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_14.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_15.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_16.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_17.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_18.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_19.zip
Processando arquivo: H:\Downloads\cnpj\DADOS_ABERTOS_CNPJ_20.zip

INFORMACOES DE CONTROLE:
Total de registros de empresas: 40754938
Total de registros de socios: 25873191
Total de registros de CNAEs secundarios: 16445774
Total de registros incluindo header e trailler: 83073905

Conversao concluida. Validando quantidades:
ok
ok
ok
Arquivos CSV gerados na pasta H:\Downloads\cnpj.
Processamento concluido em 2019-06-18 15:09:19.840000

from cnpj-full.

jonattangamboa avatar jonattangamboa commented on July 21, 2024

Todo processo levou umas 2 horas, rodei em um windows 7 sp1, 4gb de ram e core i3. Com um monte de coisa rodando. Gerei o arquivo no formato sqlite e ficou perfeito as informações. Se alguém tiver tendo dificuldade para baixar posso colocar os arquivos no drive.

Seria ótimo! Pode disponibilizar por favor?

from cnpj-full.

cfsobral avatar cfsobral commented on July 21, 2024

Boa noite.

Para informar a voces. O codigo rodou perfeitamente para gerar os files: empresas.csv, socios.csv e cnae_secundarios.csv. Porem não rodou os python3 separar_csv_por_uf.py & python3 separar_csv_por_cidade.py. O erros que aparecem sao os mesmo, como segue abaixo:

Traceback (most recent call last):
File "/Volumes/Data/Master/separar_csv_por_cidade.py", line 9, in
with codecs.open(location + file,'r+','utf-8') as empresas:
TypeError: unsupported operand type(s) for +: 'NoneType' and 'str'

Seguinte, estou usando sistema UNIX. Se alguem tiver alguma informacao de como extrair as cidades e UF, agradeço. Mas agradeço tambem porque o Job rodou perfeitamente gerando os csv's. Obrigado.

from cnpj-full.

rictom avatar rictom commented on July 21, 2024

Acho que a variável location não foi definida, provavelmente porque vc não especificou no ambiente, a linha 5
location = os.getenv('FILES_LOCATION')
Eu sugiro vc botar alguma coisa como
location = ''
ou
location = caminho para a pasta

from cnpj-full.

Related Issues (20)

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.