Dataverse:Dados Grandes
Submeter grande arquivos
Definindo o limite para super arquivos tabulares
2Giga
curl -X PUT -d 2000000000 http://localhost:8080/api/admin/settings/:TabularIngestSizeLimit
Esgotamento de recursos
Trabalhos de ingestão de longa duração esgotaram os recursos do sistema A ingestão faz uso intensivo da CPU e da memória e, dependendo dos recursos do sistema e do tamanho e formato dos arquivos de dados tabulares carregados, pode tornar a instalação do Dataverse sem resposta ou quase inoperante. É possível cancelar esses trabalhos limpando a fila de entrada.
/usr/local/payara5/mq/bin/imqcmd -u admin query dst -t q -n DataverseIngestconsultará o destino do DataverseIngest. A senha, a menos que você a tenha alterado, corresponde ao nome de usuário.
/usr/local/payara5/mq/bin/imqcmd -u admin purge dst -t q -n DataverseIngest irá limpar a fila do DataverseIngest e solicitar sua confirmação.
Por fim, liste os destinos para verificar se a limpeza foi bem-sucedida:
``/usr/local/payara5/mq/bin/imqcmd -u admin list dst``
Se você ainda estiver executando o Glassfish, substitua glassfish4 por payara5 acima. Se você instalou a instalação do Dataverse em algum outro local, ajuste os caminhos acima de acordo.
Problemas com arquivos grande na Nuvem (S3)
Confira o tópico em https://groups.google.com/g/dataverse-community/c/yXDpdg-thqw/m/XBh8AAg2AwAJ
Várias soluções alternativas são descritas, mas vou colar abaixo a solução alternativa "arquivo de espaço reservado" que usamos no Harvard Dataverse. Estamos usando o S3, mas você pode fazer o mesmo com o armazenamento do sistema de arquivos.
Usamos um processo manual que envolve o upload de um arquivo de espaço reservado e a substituição pelo arquivo real. Algo assim:
- Carregue um pequeno arquivo de espaço reservado
- Procure as informações do arquivo de espaço reservado no db
- Carregue diretamente o arquivo grande para uma máquina front-end
- Use o utilitário de linha de comando amazon para copiar um arquivo grande para o local onde o arquivo de espaço reservado está
- Atualize as informações do banco de dados (md5, tipo de conteúdo, tamanho do arquivo) para corresponder a um arquivo grande