Engenheiro de Dados (Spark / Hadoop) no PyJobs

Engenheiro de Dados (Spark / Hadoop)

Vaga Postada: 17 de Novembro de 2020

Big Data Architects Data Scientists ETL Hadoop MySQL PostgreSQL Python Spark
  • Empresa: Mais Retorno
  • Faixa salarial: R$ 6.000,01 a R$ 10.000,00
  • Estado: São Paulo
  • Local da vaga: São Paulo
  • Nível: Pleno
  • Aceita Remoto?: Sim
  • Tipo de contratação: A combinar

Descrição da vaga


A Mais Retorno é uma empresa dedicada à oferecer tecnologia e conteúdo de qualidade sobre investimentos no mercado financeiro para que os investidores tomem as melhores decisões sobre seu dinheiro.

Somos uma das fintechs que mais cresce no Brasil, instalados no Inovabra Habitat, um dos ambientes inovadores mais completos da cidade de São Paulo, localizado ao lado da estação Paulista de metrô.

Quem quiser conferir nosso site, basta acessar: https://maisretorno.com/ além disso, temos uma das mais completas plataformas de fundos de investimentos do Brasil, que vocês podem conhecer acessando esta página: https://maisretorno.com/melhores-fundos-investimentos


Engenheiro ETL que compreenda como funciona a extração, transformação e armazenamento dos dados hospedados na nuvem, capacidade de desenvolvimento, testes, validações e automatizações de soluções de ETL desde a origem até o destino. Experiência de trabalho com grandes volumes de dados (+bilhões de registros), garantindo: volumetria, velocidade, veracidade, valor e variedade provenientes de diversos datasources.

Requisitos



  • Dominar plataformas de Big Data como Hadoop e Spark

    • Instalação e configuração de um cluster Hadoop;

    • Criação de pipelines de transformação de dados usando Python com pyspark;

    • Manutenção de Datalake (HDFS ou Google Cloud Storage ou AWS S3) e Data warehouse (Hive ou outro qualquer em nuvem);

    • Criar processos para extração, transformação e carregamento de dados (ETL);



  • Conhecimento em Linux;

  • Experiência em banco de dados relacionais SQL (PostgreSQL, MySQL);

  • Saber programar em Python;

  • Conhecer e saber criar fluxo de processamento com Apache Airflow.


Desejável:



  • Conhecimento em Big Data: Hadoop, Spark, Scala, Hive, Impala;

  • Conhecimentos de containers utilizando Docker;

  • Conhecimentos básicos de ferramentas de Big Data em nuvem: Google Cloud Plataform, Azure ou AWS;

  • Conhecimentos em DevOps (preferência na AWS)

  • Noções em algoritmos de Machine Learning e conhecimento em algum framework como Scikit Learn ou Tensorflow ou Keras;

    • Noções em algum banco NoSQL: Hbase, MongoDB;