
Data Science
Data Science, ou ciência de dados, é, em uma definição mais focada, o estudo disciplinado dos dados e informações não focados, ou seja, os dados gerados na nossa era digital.
O objetivo é gerar insights e indicar caminhos a partir das análises realizadas.
O profissional de Data Science, o cientista de dados, viu um grande crescimento na demanda por seus conhecimentos, sobretudo mais recentemente. Algo em torno de 90% dos dados armazenados na web foram gerados nos últimos dois anos, segundo um estudo da BSA | The Software Alliance (www.bsa.org).
Com esse grande e complexo volume de dados circulando, e com o grande potencial que eles possuem, é mais do que essencial a presença e o background do cientista de dados.
erá que a Ciência de Dados é mesmo uma ciência?
A resposta curta para essa pergunta é: SIM!
Ciência de Dados é uma ciência, mais ou menos como Ciência da Computação é uma ciência, ou Ciências Econômicas são ciência. Agora, o que se chama de Cientista de Dados por ai geralmente é uma pessoa que trabalha para uma empresa, em um escritório. Esses profissionais estão mais para engenheiros de dados, do que cientistas.
Mas é possível fazer Ciência de Dados dentro do laboratório, ou em um instituto de pesquisa. Um exemplo disso é o Cappra Institute, do Ricardo Cappra. Eles formam uma equipe de pesquisa mesmo, trabalhando com método científico, investigação, estudo de hipóteses. O que torna o Cientista de Dados, realmente um cientista.
Vamos aprofundar um pouco mais a discussão então?
Críticas sobre a Ciência de Dados enquanto Ciência
Existe muita crítica em cima dessa questão, alegando que Data Science então, não seria uma ciência de verdade. Falando nisso, tem um artigo excelente nesse assunto no site Towards Data Science.
O artigo menciona 4 críticas comuns a ciência de dados, e vou citar aqui uma delas, a que eu acho fundamental para essa análise:
“Data Science pode encontrar qualquer coisa em um conjunto muito grande de dados. Formando subgrupos e criando novas variáveis, qualquer coisa pode ser ‘provada’.”
Essa frase pode ser interpretada tanto para o bem quanto para o mau.
De maneira positiva, significa que a verdade está nos dados, mas é preciso procurar fundo para encontrar boas respostas.
E de maneira negativa, qualquer coisa pode ser provada, mesmo que seja mentira, fazendo análises tendenciosas, ou forçando a barra para encontrar a resposta que se procura, seja ela verdadeira ou não.
Sendo assim, gostaria de deixar aqui outra definição para Ciência de Dados, mas incentivo vocês à buscarem outras mais, antes de definir o que é Data Science para você.
Eu tenho uma definição pessoal do que é Data Science, que fui construindo e evoluindo conforme avançava nos estudos do tema. A definição está a seguir, e fiquem à vontade para usar e compartilhar:
Data Science é uma abordagem multidisciplinar para a obtenção e análise de dados, geração de insights e suporte para tomada de melhores decisões. Sejam elas tomadas por pessoas ou máquinas.
Vamos para um exemplo prático então? Queria compartilhar com vocês um case da Netflix:
A Netflix tem um dos Sistemas de Recomendação mais avançados do mundo (possivelmente o mais avançado).
Para fazer as recomendações de filmes e séries, a Netflix divide os usuários em clusters (grupos), usando Machine Learning. Ou seja, baseado no que os usuários assistem, eles são organizados em grupos de preferência: quem gosta de séries dramáticas, filme de comédia, documentários e por vai. E as recomendações que aparecem na tela de cada usuário variam de acordo com as preferências individuais e do grupo de preferências que a pessoa faz parte.
Isso tudo é decidido por algoritmos e por aproximação. Nem todo mundo dentro do cluster de fãs de filmes de comédia, por exemplo, assistiram os mesmos filmes. E eles não assistiram só comédia. Mas os algoritmos da Netflix estão processando esses dados de uso a todo momento e identificando novos padrões entre os usuários.
A empresa faz isso porque sabe que as pessoas têm dificuldade de escolher o que vão assistir, e gostam de receber boas recomendações. E usuários que assistem mais, cancelam menos. Por isso esse esforço monumental no Sistema de Recomendação.
E o que podemos então, concluir disso tudo?
A área de Data Science é muito recente. Apesar de já possuir muitas aplicações práticas, ela precisa de tempo para atingir a sua maturidade.
Sobre a carreira de Cientista de Dados, ela foi considerada pela Harvard Business Review a mais “sexy” do século 21. É uma descrição curiosa, para dizer o mínimo.
Data Science é o estudo disciplinado dos dados e informações inerentes ao negócio e todas as visões que podem cercar um determinado assunto. É uma ciência que estuda as informações, seu processo de captura, transformação, geração e, posteriormente, análise de dados. A ciência de dados envolve diversas disciplinas:
Computação;
Estatística;
Matemática;
Conhecimento do Negócio.
Data Scientist ou Cientista de Dados
Já que definimos Data Science/Ciência de Dados, porquê não definirmos o profissional Cientista de Dados/Data Scientist?
O cientista de dados é um profissional multidisciplinar, responsável por realizar o processo citado no tópico Data Science acima. Ou seja, é responsável por transformar dados em informações ou produtos de informações dentro de uma corporação.
Além disso, ele também deve ser responsável pela formulação dos problemas, escolha de modelos de simulação e estatística e entrega dos produtos de dados.
Bom, agora que compreendemos um pouquinho o que é Data Science/Ciência de Dados e Data Scientist/Cientista de Dados, nos convém, agora, entender a diferença entre:
Data Scientist x Business Analyst x Data Analyst
Seguindo a mesma simplicidade na desmitificação do que é Data Science/Ciência de Dados e Data Scientist/Cientista, vamos definir os três itens que dão nome ao tópico. Vamos lá!
Data Scientist:
Participa da formulação do problema, hipóteses de resolução e análise de resultados.
Business Analyst:
Analisa os dados gerados em relação ao negócio ou empresa avaliada.
Data Analyst:
Analisa os dados disponibilizados em busca de solução para o problemas enfrentados.
Simples, não? Inicialmente podemos descrever o trio desta forma. E ‘caminhando’ adiante, chegamos até o Big Data. Mas o que é Big Data?
O que é Big Data
Big Data (“Mega dados” em português), em tecnologia da Informação, refere-se a um grande conjunto de dados armazenados. E pode-se basear em 5V’s: Velocidade, Volume, Variedade, Veracidade e Valor.
Big Data é um termo amplamente usado atualmente para nomear conjuntos de dados muito grande ou complexos, que os aplicativos de processamento de dados tradicionais não conseguem lidar. Para atuar com Big Data, deve-se compreender os desafios de se trabalhar na área, que incluem: Análise, Captura, Curadoria de Dados, Pesquisa, Compartilhamento, Armazenamento, Transferência, Visualizações e informações acerca da privacidade dos dados.
Quero trabalhar com Big Data
Para se trabalhar com Big Data, acredita-se que o melhor caminho é:
Conhecer as ferramentas utilizadas (que iremos abordar em outro artigo em breve);
Possuir perfil perfil misto: técnico e negócios;
Conhecer Business Inteligence e Data Warehouse;
Compreender os processos da empresa;
E conhecer estatística e matemática.
Podemos fracionar classificar os profissionais que atuam com Big Data em três perfis:
1. ANALISTA DE DADOS
ATRIBUIÇÕES E TAREFAS:
Responsável por atender as demandas das áreas de negócio ou planejamento da empresa;
Participa da formulação dos problemas e respostas;
Nível mais próximo ao negócio;
Deve conhecer as ferramentas de consulta e acesso aos dados;
Deveria conhecer estatística.
2. DESENVOLVEDOR
ATRIBUIÇÕES E TAREFAS:
Responsável por Desenvolver os processos necessários para geração dos dados;
Processos de Captura, Transformação e Carga de Dados;
Deve conhecer tecnicamente as ferramentas envolvidadas;
Deve conhecer sobre programação;
Será responsável pelo desenvolvimento de novas rotinas e processos.
3. ADMINISTRADOR
ATRIBUIÇÕES E TAREFAS:
Responsável por manter os ambientes e ferramentas funcionando da melhor maneira;
Deve conhecer sobre os sistemas operacionais utilizados, principalmente Linux;
Deve conhecer sobre arquitetura de hardware e redes para garantir a melhor performance;
Deve conhecer sobre os processos de Tunning das ferramentas.
O que é preciso saber para se trabalhar com Big Data?
Não tem muito segredo, abaixo você pode conferir pontos técnicos importantes para se trabalhar com Big Data.
Programação – as ferramentas ainda são pouco automatizadas na geração de código;
Sistema Operacional Linux – Diversos softwares rodam em Linux. É necessários conhecer comandos básicos para execução de processos;
Modelagem de Dados
Conhecer sobre o negócio ou sobre os processos da empresa;
Conhecer ou ter noções mínimas de estatística e matemática aplicada a dados.
Especializações/Cursos