Engenharia Ensaios em Engenharia, Ciência e Sustentabilidade

24/09/2019 | domtotal.com

Data Science: sobre o cientista de dados!

O objetivo final é que um cientista de dados seja alguém capaz de extrair conhecimento de dados desorganizados e os transforme em conhecimento útil para organização.

De maneira geral, não existe uma regra sobre quais habilidades um aspirante a cientista de dados deve possuir. O que existe é um consenso sobre quais seriam as principais habilidades.
De maneira geral, não existe uma regra sobre quais habilidades um aspirante a cientista de dados deve possuir. O que existe é um consenso sobre quais seriam as principais habilidades.

Por Gilmar Rosa*

Os cientistas de dados buscam utilizar, de modo eficiente, ferramentas estatísticas e computacionais para auxiliar no processo de extração de conhecimentos a partir de dados, auxiliando, principalmente, a tomada de decisões. Eles recebem uma enorme massa de dados desorganizados (estruturados e não estruturados) e usam suas habilidades em matemática, estatística e programação, para tratar e organizá-los.

Diz-se que um cientista de dados é alguém que sabe mais sobre estatística do que um cientista da computação e mais sobre ciência da computação do que um estatístico. Na verdade, alguns cientistas de dados são – para todos os propósitos práticos – estatísticos, enquanto outros são quase indistinguíveis dos cientistas da computação. O objetivo final é que um cientista de dados seja alguém capaz de extrair conhecimento de dados desorganizados e os transforme em conhecimento útil para organização, de forma a dar suporte ao processo de tomada de decisão.

O Facebook pede que você adicione sua cidade natal e sua localização atual, supostamente para facilitar que seus amigos o encontrem e se conectem com você. Porém, ele também analisa essas localizações para identificar padrões de migração global e onde vivem os fã-clubes dos times de futebol . Joel Grus,(2016).

Algumas linguagens de programação se tornaram ícones em Ciência de Dados, como Python e R, por diversas razões: são gratuitas, contam com uma comunidade ativa e crescente, já atravessaram o período de maturação, são amplamente utilizadas, tanto no meio acadêmico quanto no meio empresarial e se especializaram em Data Science.

Linguagem R – Linguagem estatística, que existe há mais de 30 anos. Sua capacidade de processar estatísticas de grandes volumes de dados e criar gráficos sofisticados, fizeram com que gigantes do mercado de tecnologia, como Oracle e Microsoft, adotassem R como linguagem padrão para análises estatísticas.

Um dos problemas mais comuns que as pessoas enfrentam em aprender R é a falta de um guia. As pessoas não sabem, por onde começar, como proceder e nem que caminho seguir. Há uma sobrecarga de bons recursos gratuitos disponíveis na Internet e isso torna o caminho de aprendizado muito mais tortuoso. Casati (2009).

Python – É uma linguagem de uso geral, que tem recebido nos últimos anos mais e mais módulos e pacotes para Data Science como Pandas, Matplotlib, Scikit-Learn, Stats Models e TensorFlow. Python é mais fácil de aprender em comparação a outras linguagens, tem uma comunidade ativa, muita documentação disponível (inclusive em português) e pode ser usada para outras atividades além de Data Science.

Por exemplo: a plataforma de Aprendizado de Máquina da Microsoft (Microsoft Azure Machine Learning), possui uma série de módulos Python e R, prontos para uso. O conhecimento de pelo menos uma destas linguagens é fundamental.

Hoje em dia, Python é a linguagem mais usada em Data Science, e também a mais procurada por empregadores das empresas. Acredite, estude Python!

Com relação a formação deste profissional ainda não é algo comum um curso de graduação em Ciência de Dados. Há um ofertado pela Fundação Getúlio Vargas (FGV-RJ) e outro do Centro Universitário Iesb/DF. Em 2020, a Universidade de São Paulo (USP) vai inaugurar uma graduação na área, denominado Estatística e Ciência de Dados.  Em nível de pós-graduação é comum, especializações, mestrados e doutorados na área, e em uma pesquisa rápida na internet, é possível identificar vários grupos de pesquisa ligado ao tema.

Para suprir a deficiência desse profissional em nível de graduação algumas instituições de nível superior estão dando mais ênfase em disciplinas que objetivam a análise de dados tais como: Álgebra linear, Estatística Descritiva, Probabilidade, Análise Multivariada, Inteligência Artificial, Mineração de Dados, Big Data, Séries Temporais, Modelagem Estocástica, Banco de Dados, Banco de Dados Geográfico, Otimização etc. Percebe-se claramente que são disciplinas intimamente ligadas à Ciência da Computação e à Matemática e Estatística.

De maneira geral, não existe uma regra sobre quais habilidades um aspirante a cientista de dados deve possuir. O que existe é um consenso sobre quais seriam as principais habilidades.  Saber programar, entender conceitos matemáticos, compreender os principais modelos estatísticos, e pensar com criatividade, são as características que vão te destacar daqueles que só sabem usar códigos prontos.

Data Science é um novo tema em exploração, mergulhe nessa onda!!!

*Professor Doutor do Curso de Ciência da Computação da EMGE. Laboratório de Computação e Métodos Quantitativos (LCMQ).

TAGS


EMGE

*O DomTotal é mantido pela Escola de Engenharia de Minas Gerais (EMGE). Engenharia Civil conceito máximo no MEC.
Saiba mais!

Comentários


Outros Artigos

Não há outras notícias com as tags relacionadas.

Instituições Conveniadas