Download Our Reports

Before downloading a report, please tell
us a few things about yourself.

We will never share your information with anyone.
Thank you! Your submission has been received!
Oops! Something went wrong while submitting the form.

Data Science Survey

A Rexer Analytics, parceira DATAFY no Brasil, concebeu e iniciou a pesquisa “Data Science Survey” em 2007. As nove pesquisas realizadas entre 2007 e 2020 examinam os comportamentos, visões e preferências analíticas de profissionais de ciência de dados. Utilizamos um conjunto pequeno e consistente de perguntas que possibilitam o acompanhamento de tendências ao longo dos anos. Também incorporamos novas perguntas a cada pesquisa para explorar tópicos emergentes. Agradecemos ao grande número de pessoas que sugeriram perguntas – muitas foram incorporadas às pesquisas. Pedimos a gentileza de enviar suas ideias e feedback sobre esta pesquisa através do nosso formulário de CONTATO, ou pelo email DataScienceSurvey@RexerAnalytics.com. Os links para download dos relatórios com os resultados de pesquisas anteriores podem ser encontrados abaixo (disponíveis em inglês).

Pesquisa 2020 - Participe agora!

A pesquisa Data Science Survey 2020 está aberta. Todos os profissionais de analytics estão convidados(as) a participar. A pesquisa está em inglês e as respostas devem ser fornecidas em inglês. Utilize o código ZVWX7.
2020 data science survey
Destaques:

  • CONFIDENCIALIDADE:  Todas as respostas são totalmente confidenciais; informações fornecidas nesta pesquisa não serão compartilhadas fora da Rexer Analytics de forma que identifique qualquer indivíduo. Todos os resultados da pesquisa serão apresentados de forma agregada e quaisquer trechos de respostas por extenso serão devidamente anonimizados.
  • RESULTADOS DA PESQUISA: Relatórios com os resultados das pesquisas de 2007 a 2017 estão disponíveis para download GRÁTIS nos links abaixo. Destaques preliminares dos resultados da pesquisa 2020 serão apresentados na conferência Predictive Analytics World (evento online). O relatório completo será disponibilizado para download gratuitamente neste site no final de 2020. Caso queira receber um resumo do relatório por email, há um campo ao final da pesquisa para você informar seu email.
  • PERGUNTAS:  Favor entrar em contato (DataScienceSurvey@RexerAnalytics.com) caso você tenha qualquer pergunta sobre esta pesquisa. Também queremos ouvir suas ideias sobre perguntas para podermos incorporar às pesquisas Data Science Survey futuras.
  • PARTICIPE:  Se você é um(a) profissional de analytics, pedimos gentilmente que você participe da pesquisa este ano. Informe seus colegas de analytics sobre a pesquisa. Ela leva cerca de 20 minutos para ser concluída. Favor utilizar o código de acesso ZVWX7. Muito obrigado.

Pesquisa 2017

1.123 profissionais de analytics de 91 países participaram da pesquisa de 2017
2017 data science survey
Destaques:

  • TREINAMENTO EM ANALYTICS: A maioria dos participantes acredita que treinamento formal em analytics é necessário para modelar dados corretamente. Muitos relataram ter testemunhado problemas entre membros da equipe sem treinamento.
  • AMPLA UTILIZAÇÃO DE R E PYTHON:  A maioria dos cientistas de dados utiliza várias ferramentas, sendo R e Python as mais utilizadas. A combinação predileta de ferramentas varia entre pessoas trabalhando em diferentes ambientes (corporativo, consultoria, acadêmico e ONG / governo).
  • FERRAMENTAS DE ANALYTICS “FAÇA VOCÊ MESMO”:  Um terço dos participantes notaram dificuldades quando pessoas de fora da equipe de data science da empresa usaram ferramentas de analytics “faça você mesmo”.
  • DEEP LEARNING: Existe adoção crescente de Deep Learning. No entanto, apenas uma pequena parte de profissionais de analytics utiliza essa tecnologia ainda. Participantes relataram sucesso particularmente na utilização de Deep Learning para tarefas de análise de imagem.
  • HABILIDADES MAIS IMPORTANTES: Os participantes disseram que as habilidades / conhecimentos mais importantes na profissão de data science não são programação e nem conhecimento em algoritmos. Os itens mais importantes são: 1) Habilidades em preparação e gestão de dados; 2) Conhecimento na área de aplicação; e 3) Conhecimento ou experiência geral de negócio.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, áreas em que cientistas de dados estão trabalhando, níveis de satisfação e mais.

Pesquisa 2015

1.220 profissionais de analytics de 72 países participaram da pesquisa de 2015
Destaques:
  • TRÍADE DE ALGORITMOS:  regressão, árvores de decisão, e análise de clusters seguem sendo os algoritmos mais utilizados.
  • A ASCENSÃO DE R:  76% dos participantes relataram utilizar R. Um crescimento expressivo comparado a apenas 23% em 2007. Mais de um terço dos participantes (36%) elegeram R como sua ferramenta primária.
  • SATISFAÇÃO PROFISSIONAL: Satisfação professional na área segue alta, mas recuou em relação à pesquisa de 2013. Uma série de fatores predizem níveis de satisfação professional de um cientista de dados.
  • EXECUÇÃO:  A execução continua sendo um desafio para as organizações, sendo que menos de dois terços dos participantes indicaram que seus modelos são executados na maioria das vezes ou sempre. Conquistar apoio organizacional é a maior barreira para a execução, onde scoring em tempo real e outras questões de tecnologia também causam sérios problemas na execução.
  • HABILIDADES MAIS IMPORTANTES: Os participantes disseram que as habilidades / conhecimentos mais importantes na profissão de data science não são programação e nem conhecimento em algoritmos. Os itens mais importantes são: 1) Habilidades em preparação e gestão de dados; 2) Conhecimento na área de aplicação; e 3) Conhecimento ou experiência geral de negócio.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, áreas em que cientistas de dados estão trabalhando, níveis de satisfação e mais.

Pesquisa 2013

1.259 profissionais de analytics de 75 países participaram da pesquisa de 2013.
Destaques:

  • FOCO EM CRM: Nos últimos anos, houve um aumento de profissionais de data mining na já relevante área de analytics sobre consumidores. Participantes estão buscando uma melhor compreensão sobre consumidores e formas de melhorar a experiência do consumidor. Isso pode ser observado em seus objetivos, análises, empreitadas em big data e no foco em mineração de texto.
  • BIG DATA: Muitos profissionais na área estão falando sobre o fenômeno do Big Data. Claramente, há algumas áreas em que o volume e fontes de dados cresceram. No entanto, ainda não está claro o nível de impacto do Big Data sobre o profissional de data mining médio. Enquanto data miners acreditam que o tamanho de suas bases de dados cresceu no ultimo ano, dados de pesquisas de anos anteriores indicam tamanho consistente de base de dados ao longo do tempo.
  • THE ASCENSÃO DE R: A proporção de profissionais de data mining utilizando R está crescendo rapidamente e, desde 2010, R tem sido a ferramenta mais utilizada em data mining. Enquanto R é normalmente utilizada em conjunto com outras ferramentas, um número crescente de data miners também elege R como sua ferramenta primária.
  • DESAFIOS NO USO DE ANALYTICS: Data miners continuam reportando desafios em cada nível do processo analítico. Normalmente, empresas não estão utilizando todo o potencial de analytics e frequentemente se deparam com problemas na execução e na mensuração de desempenho.
  • ENGAJAMENTO & SATISFACTION PROFISSIONAL: Os profissionais de data mining que participaram de nossa pesquisa são muito engajados na comunidade de analytics, seja consumindo ou produzindo conteúdo, participando de competições e buscando educação e crescimento profissional. Todas essas atividades geram altos níveis de satisfação profissional, algo que vem crescendo ao longo do tempo.
  • SOFTWARE ANALÍTICO:  Data miners representam um grupo diverso em busca de coisas diferentes em suas ferramentas de data mining. Facilidade na utilização e custo são duas dimensões de destaque.
    Pacotes de software variam em termos de vantagens e funcionalidades. STATISTICA, KNIME, SAS JMP e IBM SPSS Modeler todos foram avaliados com altos níveis de satisfação.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, ambientes de computação, mineração de texto e mais.

Pesquisa 2011

1.319 profissionais de analytics de 60 países participaram da pesquisa de 2011.
Destaques:

  • ÁREAS & OBJETIVOS: Profissionais de data mining trabalham em diversas áreas.
    CRM / Marketing tem sido a primeira colocada nos últimos cinco anos. Consequentemente, “melhorar o entendimento sobre consumidores”, “retenção de consumidores” e outros objetivos de CRM seguem sendo os objetivos da maioria dos data miners participantes da pesquisa.
  • MINERAÇÃO DE TEXTO: Um terço dos profissionais de data mining atualmente relatam utilizar mineração de texto e outro terço tem plano de utilizá-la no futuro. A aplicação mais frequente de mineração de texto é a análise de pesquisas com consumidores e blogs/redes sociais.
  • FERRAMENTAS:  R seguiu crescendo este ano e agora está sendo utilizado por quase metade de todos os profissionais de data mining (47%). Usuários de R dizem preferir essa linguagem por ser grátis, open source e por suportar uma grande variedade de algoritmos. Muitas pessoas também citaram a flexibilidade de R e a força da sua comunidade de usuários. Na pesquisa de 2011, pedimos aos usuários de R que falassem um pouco mais sobre como utilizam R. Leia (em inglês) os comentários dos usuários R sobre as razões para utilizar R (pros), os contras, porque selecionam a interface R, e como eles utilizam R em conjunto com outras ferramentas. STATISTICA foi eleita a ferramenta primária de data mining pela maioria dos data miners (17%). STATISTICA, KNIME, Rapid Miner e Salford Systems foram as ferramentas que receberam as maiores taxas de satisfação.
  • VISUALIZAÇÃO:  Data miners frequentemente utilizam técnicas de visualização de dados. Mais de 4 a cada 5 as utilizam para explicar resultados para os outros. MS Office é a ferramenta mais utilizada para visualização de dados. Visualização de dados é menos frequente na região Ásia-Pacifico.
  • CAPACIDADE EM ANALYTICS & SUCESSO:  Apenas 12% dos participantes trabalhando em corporações julgam que suas empresas possuem um grau de sofisticação muito alto em analytics. No entanto, empresas com maior capacidade em analytics estão superando o desempenho de seus pares de mercado. Participantes relataram medir o sucesso em analytics via Retorno Sobre o Investimento (ROI) e avaliar a validade ou precisão preditiva de seus modelos. Desafios para mensurar o sucesso em analytics incluem cooperação do cliente ou usuário e disponibilidade / qualidade dos dados. Leia (em inglês) as melhores práticas em mensuração de sucesso em analytics compartilhadas por data miners.
  • FUTURO OTIMISTA: Profissionais de data mining estão otimistas sobre a adoção crescente de data mining e de seus impactos positivos. Participantes indicaram que é necessário cuidado com a proteção da privacidade na condução de data mining. Eles também compartilharam vários exemplos de impacto positive que eles percebem em benefício da sociedade. Avanços na área médica / saúde foram os mais citados. Veja a lista complete de exemplos de impactos positivos identificados pelos data miners na pesquisa de 2011.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, as áreas de aplicação de analytics, mineração de texto, ambientes computacionais, ferramentas de visualização de dados, satisfação profissional e mais.

Pesquisa 2010

735 profissionais de analytics de 60 países participaram da pesquisa de 2010.
Destaques:
  • ÁREAS & OBJETIVOS: Profissionais de data mining trabalham em diversas áreas.
    CRM / Marketing tem sido a primeira colocada nos últimos quatro anos. Consequentemente, “melhorar o entendimento sobre consumidores”, “retenção de consumidores” e outros objetivos de CRM seguem sendo os objetivos da maioria dos data miners participantes da pesquisa.
  • MODELOS: Cerca de um terço dos profissionais de data mining costumam construir modelos com 10 ou menos variáveis, enquanto 28% normalmente desenvolvem modelos com mais de 45 variáveis.
  • FERRAMENTAS: Após crescimento contínuo nos últimos anos, o R, software open source de data mining, ultrapassou outras ferramentas para se tornar aquela utilizada por mais data miners (43%) do que qualquer outra. STATISTICA, que também vem galgando posições no ranking, foi eleita como a ferramenta primária pelo maior número de data miners (18%). STATISTICA, IBM SPSS Modeler, e R tiveram as maiores taxas de satisfação tanto em 2010 como em 2009.
  • TECNOLOGIA:  Data Mining é utilizado mais frequentemente em um desktop ou laptop, e os dados costumam ser armazenados localmente. Scoring de modelos normalmente é rodado utilizando o mesmo software utilizado para desenvolver modelos. Usuários STATISTICA estão mais propensos que os de outros softwares a executar modelos utilizando PMML.
  • DESAFIOS: Como nos anos anteriores, dados “sujos”, explicar data mining para os outros e dificuldades no acesso aos dados, são os principais desafios encontrados por data miners. Este ano, eles também compartilharam suas melhores práticas para encarar estes desafios. Leia (em inglês) sobre suas experiências na superação destes desafios.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, prioridades na seleção de ferramentas, qualidade de dados, execução de modelos, tendências futuras e mais.

Pesquisa 2009

710 profissionais de analytics de 58 países participaram da pesquisa de 2009.
Highlights:
  • ALGORITMOS: Como nos anos anteriores, os algoritmos mais utilizados por data miners são regressão, árvores de decisão e análise de clusters.
  • IMPORTÂNCIA ORGANIZACIONAL: Metade dos data miners afirmam que seus resultados estão ajudando na execução de decisões estratégicas e de processos operacionais. 58% afirmam estar agregando conhecimento à área de aplicação.
  • IMPACTO DA ECONOMIA:  A maioria dos profissionais de data mining sentem que a economia não lhes causará qualquer impacto negativo.
  • DESAFIOS:  Os principais desafios dos data miners são dados “sujos”, explicar data mining para os outros e dificuldade no acesso a dados. No entanto, em 2009, menos data miners elencaram qualidade de dados e acesso a dados como desafios do que no ano anterior.  
  • FERRAMENTAS: IBM SPSS Modeler (SPSS Clementine), STATISTICA e IBM SPSS Statistics (SPSS Statistics) são apontados como as “ferramentas primárias” utilizadas por profissionais de data mining. As ferramentas open source Weka e R subiram substancialmente no ranking de ferramentas de data mining este ano, e agora são utilizadas em grande escala por data miners tanto na academia como em organizações com fins lucrativos. Usuários do IBM SPSS Modeler, STATISTICA e Rapid Miner são os mais satisfeitos com seus softwares.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, as áreas de aplicação de analytics, capacidade em analytics das corporações, desafios analíticos, pontos de atenção, mensuração do sucesso em analytics e mais.

Pesquisa 2008

348 profissionais de analytics de 44 países participaram da pesquisa de 2008.
Destaques:
  • ENFRENTANDO DESAFIOS:  Dados “sujos”, problemas de acesso a dados e explicar data mining para os outros seguem sendo os principais desafios de profissionais de data mining. Data miners tendem a usar mais estatísticas descritivas, detecção de outliers e validação aparente para identificar / resolver dados “sujos”.
  • ALOCAÇÃO DE TEMPO:  Data miners aplicam apenas 20% de seu tempo em modelagem propriamente. Mais de um terço do tempo é gasto acessando e preparando dados.
  • PONTOS DE ATENÇÃO: Os pontos de atenção mais comuns sobre a utilização de data mining são: resistência para utilizar data mining em contextos em que seria benéfico, falta de treino de alguns data miners e falta de calibragem dos modelos.
  • FERRAMENTAS: SPSS Clementine foi identificado como o software primário utilizado por mais data miners que qualquer outro software. SPSS e SAS continuam dominando o mercado de software. No entanto, a utilização de produtos da STATISTICA, R, e Salford cresceu este ano. Ao selecionar seu software de analytics, data miners valorizam bastante a confiabilidade, a capacidade de processamento de bases de dados gigantescas e a qualidade dos resultados.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, prioridades na seleção de ferramentas, alocação de tempo entre tarefas de analytics, desafios em analytics, qualidade de dados e mais.

Pesquisa 2007

314 profissionais de analytics de 35 países participaram da pesquisa de 2007.
Destaques:
  • ALGORITMOS:  Regressão, árvores de decisão e análise de clusters foram os algoritmos mais frequentemente utilizados (número médio de algoritmos utilizados: 6,8).
  • DESAFIOS:  Os principais desafios reportados por profissionais de data mining foram dados “sujos”, acesso aos dados, e explicar data mining para os outros.
  • FERRAMENTAS: SPSS, SPSS Clementine e SAS são as três ferramentas mais frequentemente utilizadas (número médio de ferramentas utilizadas 4,5). Há interesse crescente pela ferramenta Oracle Data Mining e interesse decrescente por C4.5/C5.0/See5. Os principais fatores considerados por data miners ao selecionar uma ferramenta de analytics são: 1) a confiabilidade e estabilidade do software; 2) a capacidade de processar grandes bases de dados; e 3) capacidade de manipulação de dados.
O relatório completo inclui material adicional sobre a utilização de algoritmos e softwares, prioridades na seleção de ferramentas, alocação de tempo entre tarefas em analytics, desafios em analytics, qualidade de dados e mais.
"Rexer Analytics’ series of Data Science Surveys is a foundational contribution to this industry’s community.  If you have the opportunity to work with Karl’s firm, nab it!"

Eric Siegel, PhD
Author of “Predictive Analytics: The Power to Predict Who Will Click, Buy, Lie, or Die”
Founder - Predictive Analytics World
Executive Editor - Predictive Analytic Times
"Rexer Analytics has been instrumental in helping advance the field of data mining through applied research, software evaluation, testing, professional conference support and consulting.  Their research evaluating the trends and preferences among the data mining community is a great resource for many."

Wayne Thompson, PhD
Chief Data Scientist - SAS
"I consider Rexer Analytics’ surveys one of the best independent analyses of Data Mining.  I stress the word ‘independent’ as that is the most useful.  Karl and his team have been active in this market for many years and bring considerable experience to the topic."

John MacGregor
Vice President, Customer Innovation & Strategic Projects, Products & Innovation - SAP
Author of “Predictive Analysis with SAP: The Comprehensive Guide”
"The Data Science Survey is one of the few unbiased resources that provides a comprehensive overview of the data science community.  It is a key source of information for analytic professionals regarding vendors, tools, and state-of-the-art algorithms.  As a frequently cited publication, it covers essential topics, new trends like “big data”, as a well as general market surveillance."

Michael Zeller,
PhDCEO - Zementis
"Rexer Analytics’ Data Mining Survey is a comprehensive and accurate assessment of the industry’s attitudes, performance, and trends.  There’s no better place to get a firm grip on the direction of this rapidly growing field."

Eric A. King
President - The Modeling Agency, LLC
"The Rexer Analytics surveys are extremely useful.  They provide industry benchmarks, keep us abreast of new trends, and surprise us with new insights."

Julia Minkowski
Risk Analytics Manager - Fiserv
Co-founder - "Russian Speaking Women in Tech"
"The Rexer Analytics team is doing great work in analytics and data mining.  Their Data Miner Survey reports are always full of useful insights."

Gregory Piatetsky-Shapiro, PhD
President - KDnuggets
Co-founder - KDD conference & ACM SIGKDD
Author of “Knowledge Discovery in Databases”
"It might not be without anxiety that we await, every other year, the results of the Rexer Analytics Data Mining Survey; but that anxiety tells you exactly that this survey is an essential snapshot of this increasingly critical and competitive market!"

Director of Analytic Strategy & Decision Management
- US Fortune 100 technology firm
"The field of data science is moving very rapidly.  As the manager of an academic research support team, it’s critically important for us to know where the field is headed.  That’s why we carefully study the reports from Gartner, Forrester, and Rexer Analytics.  We have studied the Rexer Analytics reports for many years to learn what tools are on top, but more importantly, whose market share is headed up or down.  The Rexer surveys are a key component for our published ‘The Popularity of Data Analysis Software’ analyses."

Bob Muenchen
Manager, Research Computing Support - University of Tennessee
Author of “R for SAS and SPSS Users” and “R for Stata Users”
"Every year, I look forward to reading the data mining survey from Rexer Analytics."

Michael Berry
Analytics Director - TripAdvisor for Business
Author of “Data Mining Techniques"
"The Rexer Analytics Data Miner Surveys outline the ‘State of the Art’ for our emerging industry.  Their interaction with clients, practitioners, academicians, consultants, businesses, professional societies and software vendors inform these surveys and place them in a perfect position to collect un-biased ‘independent’ evaluations regarding software choices as well as the best practices and challenges practitioners face.  Their market intelligence is highly valued in our profession."

Mary Grace Crissey
Research Analyst - Analytic Focus, LLC
Council Member, CPMS - The Practice Section of INFORMS
"We believe in a fact-based approach to technology adoption.  So we rely on the Data Miner Surveys from Rexer Analytics to help our clients understand analytic technology adoption trends and issues.  Rexer’s survey reports are an invaluable resource."

Dan Vlamis
President - Vlamis Software Solutions
Author of “Data Visualization for Oracle Business Intelligence 11g”
"As an instructor of courses in a rapidly changing field – business analytics – and as concentration advisor to the undergraduate and graduate students in business analytics at Babson, it is of paramount importance for me to keep up with trends in analytics software, techniques and applications. The bi-annual Rexer Analytics Data Miner Surveys have been a great source of information on global trends in analytics, and have allowed me and my colleagues to teach Babson students skills, tools and techniques that can position them better in the marketplace."

Dessislava A. Pachamanova, PhD
Professor of Analytics and Computational Finance - Babson College
Co-designer of the Babson undergraduate and MBA concentrations in Business Analytics
Author of “Portfolio Construction and Analytics”, and “Simulation and Optimization in Finance”
"As the longest-running survey of data miners in the industry, the Rexer Analytics survey provides valuable insights and trends into the tools, methods and applications of advanced analytical techniques today."

David M. Smith
R Community Lead - Microsoft
"Over the years, Rexer Analytics' Data Miner Surveys have provided useful macro information about the dynamic and growing field now known my many more names than data mining."

Anne Milley
Director Analytic Strategy, JMP Product Marketing - SAS
"The Rexer Analytics Data Miner Survey is the best survey of the current state and direction of the data mining and predictive analytics industry.  I recommend it to my workshop and course attendees regularly as a way to understand the important trends in software, algorithms, job titles, and vertical markets, as well as issues impacting the analytics industry and which buzz words are gaining traction."

Dean Abbott
Co-Founder & Chief Data Scientist - SmarterHQ
Founder & President - Abbott Analytics
Author of “Applied Predictive Analytics: Principles and Techniques for the Professional Data Analyst”
and “IBM SPSS Modeler Cookbook”
"The Rexer Analytics Data Mining Survey provides valuable insight into trends in tools and techniques, as well as backgrounds of data mining practitioners.  Rexer's analysis of the survey data dives into hype or reality of big data, the rise of analytics software like R, as well as challenges faced by analysts and their job satisfaction.  I look forward to each survey's results and increasingly see these results highlighted in presentations from other well-respected experts in the field."

Mark HornickDirector, Oracle Advanced Analytics, Oracle Corporation
Author of “Using R to Unlock the Value of Big Data: Big Data Analytics with Oracle R Enterprise and Oracle R Connector for Hadoop”