Entendendo Data Science, Data Analytics e Big Data
Publicados: 2022-09-11Data Science, Data Analytics e Big Data
APENAS OUTRO DIA
Seu alarme toca às 5h30 da manhã de terça-feira. Você escova os dentes e liga o gêiser. Então, enquanto espera o ferro aquecer, você verifica seus e-mails, mas a energia acaba. Você se contenta com uma camisa amassada. Porque café e torradas são difíceis de fazer sem energia para seu cônjuge, uma alteração de última hora no cardápio da manhã: flocos de milho e leite frio. Você decide pular a academia e ir direto para o chuveiro.
Você entra em seu carro e começa a viagem para o trabalho exatamente às 8h15, depois de um breve café da manhã e uma conversa apressada. No caminho, você se depara com um interminável congestionamento de tráfego sem saída. Uma conversa com um companheiro de viagem revela que há uma procissão em andamento e uma das pistas foi interrompida.
Quando outro comercial de uma nova casa de luxo vai ao ar no rádio, prometendo uma viagem de 15 minutos para o trabalho, você se pergunta o que aconteceu com os dias em que essa estrada estava deserta. Então você ouve uma música nova e quente de Bollywood e começa a cantarolar junto.
Finalmente, depois de uma hora e meia de trânsito agonizante, você chega ao trabalho bem na hora da reunião diária, mas está frustrado e cansado do longo trajeto.
LEIA TAMBÉM: 13 estratégias eficazes de SEO para implementar em 2021
COMO AS COISAS SÃO
Este é um dia normal na Índia para muitos trabalhadores de escritório. Eles se levantam, se vestem e vão para o trabalho. Eles tomam algumas decisões ao longo do caminho, mas na maioria das vezes seguem o fluxo. Eles geralmente são reativos e, lamentavelmente, estão preocupados apenas em passar o dia.
Não tem que ser assim, no entanto.
IMAGINA ISTO
É terça-feira de manhã e, em vez de 5h30, o alarme dispara às 5h10. Você ficou sabendo sobre as interrupções de energia planejadas e ajustou sua programação de acordo. Você liga o ferro e depois o gêiser assim que acorda. Enquanto você escova os dentes, seu cônjuge já começou a fazer rabanada na torradeira. Você pode sentir o cheiro da xícara de café quente esperando por você enquanto termina de passar a camisa.
A corrente desliga abruptamente sem aviso prévio. Você sorri enquanto sai pela porta para sua corrida matinal.
LEIA TAMBÉM |: Como fazer análise de concorrentes de SEO?
Você tem um maravilhoso café da manhã quente e café com uma discussão divertida após o treino e o banho. Você então se prepara e sai por volta das 8h30
Você faz uma rota um pouco mais longa, mas chega ao trabalho em menos de 40 minutos, o que lhe dá bastante tempo antes de sua reunião diária.
O QUE É DIFERENTE?
Você seguiu o fluxo no primeiro cenário. Você fez coisas porque era uma segunda natureza para você. Você estava contente com o status quo. Antes de planejar seu dia, você deixou de levar em conta inúmeras variáveis, como a falta de energia e o engarrafamento que fez com que você se atrasasse. Você usou uma técnica padrão para um cenário único e resultados padrão esperados.
No segundo cenário, você analisou os vários fatores que podem afetar sua rotina e ajustou seu horário de acordo. Como você estava ciente da falta de energia, você se levantou alguns minutos mais cedo do que o normal para ligar o gêiser e o ferro.
LEIA TAMBÉM: Inteligência artificial: uma abordagem moderna.
Seu cônjuge também ligou a torradeira e a máquina de café alguns minutos antes. Então, depois de levar em conta as condições de trânsito do dia, você optou por fazer uma rota diferente.
Você tem fatos dos quais você tirou conclusões. Você ajustou suas ações como resultado, e o resultado foi consideravelmente melhor. Você fez uso do poder da análise, mesmo que não intencionalmente.
Olá, e bem-vindo ao reino da ciência de dados.
O QUE É CIÊNCIA DE DADOS?
A ciência de dados refere-se à aplicação de ferramentas e técnicas de matemática, estatística, computadores e conhecimentos de domínio para a coleta, processamento, manipulação e interpretação de dados.

Em outras palavras, a ciência de dados é o processo de usar dados para resolver problemas. Abrange tudo, desde a coleta de dados até a obtenção de insights a partir das informações que você coletou.
APLICAÇÃO DA CIÊNCIA DE DADOS
Vamos dar uma olhada na narrativa que você acabou de ler.
Hipoteticamente, você evitou a repetição do cenário 1, utilizando informações coletadas de uma investigação de por que suas manhãs eram tão apressadas, a fim de otimizar seus dias e torná-los melhores e mais brilhantes.
Para começar, você deve se perguntar: “O que eu preciso para ter um dia fantástico?”
As seguintes variáveis provavelmente aparecerão na lista:
- Eletricidade
- Dorme
- Água quente
- Roupas
- Café da manhã
- Transporte
- Tráfego
Essa confluência de variáveis determina o tipo de dados que você precisará coletar, processar, podar e avaliar para obter informações sobre como melhorar sua rotina diária. A ciência de dados o ajudará a determinar a influência combinada de cada variável (ponto de dados).


DADOS OU 'BIG DATA'?
Analisamos sete critérios em nosso exemplo simples de rotina matinal. O conhecimento adquirido como resultado pode tornar seu dia muito melhor.

Mas e se você estivesse procurando por algo mais? E se você tivesse um modelo complicado o suficiente para levar em conta cada parâmetro significativo (em vez de apenas sete)?

Você não estaria mais lidando apenas com dados; você estaria lidando com Big Data.
De acordo com a Wikipédia , big data é definido da seguinte forma:
“Big data” refere-se a coletas de dados que são tão grandes ou complicadas que os programas típicos de processamento de dados são insuficientes para lidar com eles. Análise, captura, curadoria de dados, pesquisa, compartilhamento, armazenamento, transporte, visualização, consulta e privacidade das informações são desafios. A palavra geralmente alude ao uso de análises preditivas ou outras abordagens avançadas para extrair valor dos dados, em vez de um tamanho específico de conjunto de dados.”
Em outras palavras, big data é trabalhar com grandes conjuntos de dados e extrair insights deles. As abordagens tradicionais não funcionam com esses conjuntos de dados, pois são muito grandes. Você precisará coletar, analisar, armazenar e processar dados usando procedimentos projetados adequadamente.
Em geral, quanto maior o conjunto de dados, melhores os resultados – desde que o conjunto de dados seja de qualidade aceitável.
Em uma empresa de comércio eletrônico, por exemplo, o site coleta uma série de dados, incluindo sites de referência, tempo gasto no site, taxa de rejeição, página de destino e fluxo de visitantes. Eles rastreiam essas informações individualmente, o que significa que, ao longo de alguns anos, poderão compilar um grande conjunto de dados que as abordagens padrão não serão capazes de lidar. É quando eles percebem que estão trabalhando com 'Big Data'.
Como resultado, em nosso exemplo de rotina matinal, você pode ter um conjunto de dados muito grande com muito mais parâmetros para processar e avaliar. Você pode ter coletado informações de dezenas de milhares ou talvez milhões de pessoas em sua cidade. Você pode ter coletado essas informações durante um período de tempo e documentado vários aspectos adicionais, como clima, hora do dia, atualizações de tráfego, tweets, renda familiar e assim por diante, que você poderia utilizar em seu estudo.
Outra abordagem para colocar o tamanho dos conjuntos de dados em perspectiva é considerar que um conjunto de dados de tamanho padrão pode ser tão grande quanto um jornal diário.
Você precisaria de 50 armazéns cheios de listas telefônicas para imprimir um conjunto de dados de 'big data'.
As ferramentas e procedimentos tradicionais não serão suficientes para lidar com uma quantidade tão grande de dados: é necessário um software especializado criado especialmente para esse fim.
ANALISE ISSO
Depois de reunir todas essas informações sobre sua manhã, você precisará investigá-las e pesquisá-las para tirar suas conclusões; isso é conhecido como análise de dados. Você pode extrapolar do nosso exemplo que assistir 'Saas bhi kabhi bahun thi' na segunda-feira à noite faz com que você acorde mais tarde nas manhãs de terça-feira. Alternativamente, lavar a roupa no sábado, em vez de no domingo, permitirá que você tenha uma camisa adicional passada na terça-feira.
Mas e se você quiser pesquisar vários conjuntos de dados para padrões mais abrangentes e complicados? Então você estaria envolvido em análise de dados.

A aplicação de uma série de procedimentos (algoritmos) ou transformações para obter insights de conjuntos de dados processados é conhecida como análise de dados.
Você examinaria a complicada interação de detalhes específicos em nosso exemplo de rotina matinal. Por exemplo, se você comparar a temperatura diária com a utilização do carro, poderá descobrir que a temperatura tem um impacto considerável no uso do carro. Com um pouco mais de investigação, você aprenderá que este modelo simples só é válido durante os meses de verão. Durante a estação chuvosa, as pessoas usam mais seus carros. Com essas informações, você pode ver que a precipitação do dia seguinte deverá ser superior à média, o que implica que o tráfego seria mais intenso.
Isso é análise de dados em ação. No trabalho, a análise de dados é usada para decidir sair mais cedo do que o normal, pois o tráfego será maior.
CONCLUSÃO
Palavras-chave do setor, como análise, big data e ciência de dados, são frequentemente e erroneamente usadas de forma intercambiável. A análise de dados é uma das operações básicas que agrega valor aos dados que você coleta, enquanto a ciência de dados é o domínio no qual você operaria. E você está lidando com big data quando está lidando com grandes quantidades de dados que não podem ser processados usando ferramentas e métodos típicos.
Como você se sente sobre a nossa definição? É igual ao seu? Os exemplos de uma “rotina diária” funcionam? Você tem um exemplo pessoal que gostaria de compartilhar? Por favor, compartilhe seus pensamentos na área de comentários.