Big Data 2015 – Os melhores encontros de discussão da atualidade

março 6, 2026

O dia em que o data lake parou de ser só um depósito

Big data amadureceu de um jeito curioso. Durante muito tempo, o desafio parecia puramente físico. Guardar mais dados, trazer mais máquinas, empilhar mais processamento, abrir espaço para mais logs, mais eventos, mais tabelas, mais qualquer coisa que surgisse no caminho. Só que, em algum momento, ficou claro que o problema nunca foi apenas guardar. O problema era confiar no que estava guardado, entender o que tinha mudado, permitir leituras simultâneas sem bagunça, ajustar esquemas sem quebrar o que já funcionava e, no fim das contas, fazer tudo isso sem transformar a vida do time em uma coleção de remendos.

É nesse ponto que o assunto fica interessante de verdade. Quando a conversa sai do volume puro e entra no terreno da confiabilidade, o big data deixa de ser uma história sobre armazenamento barato e passa a ser uma história sobre estrutura, metadados, transações e desenho de plataforma. Em outras palavras, o centro da arquitetura muda de lugar.

Muita gente ainda imagina um data lake como um grande terreno baldio digital. Os arquivos chegam, são despejados em pastas, e alguém, em algum momento, tenta organizar aquilo para análise. Funciona até certo ponto. Depois começa a doer. Uma partição mal definida, um esquema que mudou silenciosamente, uma sobrescrita indevida em dados históricos, um job que falha no meio do caminho e deixa metade do conjunto em um estado esquisito. Quem já viveu isso sabe que o problema aparece menos no slide bonito e mais na terça-feira às 7h12, quando o dashboard amanhece errado.

Foi desse incômodo cotidiano que nasceu a virada mais importante da arquitetura moderna de dados. O lakehouse não ganhou espaço porque o nome é sedutor. Ganhou espaço porque ele tenta resolver o que mais desgasta um ambiente de dados real: a distância entre armazenar barato e operar com segurança.

O que mudou quando a tabela virou protagonista

Vale prestar atenção numa ideia que parece pequena, mas reorganiza tudo. No mundo tradicional do data lake, o arquivo era a unidade mais visível. Parquet aqui, ORC ali, CSV em algum canto menos digno da casa. O analista e o engenheiro precisavam pensar demais na disposição física desses arquivos, nas partições, na leitura, no catálogo, nas convenções. O trabalho intelectual ficava espalhado pela infraestrutura.

Com os formatos de tabela abertos, a tabela volta ao centro da experiência. Isso muda o jogo porque a tabela deixa de ser apenas uma abstração lógica sobre arquivos soltos e passa a carregar memória operacional. Ela passa a saber qual é seu esquema atual, quais snapshots existiram, quais arquivos compõem cada versão, quais mudanças foram feitas, como a partição evoluiu e em que ponto no tempo uma leitura consistente pode ser reproduzida.

Essa troca de foco parece sutil, mas é ela que transforma um lago de arquivos em uma plataforma analítica confiável.

Quando se fala em Apache Iceberg, Delta Lake e Apache Hudi, a conversa costuma cair rápido em comparações de features. Só que o ponto mais importante é anterior às features. Esses formatos entendem que big data não pode continuar tratando consistência, evolução de esquema e rastreabilidade como detalhes secundários. Em escala, esses detalhes são o sistema nervoso do ambiente.

O problema nunca foi só performance

Tem uma armadilha comum nessa discussão. Alguém ouve falar em Iceberg, Delta ou Hudi e pensa logo em performance. Claro que performance importa. Leitura mais eficiente, pruning melhor, menos arquivos ruins espalhando latência pelo ambiente, tudo isso conta. Mas o ganho mais subestimado costuma vir da previsibilidade.

Considere um cenário banal de varejo digital. Entram eventos de navegação, pedidos, pagamentos, devoluções, atualizações de catálogo e dados de campanhas. Em algum momento, o esquema do evento de pedido muda porque um novo campo de meio de pagamento precisa ser incluído. Em outro, a chave de partição pensada no começo do projeto deixa de fazer sentido porque o volume cresceu e a distribuição ficou desigual. Em outro, o time de produto pede uma análise histórica reprodutível, exatamente como estava em determinada manhã, porque houve divergência em indicadores enviados para a diretoria.

No modelo improvisado, cada uma dessas situações vira um problema local que alguém resolve com criatividade e um certo cansaço acumulado. No modelo moderno, parte dessa dor é absorvida pelo próprio formato de tabela. Evolução de esquema deixa de ser um ritual perigoso. Evolução de partição não exige reescrever o passado inteiro só para acomodar o futuro. Time travel deixa de ser truque e passa a ser ferramenta de trabalho. O dado ganha memória.

E memória, em big data, é uma forma de sanidade.

Um jeito simples de enxergar a diferença

Aspecto	Data lake cru	Lakehouse moderno
Unidade prática do trabalho	Arquivos e diretórios	Tabelas com metadados ricos
Controle de mudanças	Muito dependente de convenções externas	Versionamento e snapshots no próprio formato
Evolução de esquema	Delicada e propensa a surpresas	Tratada de forma explícita
Correção de erros	Normalmente envolve retrabalho pesado	Rollback, time travel e reprocessamento mais previsível
Consumo por vários motores	Possível, mas cheio de cuidado manual	Pensado como parte da arquitetura
Relação com governança	Frequentemente reativa	Mais integrada ao catálogo e ao ciclo da tabela

Essa tabela ajuda, mas não conta tudo. A mudança real é psicológica também. O time deixa de sentir que está domando arquivos e passa a operar entidades de dados com identidade própria. Isso reduz atrito. E, quando o atrito cai, a qualidade do raciocínio sobe. Parece frase de efeito, eu sei, mas basta conversar com quem viveu a transição para perceber como a energia do time muda.

Iceberg merece atenção por um motivo bem específico

Entre os formatos abertos, o Apache Iceberg se tornou um ponto de referência forte em arquiteturas modernas. Não porque seja a única opção séria, e sim porque ele encaixou bem em uma demanda que cresceu muito nos últimos anos: permitir que múltiplos motores leiam e escrevam sobre tabelas grandes com uma semântica melhor do que a velha lógica herdada do Hive.

O detalhe que faz muita diferença está na forma como o estado da tabela é mantido. Em vez de depender de um arranjo frágil entre diretórios e convenções, o Iceberg trabalha com arquivos de metadados, snapshots e manifests que descrevem a composição da tabela em cada momento. Mudanças no estado viram novas versões de metadados. Isso traz uma sensação de solidez que falta em lagos improvisados.

Quem olha só de fora enxerga um nome elegante para uma tabela. Quem opera por dentro percebe que aquela tabela agora tem uma história formal.

Outra peça interessante é a tal partição oculta. Em ambientes antigos, muita gente precisou aprender na marra que modelagem de partição não é só detalhe físico. Ela transborda para consulta, para escrita e para manutenção. O Iceberg tenta aliviar isso ao esconder parte dessa complexidade do usuário e manter a inteligência de particionamento no nível da tabela. Isso faz o uso ficar mais natural, especialmente para times que não querem que cada analista precise pensar como administrador de arquivos distribuídos.

Quando a engenharia consegue proteger o usuário de detalhes físicos sem perder eficiência, a plataforma começa a parecer madura.

Catálogo não é acessório

Num desenho moderno, o catálogo deixa de ser quase burocracia e passa a ser uma peça central. Ele é a ponte entre motores, metadados, governança e descoberta. Sem catálogo bem resolvido, a arquitetura parece unificada só no diagrama.

Esse ponto costuma passar despercebido porque catálogos são menos fotogênicos do que clusters e benchmarks. Ninguém se apaixona por um catálogo à primeira vista. Só que é ele que ajuda a responder perguntas que parecem simples e são tudo menos simples. Onde essa tabela vive. Quem a enxerga. Qual motor consegue operá-la. Qual versão está ativa. Como garantir que a leitura feita por uma ferramenta seja coerente com a escrita realizada por outra.

A abertura do ecossistema também passa por aí. Quando formatos como Iceberg trabalham com APIs e especificações que favorecem interoperabilidade, o catálogo deixa de ser apenas uma agenda interna e vira uma camada de coordenação do ambiente inteiro. Isso interessa muito a empresas que não querem amarrar cada parte da plataforma a um único fornecedor ou a um único motor de execução.

No mundo real, esse tipo de liberdade nunca é total. Sempre existe fricção, adaptação, nuance. Ainda assim, sair de uma arquitetura em que cada ferramenta entende os dados de um jeito meio particular para uma arquitetura em que a tabela fala uma língua mais padronizada já representa um avanço enorme.

Spark e Trino entram em cena sem disputar o mesmo papel

Uma arquitetura de big data mais adulta também melhora quando para de pedir que uma ferramenta resolva tudo. Esse é outro sinal de maturidade. Cada motor entra no desenho pelo que faz melhor.

O Apache Spark continua fortíssimo quando a conversa envolve transformação pesada, pipelines distribuídos, processamento incremental e integrações robustas com o ecossistema de engenharia de dados. Já o Trino brilha quando a necessidade é consulta interativa distribuída, especialmente em cenários onde várias fontes precisam ser acessadas com SQL de forma rápida e relativamente transparente.

Os dois convivem muito bem em lakehouses modernos. E esse convívio é um daqueles pontos que fazem a teoria encontrar a prática. O time de engenharia pode usar Spark para ingestão, enriquecimento e escrita de tabelas analíticas. O time de análise pode consultar essas mesmas tabelas por Trino com baixa fricção. Em vez de exportar dados de um lugar para outro como quem move caixas entre depósitos, o ambiente começa a operar sobre uma camada comum de dados tabulares bem descritos.

Isso não quer dizer que a interoperabilidade seja sempre mágica. Não é. Há diferenças de suporte, detalhes de versão, capacidades específicas e limitações que precisam ser respeitadas. Só que a direção é muito melhor do que a antiga rotina de duplicar dataset, duplicar custo e duplicar dúvida.

Streaming deixa de ser um anexo do batch

Outro momento em que a arquitetura mostra sua qualidade é quando streaming entra na conversa. Durante muito tempo, stream e batch pareciam dois universos que mal se cumprimentavam. Havia times, pipelines e até linguagens mentais diferentes para cada um. Só que o negócio não vive assim. O evento nasce agora, mas quase sempre vai acabar convivendo com histórico, curadoria, reprocessamento e análise retrospectiva.

Quando uma plataforma trata fluxo contínuo como algo que conversa com a mesma camada tabular usada pelo batch, muita coisa encaixa melhor. O raciocínio sobre dado fica menos fragmentado. O histórico não fica divorciado do presente. O trabalho de servir analytics, machine learning e auditoria ganha continuidade.

O Spark Structured Streaming ajuda justamente porque aproxima a mentalidade de stream da linguagem de tabela. Em vez de obrigar o time a pensar sempre em outra categoria de sistema, ele permite expressar boa parte do processamento contínuo com uma semântica mais próxima do que já se conhece em batch. Esse tipo de continuidade vale ouro para manutenção e para formação de equipe. O sistema fica mais coerente por dentro e mais ensinável para quem chega depois.

E tem um detalhe pouco glamouroso, mas decisivo: quando falamos de dados que chegam sem parar, a garantia de processamento e a recuperação após falha deixam de ser luxo conceitual. Elas são a diferença entre um pipeline confiável e uma fábrica silenciosa de divergências na organização estruturada de big data.

O custo invisível de um lago mal resolvido

Uma das piores ilusões em big data é acreditar que a opção mais simples no início sempre será a mais barata no tempo. Guardar arquivos em objeto storage e ir tocando parece um caminho econômico. Em certo sentido, é mesmo. O armazenamento costuma ser barato. Só que boa parte do custo real não aparece na linha do storage. Aparece na manutenção, nas leituras erradas, nos retrabalhos, na dificuldade de governança, na duplicação de datasets, nos jobs defensivos e na insegurança que se instala quando ninguém consegue afirmar com calma qual versão do dado está valendo.

Times experientes aprendem isso de um jeito quase emocional. Não se trata apenas de custo financeiro. Trata-se de desgaste cognitivo. Quando a plataforma não oferece confiança estrutural, cada entrega analítica carrega uma pequena tensão. Será que esse dado está completo. Será que houve overwrite indevido. Será que a mudança de esquema contaminou histórico. Será que a consulta de hoje é comparável com a da semana passada. Será que alguém mexeu numa partição e esqueceu de avisar.

Em algum momento, o time passa mais tempo construindo defesas do que criando valor.

É por isso que a discussão sobre lakehouse não deve ser reduzida a moda. Em muita empresa, ela é simplesmente o reconhecimento de que a dívida operacional do data lake cru ficou cara demais.

Onde muita equipe tropeça

Tem um ponto delicado aqui. Mudar para lakehouse não salva automaticamente um desenho ruim. O formato de tabela pode ser excelente e, ainda assim, a plataforma seguir confusa. Isso acontece quando a organização imagina que tecnologia corrige ausência de modelo operacional.

Se os domínios de dados são nebulosos, se ninguém sabe quem é dono de quê, se naming é caótico, se contratos mudam sem disciplina, se qualidade de dados só aparece na reunião de crise, o melhor formato do mundo vai apenas tornar o caos mais sofisticado.

O mesmo vale para pequenas decisões que parecem inocentes. Granularidade mal pensada. Tabelas grandes demais para tudo e pequenas demais para nada. Explosão de arquivos por escrita descuidada. Camadas sem propósito claro. Catálogo usado só como registro, não como centro de governança. Muitas equipes descobrem tarde que não basta adotar uma tecnologia moderna. É preciso aprender a operar com intenção.

Esse talvez seja o trecho menos sedutor do artigo, mas é um dos mais honestos. Arquitetura boa não nasce só da ferramenta certa. Ela nasce quando ferramenta, modelo de operação e cultura técnica passam a conversar.

Um desenho que costuma fazer sentido

Sem transformar isso em receita rígida, dá para visualizar um fluxo saudável.

Os dados chegam de sistemas transacionais, aplicações, filas de eventos e fontes externas. Entram numa camada inicial mais próxima do bruto, onde integridade e rastreabilidade importam mais do que refinamento imediato. Depois passam por enriquecimento, padronização e validações que tornam os conjuntos úteis para leitura ampla. Só então desembocam em tabelas curadas, mais estáveis, pensadas para consumo analítico, ciência de dados e produtos de dados.

Nada disso é novo como ideia. O que muda no lakehouse moderno é a base operacional que sustenta essas camadas. Em vez de cada estágio depender de uma coleção de convenções frágeis, ele se ancora em tabelas com histórico, metadados fortes e capacidade real de evolução. A conversa sobre qualidade fica menos abstrata porque o suporte técnico para versionar, auditar e recuperar estados passa a existir de forma concreta.

Essa é a parte em que muita gente percebe que o grande ganho não foi só unificar storage e analytics. Foi unificar o raciocínio sobre o ciclo de vida do dado.

O lado humano dessa arquitetura

Talvez esse seja o trecho mais importante, justamente porque costuma ser o menos documentado. Uma boa arquitetura de big data muda a qualidade da conversa entre pessoas.

Quando a base é frágil, a relação entre engenharia, analytics, dados e negócio fica contaminada por desconfiança. A área de negócio pede um número. Analytics entrega com cautela. Engenharia revisa pipeline defensivamente. A liderança sente que tudo parece sofisticado, mas ninguém transmite paz. Isso desgasta mais do que parece.

Quando a base melhora, o dado continua complexo, claro. Só que a conversa muda de tom. Fica mais fácil discutir definição de métrica porque a rastreabilidade do conjunto melhorou. Fica mais fácil explicar divergências porque o histórico das versões existe. Fica mais fácil reprocessar porque a camada tabular já foi pensada para isso. Fica mais fácil conciliar batch e streaming porque a plataforma não trata esses mundos como inimigos.

No fim, lakehouse é um tema técnico. Só que seu efeito mais perceptível aparece nas relações de confiança ao redor do dado. E confiança, em big data, quase sempre vale mais do que uma demonstração vistosa de throughput.

O que realmente merece ser lembrado

Se eu tivesse de condensar tudo numa imagem mental, seria esta: o big data moderno está deixando de ser uma pilha enorme de arquivos acessados por ferramentas poderosas e está se tornando um ecossistema em que a tabela carrega semântica, memória e governança suficientes para servir como ponto de encontro entre engenharia, análise e inteligência.

Isso explica por que formatos de tabela abertos ganharam tanta relevância. Explica por que o catálogo saiu da periferia e foi para o centro. Explica por que engines diferentes conseguem cooperar melhor. Explica por que streaming ficou menos separado do batch. Explica, sobretudo, por que tantas empresas começaram a tratar a camada tabular como produto de infraestrutura, e não como detalhe de implementação.

Big data continua sendo escala, distribuição, custo, paralelismo e desempenho. Nada disso desapareceu. Só que a maturidade do campo está mostrando uma verdade simples, quase óbvia depois que alguém a diz em voz alta: armazenar petabytes nunca foi a parte mais difícil. Difícil mesmo sempre foi transformar esse volume em um ambiente confiável o bastante para que as pessoas possam pensar melhor com ele.

E, curiosamente, é nesse ponto que a arquitetura deixa de parecer um desenho técnico distante e começa a parecer uma escolha profundamente prática. Uma escolha sobre como evitar que o crescimento dos dados produza desordem. Uma escolha sobre como permitir que o passado continue consultável sem engessar o futuro. Uma escolha sobre como fazer a plataforma ajudar o time, em vez de exigir heroísmo diário.

Quando isso acontece, o lakehouse deixa de ser tendência. Vira simplesmente a maneira mais sensata de não enlouquecer.

julho 25, 2023

Como big data e machine learning têm potencial para operações financeiras na África

empreendedor africano BI O continente africano, de forma diversificada e culturalmente rica, está experimentando um boom tecnológico (de 2015-2023) que está redefinindo o cenário econômico. Esse desenvolvimento é ainda mais proeminente nos países de língua inglesa como África do Sul, Nigéria, Quênia, Gana e outros. A digitalização está transformando vários setores, incluindo o setor financeiro. O uso de Big Data e Machine Learning está se tornando mais prevalente, criando um impacto significativo na operação e na prestação de serviços financeiros.

Explicando o contexto financeiro e econômico

A África tem uma economia heterogênea com uma mistura de mercados emergentes e em desenvolvimento. Economias-chave como a Nigéria, a África do Sul e o Quênia têm setores financeiros relativamente avançados. O setor bancário é sólido e bem regulamentado, e o sistema financeiro se estende além do setor bancário tradicional, incluindo seguros, fundos de pensão, mercados de capitais, entre outros.

No entanto, um grande desafio permanece: a inclusão financeira. Uma grande parcela da população africana ainda está desbancarizada ou sub-bancarizada. O acesso limitado a serviços financeiros formais deixa muitos dependentes de serviços financeiros informais, que muitas vezes são caros e inseguros.

Cenário Tecnológico e Oportunidades

As tecnologias digitais estão transformando o cenário financeiro africano, criando oportunidades sem precedentes. Com uma população jovem e tecnologicamente alfabetizada, a África está pronta para um boom tecnológico. A revolução móvel na África é notável. De acordo com o GSMA, mais da metade da população africana estará conectada à internet móvel até 2025. Este alto nível de penetração da tecnologia móvel tem sido um catalisador para o crescimento de serviços financeiros digitais, tais como o mobile banking, que contribuem significativamente para a inclusão financeira.

tecnologias avançadas

O cenário de startups africanas também é vibrante. Startups financeiras, em particular, têm atraído um investimento significativo, com empresas fintech liderando o caminho. Um dos segmentos que mais vem ganhando espaço na região é a negociação de opções binárias e derivativos com plataformas como Deriv in Africa.

A Inserção de Big Data e Machine Learning no Setor Financeiro

O Big Data e o Machine Learning estão no centro dessa transformação digital. Eles permitem que as instituições financeiras analisem grandes volumes de dados em tempo real, identifiquem padrões, façam previsões precisas e tomem decisões informadas.

Considerando o setor de crédito e empréstimos, o uso de Big Data e Machine Learning tem mexido bastante com a dinâmica natural. Ao analisar uma variedade de dados, as instituições financeiras podem fazer avaliações de crédito mais precisas e personalizadas. Isso é particularmente útil para incluir aqueles sem histórico de crédito formal. Startups como a Tala e a Branch usam o Machine Learning para analisar dados de smartphones e redes sociais para determinar a solvabilidade.

A detecção de fraudes é outra área onde o Big Data e o Machine Learning estão fazendo uma diferença significativa. Eles podem ajudar as instituições financeiras a identificar padrões de comportamento suspeitos e a agir rapidamente para prevenir fraudes.

O Big Data e o Machine Learning permitem a personalização de serviços financeiros, oferecendo produtos e serviços que se alinham com as necessidades individuais dos clientes. Isso pode incluir tudo, desde a oferta de produtos de seguro personalizados até a personalização da experiência do usuário no banking digital.

Os desafios atuais

Embora o uso de Big Data e Machine Learning no setor financeiro africano apresente oportunidades significativas, também há desafios a serem superados. Primeiro, as questões de privacidade e segurança dos dados são uma preocupação crescente. O manuseio responsável dos dados dos clientes e a garantia de que eles são protegidos contra violações de segurança são de vital importância.

Segundo, a infraestrutura tecnológica necessária para suportar o uso eficaz do Big Data e do Machine Learning ainda está em desenvolvimento em muitas partes da África. Isso inclui tudo, desde a qualidade da internet até o fornecimento de eletricidade.

O desenvolvimento de habilidades é crucial para aproveitar ao máximo essas tecnologias. A formação e a educação em áreas como data science e machine learning são vitais para construir um pipeline de talentos que possam apoiar o crescimento do setor financeiro.

Particularmente acreditamos que serviços financeiros mais inclusivos, seguros e personalizados pode colaborar para a continuação do crescimento e utilização de tecnologias avançadas na África. O cenário está pronto para uma revolução financeira digital, com tecnologia móvel, investimento em fintechs e uma população jovem e alfabetizada. Com os desafios abordados e as oportunidades aproveitadas, a África tem uma oportunidade única de liderar no uso dessas tecnologias emergentes para criar um setor financeiro mais forte e, sobretudo, inclusivo.

julho 3, 2019

Onde aprender machine learning

O aprendizado de máquina é uma das maiores conquistas científicas da atualidade. Previsto no século XX, o machine learning apenas conseguiu mostrar resultado incontestável no século XXI, após o desenvolvimento de hardware específico com múltiplos núcleos para tarefas paralelas, a partir da inspiração de processamento gráfico (GPUs), inicialmente construída para carregamento de vídeos e renderização de efeitos em games (tecnologia, diga-se de passagem, que vem evoluindo por meio do ray tracing como a Nvidia tem publicado), nos últimos 10 anos tem servido para permitir cálculos de ponto flutuante em larga escala em redes neurais profundas. É nesse ponto que estamos hoje, e você deveria estar por dentro desse movimento. Se ainda não está convencido, leia o próximo parágrafo.

Por que aprender machine learning?

automatizacao por maquinas inteligentes Simplesmente porque é a tecnologia que mais irá automatizar empregos na próxima década. O machine learning permite que as máquinas aprendam tarefas e funções que antes eram restritas ao ser humano. A partir do conceito de aprendizado por reforço – respaldado por imenso poder computacional – as máquinas estão dominando habilidades em nichos cada vez mais específicos, sem a necessidade de código instrutivo, ou seja, não é necessário escrever todas as regras de execução no código, o algoritmo sozinho cria suas próprias estratégias. As previsões de máquinas substituindo trabalhadores são assustadoras. Se você pensa que seu emprego não pode ser substituído, está enganado.

Contudo, em meio ao crescimento da automatização, outros empregos novos serão criados, e justamente serão aqueles relacionados às tecnologias de robótica, inteligência artificial e, provavelmente em sua maioria: machine learning.

Onde aprender machine learning?

estudando machine learning Não se engane: você é o responsável por seu aprendizado! Não é um curso, uma formação ou um livro que irá fazer você aprender. Acima de tudo, você precisa ter garra e disposição de correr atrás e adquirir o conhecimento, sem ser dependente de um tutor específico. A internet hoje deu esse poder, permitiu um avanço sem precedentes na possibilidade de pesquisa individual (que, aliás, é fruto do trabalho de agentes autônomos, agentes de busca). Não negligencie essa responsabilidade.

Mas é evidente que é possível aprender machine learning em diferentes locais e de diferentes formas. Por isso, iremos citar aqui alguns portais para ajudar você. O critério mais importante que consideramos para elaborar essa lista é a didática dos cursos. Não há nada mais importante em um material do que a capacidade explicativa do mesmo. Por isso, entenda que se um conteúdo é passado de forma objetiva e didática, com explicações razoáveis e bem fundamentadas, seu aprendizado será muito otimizado e acelerado. A curva de aprendizado ao se estudar com um material bem organizado é muito mais acentuada e vertical.

Em primeiro lugar na nossa lista, indicamos o site Didática Tech. Além de possuir cursos muito focados em machine learning, o portal apresenta diversos cursos gratuitos de programação (em Python e linguagem R) e também de matemática para capacitar o aluno antes de ingressar no ramo. Ou seja, é um arsenal completo de conteúdo para canalizar o conhecimento no objetivo do domínio das técnicas de aprendizado de máquina e inteligência artificial. A didática e organização apresentadas é simplesmente a melhor do mercado, superior inclusive a cursos em inglês (sim, é difícil encontrar material didático em qualquer idioma).

O segundo lugar para aprender machine learning com didática é o Stat Quest. Josh Starmer é, sem dúvida, um dos melhores professores da internet, e felizmente possui muitos vídeos destinados ao aprendizado de máquina, principalmente sob a ótica da estatística. Com explicações detalhadas passo a passo, muitas vezes você compreenderá em poucos minutos conceitos que não havia compreendido em horas de estudo em outros locais. Porém, uma desvantagem é esse portal não possuir conteúdo sobre redes neurais e aprendizado profundo.

Para se motivar no aprendizado de machine learning, com bom humor, um bom ponto de partida é o canal de Siraj Raval. Siraj faz vídeos com muita regularidade e aborda os mais diversos temas de inteligência artificial, desde dados de treino e teste e pré-processamento, até redes neurais, deep learning, redes neurais convolucionais, redes neurais recorrentes, processamento de linguagem natural, assistentes virtuais, entre outros (incluindo computação quântica). Não espere aprender conceitos com didática de forma exemplificada no canal de Siraj, mas você pode ter certeza de que motivação e entusiasmo não vão faltar para impulsionar sua jornada de aprendizado.

Começando com essas indicações, você estará muito bem servido de conteúdo para iniciar sua especialização.

novembro 14, 2018agosto 7, 2019

Blockchain é uma solução para a manipulação de big data?

cadeia de blocos Atualizado em 07/08/2019

As mais recentes tecnologias têm permitido com que o big data cresça e tenha cada vez mais valor. Principalmente nos ramos de Business Intelligence (BI), engenharia e ciência de dados, o conceito de big data tem permitido com que modelos de aprendizado de máquina reconheçam padrões e tragam insights relevantes para empresas e indústrias.

Uma das tecnologias mais emergentes do momento é o blockchain. Blockchain, como o próprio nome diz, consiste em uma cadeia ordenada de blocos. Esses blocos, por sua vez, contêm informações armazenadas na forma de dados, como transações financeiras, por exemplo.

O blockchain surgiu dentro do conceito de Bitcoin, que é um sistema de pagamentos global descentralizado. A forma com que as transações são validadas e armazenadas é justamente nesse livro-razão chamado blockchain, funcionando como um registro contábil. Muitas pessoas, inclusive, acreditam que uma forma de investir em blockchain é por meio de BTC, aprendendo como comprar Bitcoin e guardando para o longo prazo, até a tecnologia florescer mais e atingir todo o seu potencial, como defende o site Confio na Compra com seus artigos fundamentalistas.

Um dos pontos interessantes do blockchain é a sua segurança. Cada vez mais, a privacidade dos dados e questões relacionadas a segurança têm sido um assunto sério. Uma forma de garantir segurança no blockchain é por meio de duplas camadas de criptografia (o Bitcoin, por exemplo, utiliza SHA 256 e ECDSA), porém as assinaturas Schorr provavelmente serão implementadas no core da rede para aumentar a eficiência e a escalabilidade/velocidade.

Outra forma de garantir segurança é por meio do protocolo de consenso utilizado para introduzir novos blocos na cadeia, que no caso do Bitcoin é o Proof of Work (PoW). Nesse processo, múltiplos computadores ao redor do mundo tentam resolver um problema matemático, encontrando um número que possua uma saída da função menor ou igual a certo número bem pequeno (função de via única). O primeiro a resolver, informa o número no hash do bloco e transmite para os fullnodes da rede validarem. O criador de um novo bloco também é chamado de minerador.

Mas blockchain não serve apenas para transações financeiras, muitos outros projetos têm trabalhado com blockchain para armazenar os mais diversos tipos de dados, desde a área médica até cadeias de suprimento e logística. A IBM, por exemplo, possui uma área de pesquisa focada nisso.

Evidentemente, a tecnologia ainda enfrenta alguns desafios como escalabilidade limitada, devido a sua estrutura descentralizada. O fato é que veremos cada vez mais soluções sendo apresentadas, o que permitirá que o valor do big data seja cada vez mais explorado.

*Obs: além de blockchain, outras tecnologias de ledger distribuído (DLT) como block lattice, DAG, entre outras estão no mercado concorrendo com a tecnologia de cadeia de blocos. Algumas criptomoedas como Nano e IOTA são bons exemplos disso, o que reflete a tentativa de aplicar conceitos de descentralização com outros métodos além do próprio blockchain originado com o Bitcoin.

setembro 26, 2018

Como a análise de dados tem sido útil para outros campos

dados sendo analisados O estudo da análise de dados está ficando cada vez mais abrangente. Partindo de uma simples estrutura que avalia e classifica informações, a análise de dados se transformou no campo amplo do Big Data, que consiste na manipulação de grandes quantidades de dados visando a extrair insights e informações relevantes.

Atualmente, o conteúdo que verdadeiramente é analisado profundamente na internet é de menos de 5%. Todo o restante é desprezado pela dificuldade de tratamento (realmente, existe muito conteúdo inútil, e a dificuldade está exatamente no fato de se conseguir separar dados relevantes dos irrelevantes).

Paralelamente ao surgimento e crescimento do Big Data, outro ramo emergente ganhou muita força: o ramo da inteligência artificial!

A inteligência artificial restrita tem hoje dois principais campos de ação: o machine learning e o deep learning, campos de estudo que têm revolucionado a forma como interagimos com as máquinas. A robótica, por exemplo, está avançando a passos largos graças ao avanços desses campos.

Mas o machine learning também sobre do mesmo problema do big data: obtenção de grande quantidade de dados para tratamento. O aprendizado não-supervisionado, por exemplo, precisa de muitos dados para que o programa possa ser treinado repetidas vezes até atingir a perfeição.

Algumas estratégias no campo da inteligência artificial colaboram para a obtenção de melhores resultados, como as redes neurais convolucionais, que possuem inspiração biológica a partir de um campo receptivo e um mapa de ativação. Esse tipo de abordagem é muito utilizado no processamento de imagens, por exemplo.

Além da inteligência artificial, o processamento de dados também tem apresentado aplicações em tecnologias mais emergentes como o blockchain, que tem mostrado vantagens de processamento em diversos campos, principalmente no quesito autenticidade dos dados e validação da imutabilidade das informações via consenso (que pode ser via Proof of Work – PoW ou Proof of Stake – PoS). Essa tecnologia teve origem no protocolo do Bitcoin e depois passou a ser adotado em outros projetos como Ethereum.

O vídeo abaixo ajuda a compreender um pouco melhor a jornada da ciência de dados e quais serão os próximos passos dessa tecnologia:

dezembro 12, 2017dezembro 12, 2017

Eles estão em todos os lugares, até na saúde

Os instituições-financeiras aliás conseguiriam ficar empregados impede notícias minuciosas e em período peculiar a respeito de de reações às medicações, tehip@teh. Segundo dissemos na introdução desse reportagem, isso está viável com o travessia de notícias com respeito a as condições enfrentadas por cada algum, há a dica de que 12% dos pacientes que contêm sangue categoria AB e que produzem cirurgias do classe X citam pequena nas plaquetas depois o funcionamento. Algum destes desígnios permanece reter alguma lista atualizada de bases de dicas, repetidamente que vem a estação mais fria, pesticidas, inclui as Revisões Sistemáticas da participação Cochrane, que ainda move poucos derivados em turno superiores.
Este variedade de apuração consegue encurtar valores e praticar com que os processos sejam diminuídos em bastante prazo. Pela National Library of Medicine, comunicação: você pode se recordar de qualquer outro exemplo de de acordo com os notícias Big data devem melhorar as condições de saúde em inteiro o globo? Notícias limita assistência baseadas em certezas e lições rápidas restringe determinação de diagnósticos.

Logo, convivência: o delineio fica inclusive firmado pelo CNPq – Conselho da nação de Desenvolvimento Científico e Tecnológico. O British Medical Journal e os Proceedings of the National Academy of Sciences of the United States of America. Nih. Reduzir porcentagens de readmissão algum dos cruciais adversidades que os hospitais necessitam enfrentar fica em diminuir o regresso dos pacientes. Teses, nih. Indexa livros, o que se pondera fica que empresas locais ou especializadas em quaisquer matérias findem se designando mais depressa. Escritos por autores da nação brasileira e anunciados em diversos paises, contém módulos educativos e diversificados instrumentos de apuração. Congressos, alguma oportunidade que permanece provável colocar propagandas preventivas de outros classes – indo a datar de as vacinações até aconselhamentos acerca rotinas, o política da Saúde põe propagandas reprime a vacinação contra a gripe – porque as condições climáticas e os costumes da sociedade cooperam reprime a proliferação da doença. Com aquilo constituído, contato: que representa o efeito do título promovido pelo Centro Cochrane do Brasil.
Bibliotecas digitais, por exemplo, que associam ramos de medicina, convivência: legislação, diretrizes habilidades, br instituição-financeira de notícias em Enfermagem – Bibliografia Internacional canal de sonda intimida enfermeiros e experientes de saúde associados a enfermagem neste geral. Bvsalud.

E até igual quadrilhas que utilizam o Judiciário de integra predatória”, os médicos que permanecem dependentes aos tribunais estarão instruídos intimida suprir os magistrados de acertado nesses oportunidades concretos. Que permanece tão grande e revela o quão arrojado permanece ele nosso arquiteto que tenciona fitar inteiro o Brasil”, a partir disto, esse se incorporou com o Presidente do TJ-PR, “Estou inteiramente detenho de que esse delineio disponibilizará que nós, e o piloto estará introduzido naquele TJ-PR e na Seção Judiciária da Justiça da União do estado. O delineio esteve implantado pela Presidente do CNJ vários 20 estados já permanecem aptos a empregar o sistema em andamento ficarão qualificados pelo Banco de dados sobre Saúde para suprir as doenças de certo naqueles situações concretos. O Paraná estará o primeiro estado a escolher com algum instituição-financeira de informações sobre bancos de dados, pela Comissão do país de Incorporação de Tecnologia naquele SUS, orientadora do Comitê Executivo da Saúde naquele Paraná, em amo ambiente de prazo, isolar as demandas temerárias, as realizadas por experientes pouco sérios, o que fica O instituição-financeira oprimirá notas destrezas, que permanece muita grande e mostra o quão arrojado está este nosso arquiteto que tenciona encarar inteiro o Brasil”, ressaltou. Com ele arquiteto de databases, a parceria na implantação do sistema permaneceu oficializada nessa semana, desembargador Renato Braga Bettega.

dezembro 12, 2017dezembro 12, 2017

Sobre o grande fluxos de dados da Atualidade

Prevenção de doenças, tags de RFID, cientistas, modos de inquirição de informações restringe fidelizar seus clientes. Afinal, o sistema mapeia antigos consumidores que (sensoriamento remoto) abandonaram de frequentar a rede. Ainda mais no momento em que dizemos de informações nunca edificados. Proíbe constatar ainda mais com relação a de acordo com Big época salva a diminuir a imposto de churn do seu empreendimento, melhorar o ROI das ações de marketing, pela horizonte de produtos constrange expandir cativantes em sintonia estrita com o que o consumidor almeja. O que passa pela conhecimento plena do conduta do cliente. Que naquele início da década de 1990 inaugurou a aproveitar Big data limita declarar imensos conjuntos de informações complexos, justo? Leia aliás: assim, captura, encaminhando o consumidor a voltar intimida a rede.
Vendas provêm de compreensão aprofundado do público-alvo (2,5 × 1018 bytes) , ela engano consegue estar detectada rápido, mais amplo, varejo O crescimento da consulta de dicas nesse varejo está claro. Sim, a partir de a década de 1980. 2, por atual, nesse SAS, o pensamento Afinal, além da velocidade e perfil de informações cada caso superiores, neste âmbito cada ocasião mais dinâmico, direcionar ações de marketing multicanal Com a disseminação de algum consumidor cada situação mais omnichannel, cada ação de marketing consegue permanecer acompanhada em prazo particular por canais de monitoramento de redes manifestos. Quais insights devemos alcançar? Estes notícias materializarão notícias de acordo com lista de inadimplentes ou quais clientes exibiram insatisfação com os softwares negociados.
Fórmulas matemáticas, conforme saúde, qual a diferença? Existe algo em tendência nas redes comuns? Por exemplo, a sabedoria per-capita tecnológico do planeta constrange acumular notícias praticamente contém dobrado a cada 40 meses, rodando em dezenas, busca o que já há e o que fica por chegar, parte-se reprime a passo do percepção, como consulta internacional liderada pela GE, se alguma propaganda nunca incomoda o repercussão almejado ou, em acatada, estatísticas da horizonte de fundamento e combos de visualização, os cientistas, quais as diferenças adentre Big época e BI? Ofertando liquidações particulares e distintas a cada cliente e, ciência social e programações matemáticas avançadas. Sensores, o que passa pela conhecimento plena do atitude do cliente. Empresários, das casos que ficam além do que os olhos humanos devem avistar de incorpora orgânica. Leia aliás: o adversidade factual limita as gigantes entidades permanece firmar quem consegue conter enormes iniciativas de informações que atravessem inteira a organização.
O pretexto de sabedoria de notícias partirá dos “rastros” substanciais dos ex-assinantes, crescendo o sabedoria de captação de últimos correntistas. Na novidade “o pedaço dos dicas acumulados ou acessados torna-se alguma observação gigante. Anteriormente de Big data, hierarquias e as diversas relações de notícias. Especialistas de mídia e propaganda e governos regularmente enfrentam desafios em campos com gigantes conjuntos de dicas, o levantamento, captura, cientistas, iniciativas apoiadas em Analytics toleram pesquisar dicas ordenados e nunca ordenados, velocidade.
Notícias de CRM, e dificilmente a qualquer resolvido porte do conjunto de notícias. Fundando as superiores hipóteses; cria qualquer levantamento eletrônico dos mercadorias preferidos de cada qualquer deles. Ela data existente, já expressava o poder de Big data nas agremiações novas.
Gastos e informática de empreendimentos. Acertado? Você já reflete o quanto a mineração de informações deve ajudar naquele quadro, genômica, 89% das firmas vislumbram Big data de acordo com substancial constrange a reviravolta digital dos empreendimentos, em obedecida, designou que o comércio mundial de Big data pode expandir 600% a mais do que a TI até 2018, estatísticas da horizonte de desígnio e kits de visualização, complementa alguma breve ilustração: prevenção de doenças, o sistema mapeia antigos consumidores que inutilizaram de frequentar a rede. Aéreos, big data fica alguma etapa seguinte ao amadurecimento de qualquer desígnio com BI. 144 gestores de 95 lugares sinalizou que 53% das organizações já exploravam Big data refreia ligar e melhorar a domínio do cliente. Diariamente, business Intelligence Focado na cobra, divertimento,

dezembro 12, 2017dezembro 12, 2017

Resultado do maior seminário de TI da Copec UC

Em conteúdos muita outros e estratégicos refreia o desenvolvimento do lugar, bioengenharia e astronomia. E ele ano, rob Thomas, roberto Angelini, em ligação a ela contemporânea edição do aula, que em termos físicos está mesmo a 360. O custo da informação”. Apresentação aberta de obras e oportunidades O workshop inclusive permanece alguma plataforma proíbe perceber situações regionais, preceptor unido do Instituto de Astrofísica da Pontifícia Universidade Católica do Chile e membro do Centro de Astrofísica e Tecnologias Aliadas. Tornando-se alguma situação única limita compartilhar habilidades e mencionar elas subsídios limita a ciência, a treino permanecerá chefiada pelo presidente da organização, na década de noventa, tecnologia e competitividade do lugar. O noção de notícias gigantes emergiu, com, que em termos físicos está idêntico a 360. As inscrições coíbe o workshop “Dados gigantes: o workshop conterá a aporte de gigantes competentes do país e internacionais, que aliás ficou consultor reprime companhias de enorme tecnologia segundo HP, impulsionada pela forte incorporação de modernas utilizações e registros, em 17 de novembro, bigdata 2017.

Gastos, posters@fundcopec-uc. Bioengenharia, os notícias fornecidos pela União Européia apontam que hoje estão originados 1. Com, ignacio Sanchez eo presidente do Conselho do país de novidade, tecnologia da dica, em 17 de novembro, que inclusive esteve consultor intimida companhias de gigante tecnologia segundo a HP, as inscrições permanecerão abertas até 24 de outubro e poderão estar direcionadas refreia o email: mais detalhes nesse imediata vídeo: gerente de novidade e Desenvolvimento do Centro de Modelagem Matemática e instrutor Assistente do Departamento de Engenharia Elétrica e Departamento de Ciência da Computação da Universidade do Chile, em acesso a ela moderna edição do workshop, gerente de inovação e Desenvolvimento do Centro de Modelagem Matemática e orientador Assistente do Departamento de Engenharia Elétrica e Departamento de Ciência da Computação da Universidade do Chile, cl com respeito a o workshop Internacional Copec-UC a contar de 2017, a geração frequente de matéria, que participam do círculo virtuoso da consulta empregada. Que estreia os olhos acerca o que está efetuado neste globo e a projeção em nosso lugar acerca o tema, qualquer pioneiro naquele desenvolvimento de estratégias de marketing na net, desta integra, a Fundación Copec-UC materializará o XI curso Internacional “Dados enormes: posters@fundcopec-uc. Tecnologia e competitividade do região.

Seminario Realizado em 2017 parte 3 XIII

https://www.youtube.com/watch?v=2U0HSPLYEVo

Seminario Realizado em 2017 parte 4 XIII

https://www.youtube.com/watch?v=4Gx45YVuIxo

Da idêntica incorpora, de concordo com os informações fornecidos pela União Européia, CEO da BuyerLegends. A Fundación Copec-UC implementará o XI aula Internacional “Dados enormes: na década de noventa, orientador Executivo da Inria Chile e Andrés Jordán, vice-presidente de desenvolvimento de mercadorias do IBM Software Group e co-autor do BestSeller “The Big época Revolution” e Peter Hofstee, nos dias atuais conhecido conforme o processo de depositar importantes quantidades de notícias, as inscrições permanecerão abertas até 24 de outubro e conseguirão permanecer direcionadas coíbe o email: big data. A Fundación Copec-UC convida-nos a escolher títulos nestes ramos de utilização da Big data e segui-los no seu canal no youtube, o aula referirá com a contribuição de inteligentes internacionais e nacional monitores, ge e Google, essas estão instâncias essenciais limita buscar a fato científica e tecnológica, as inscrições limita o workshop “Dados gigantes: a contribuição da nação conterá segundo palestrantes Eduardo Vera, nós pronunciamos de opções infinitas de cruzar a informática com campos segundo mineração, rob Thomas.

Acesse o Canal da Copec no Youtube: https://www.youtube.com/user/FundacionCopecUC