Estas são as melhores fontes de dados abertas e gratuitas que qualquer um pode usar

O que são dados abertos?

Em termos simples, Dados Abertos significa o tipo de dados que está aberto a qualquer pessoa para acesso, modificação, reutilização e compartilhamento.

O Open Data deriva sua base de vários “movimentos abertos”, como código aberto, hardware aberto, governo aberto, ciência aberta etc.

Governos, organizações independentes e agências se apresentaram para abrir as comportas de dados para criar mais e mais dados abertos para acesso fácil e gratuito.

Por que os dados abertos são importantes?

Dados abertos são importantes porque o mundo tem crescido cada vez mais baseado em dados. Mas se houver restrições ao acesso e uso de dados, a ideia de negócios e governança orientados a dados não se materializará.

Portanto, os dados abertos têm seu próprio lugar exclusivo. Pode permitir uma compreensão mais completa dos problemas globais e questões universais. Pode dar um grande impulso às empresas. Pode ser um grande impulso para o aprendizado de máquina. Pode ajudar a combater problemas globais, como doenças, crime ou fome. Os dados abertos podem empoderar os cidadãos e, portanto, fortalecer a democracia. Pode agilizar os processos e sistemas que a sociedade e os governos construíram. Pode ajudar a transformar a maneira como entendemos e nos relacionamos com o mundo.

Então, aqui está minha lista de 15 fontes de dados abertos incríveis:

1. Dados Abertos do Banco Mundial

Como repositório dos dados mais abrangentes do mundo sobre o que está acontecendo em diferentes países, o World Bank Open Data é uma fonte vital de dados abertos. Ele também fornece acesso a outros conjuntos de dados também mencionados no catálogo de dados.

Os dados abertos do Banco Mundial são enormes porque têm 3.000 conjuntos de dados e 14.000 indicadores que abrangem microdados, estatísticas de séries temporais e dados geoespaciais.

Acessar e descobrir os dados que você deseja também é bastante fácil. Tudo o que você precisa fazer é especificar os nomes dos indicadores, países ou tópicos e isso abrirá o tesouro de Dados Abertos para você. Ele também permite que você baixe dados em diferentes formatos, como CSV, Excel e XML.

Se você é jornalista ou acadêmico, ficará encantado com a variedade de ferramentas disponíveis. Você pode obter acesso a ferramentas de análise e visualização que podem apoiar sua pesquisa. Pode proporcionar uma compreensão melhor e mais profunda dos problemas globais.

Você pode obter acesso à API que pode ajudá-lo a criar as visualizações de dados de que você precisa, combinações ao vivo com outras fontes de dados e muitos outros recursos.

Portanto, não é surpresa que os Dados Abertos do Banco Mundial estejam no topo de qualquer lista de fontes de Dados Abertos!

2. OMS (Organização Mundial da Saúde) - Repositório de dados aberto

O repositório de dados abertos da OMS é a forma como a OMS mantém o controle das estatísticas específicas de saúde de seus 194 Estados Membros.

O repositório mantém os dados organizados sistematicamente. Ele pode ser acessado de acordo com as diferentes necessidades. Por exemplo, se se trata de mortalidade ou carga de doenças, pode-se acessar dados classificados em 100 ou mais categorias, como os Objetivos de Desenvolvimento do Milênio (nutrição infantil, saúde infantil, saúde materna e reprodutiva, imunização, HIV / AIDS, tuberculose, malária, doenças negligenciadas, água e saneamento), doenças não transmissíveis e fatores de risco, doenças com tendência a epidemias, sistemas de saúde, saúde ambiental, violência e lesões, equidade, etc.

Para suas necessidades específicas, você pode percorrer os conjuntos de dados de acordo com temas, categoria, indicador e país.

O bom é que é possível baixar todos os dados de que você precisa no formato Excel. Você também pode monitorar e analisar dados fazendo uso de seu portal de dados.

A API para o conteúdo de dados e estatísticas da Organização Mundial da Saúde também está disponível.

3. Explorador de dados públicos do Google

Lançado em 2010, o Google Public Data Explorer pode ajudá-lo a explorar uma grande quantidade de conjuntos de dados de interesse público. Você pode visualizar e comunicar os dados para seus respectivos usos.

Disponibiliza os dados de diferentes agências e fontes. Por exemplo, você pode acessar dados do Banco Mundial, Bureau of Labor Statistics e US Bureau, OECD, IMF e outros.

Diferentes partes interessadas acessam esses dados para uma variedade de propósitos. Seja você um estudante ou jornalista, um formulador de políticas ou um acadêmico, você pode utilizar esta ferramenta para criar visualizações de dados públicos.

Você pode implantar várias maneiras de representar os dados, como gráficos de linha, gráficos de barras, mapas e gráficos de bolhas com a ajuda do Data Explorer.

A melhor parte é que você consideraria essas visualizações bastante dinâmicas. Isso significa que você os verá mudar com o tempo. Você pode mudar os tópicos, focar em entradas diferentes e modificar a escala.

Também é facilmente compartilhável. Assim que você preparar o gráfico, poderá incorporá-lo ao seu site ou blog ou simplesmente compartilhar um link com seus amigos.

4. Registro de dados abertos no AWS (RODA)

Este é um repositório que contém conjuntos de dados públicos. São dados que estão disponíveis nos recursos da AWS.

No que diz respeito ao RODA, você pode descobrir e compartilhar os dados que estão disponíveis publicamente.

No RODA, você pode usar palavras-chave e tags para tipos comuns de dados, como genômico, imagens de satélite e transporte, a fim de pesquisar os dados que você está procurando. Tudo isso é possível em uma interface web simples.

Para cada conjunto de dados, você descobrirá a página de detalhes, exemplos de uso, informações de licença e tutoriais ou aplicativos que usam esses dados.

Fazendo uso de uma ampla gama de produtos de computação e análise de dados, você pode analisar os dados abertos e criar os serviços que desejar.

Embora os dados que você acessa estejam disponíveis por meio de recursos da AWS, você precisa ter em mente que eles não são fornecidos pela AWS. Esses dados pertencem a diferentes agências, organizações governamentais, pesquisadores, empresas e indivíduos.

5. Portal de dados abertos da União Europeia

Pode aceder a quaisquer dados abertos que as instituições, agências e outras organizações da UE publicam numa única plataforma, nomeadamente o Portal de Dados Abertos da União Europeia.

O Portal de Dados Abertos da UE é o lar de dados abertos vitais relativos aos domínios das políticas da UE. Esses domínios de política incluem economia, emprego, ciência, meio ambiente e educação.

Cerca de 70 instituições, organizações ou departamentos da UE, como o Eurostat, a Agência Europeia do Ambiente, o Centro Comum de Investigação e outras Direcções-Gerais da Comissão Europeia e agências da UE, tornaram públicos os seus conjuntos de dados e permitiram o acesso. Esses conjuntos de dados ultrapassaram o número de 11700 até a data.

O portal permite fácil acesso. Você pode facilmente pesquisar, explorar, vincular, baixar e reutilizar os dados por meio de um catálogo de metadados comuns. Você pode fazer isso para seus fins específicos. Pode ser para fins comerciais ou não comerciais.

Você pode pesquisar o catálogo de metadados por meio de um mecanismo de pesquisa interativo (guia Dados) e consultas SPARQL (guia Dados vinculados).

Ao utilizar este catálogo, pode obter acesso aos dados armazenados nos diferentes sítios Web das instituições, agências e organizações da UE.

6. FiveThirtyEight

É um ótimo site para jornalismo baseado em dados e narração de histórias.

Ele fornece suas várias fontes de dados para uma variedade de setores, como política, esportes, ciência, economia etc. Você também pode baixar os dados.

Ao acessar os dados, você encontrará uma breve explicação sobre cada conjunto de dados em relação à sua fonte. Você também saberá o que ele representa e como usá-lo.

Para tornar esses dados amigáveis ​​ao usuário, ele fornece conjuntos de dados nos formatos mais simples e não proprietários, como arquivos CSV, quanto possível. Desnecessário dizer que esses formatos podem ser facilmente acessados ​​e processados ​​por humanos e também por máquinas.

Com a ajuda desses conjuntos de dados, você pode criar histórias e visualizações de acordo com seus próprios requisitos e preferências.

7. US Census Bureau

O US Census Bureau é a maior agência de estatísticas do governo federal. Ele armazena e fornece fatos e dados confiáveis ​​sobre pessoas, lugares e economia da América.

O Census Bureau considera sua nobre missão estender seus serviços como o provedor mais confiável de dados de qualidade.

Quer seja um governo federal, estadual, local ou tribal, todos eles usam os dados do censo para uma variedade de propósitos. Esses governos usam esses dados para determinar a localização de novas moradias e instalações públicas. Eles também fazem uso dele no momento de examinar as características demográficas de comunidades, estados e dos EUA.

Esses dados também são utilizados no planejamento de sistemas de transporte e rodovias. Quando se trata de decidir cotas e criar delegacias de polícia e bombeiros, esses dados são úteis. Quando os governos criam áreas localizadas de eleições, escolas, serviços públicos etc., eles fazem uso desses dados. É uma prática compilar informações populacionais uma vez por década e esses dados são bastante úteis para fazer o mesmo.

Existem várias ferramentas, como American Fact Finder, Census Data Explorer e Quick Facts, que são úteis caso você queira pesquisar, personalizar e visualizar dados.

Por exemplo, Quick Facts sozinho contém estatísticas para todos os estados, condados, cidades e até vilas com uma população de 5.000 ou mais.

Da mesma forma, American Fact Finder pode ajudá-lo a descobrir fatos populares, como população, renda, etc. Ele fornece informações que são solicitadas com frequência.

O bom é que você pode pesquisar, interagir com os dados, conhecer estatísticas populares e ver os gráficos relacionados por meio do Census Data Explorer. Além disso, você também pode usar a ferramenta visual para personalizar dados em uma experiência de mapas interativos.

8. Data.gov

Data.gov é o tesouro dos dados abertos do governo dos EUA. Só recentemente foi tomada a decisão de disponibilizar gratuitamente todos os dados do governo.

Quando foi lançado, havia apenas 47. Existem agora 180.000 conjuntos de dados.

O motivo pelo qual Data.gov é um ótimo recurso é porque você pode encontrar dados, ferramentas e recursos que podem ser implantados para uma variedade de finalidades. Você pode conduzir sua pesquisa, desenvolver seus aplicativos web e móveis e até mesmo projetar visualizações de dados.

Tudo o que você precisa fazer é inserir palavras-chave na caixa de pesquisa e navegar pelos tipos, tags, formatos, grupos, tipos de organização, organizações e categorias. Isso facilitará o acesso aos dados ou conjuntos de dados de que você precisa.

Data.gov segue o esquema de dados abertos do projeto - um conjunto de campos de requisitos (Título, Descrição, Marcas, Última atualização, Editor, Nome do contato, etc.) para cada conjunto de dados exibido em Data.gov.

9. DBpedia

Como você sabe, a Wikipedia é uma grande fonte de informação. DBpedia tem como objetivo obter conteúdo estruturado a partir das informações valiosas que a Wikipedia criou.

Com a DBpedia, você pode pesquisar e explorar semanticamente relacionamentos e propriedades do recurso da Wikipedia. Isso inclui links para outros conjuntos de dados relacionados.

Existem cerca de 4,58 milhões de entidades no conjunto de dados DBpedia. 4,22 milhões são classificados em ontologia, incluindo 1.445.000 pessoas, 735.000 lugares, 123.000 álbuns de música, 87.000 filmes, 19.000 videogames, 241.000 organizações, 251.000 espécies e 6.000 doenças.

Existem rótulos e resumos para essas entidades em cerca de 125 idiomas. Existem 25,2 milhões de links para imagens. Existem 29,8 milhões de links para páginas externas.

Tudo que você precisa fazer para usar a DBpedia é escrever consultas SPARQL no endpoint ou fazer o download de seus dumps.

A DBpedia tem beneficiado várias empresas, como Apple (via Siri), Google (via Freebase e Google Knowledge Graph) e IBM (via Watson), e em particular seus respectivos projetos de prestígio associados à inteligência artificial.

10. Dados abertos do freeCodeCamp

É uma comunidade de código aberto. Isso é importante porque permite que você codifique, crie projetos pro bono após organizações sem fins lucrativos e consiga um emprego como desenvolvedor.

Para que isso aconteça, a comunidade freeCodeCamp.org disponibiliza enormes quantidades de dados todos os meses. Eles os transformaram em dados abertos.

Você encontrará uma variedade de coisas neste repositório. Você pode encontrar conjuntos de dados, análises dos mesmos e até demonstrações de projetos com base nos dados do freeCodeCamp. Você também pode encontrar links para projetos externos envolvendo os dados freeCodeCamp.

Ele pode ajudá-lo com uma diversidade de projetos e tarefas que você possa ter em mente. Quer se trate de análise da web, análise de mídia social, análise de rede social, análise de educação, visualização de dados, desenvolvimento de web orientado por dados ou bots, os dados oferecidos por esta comunidade podem ser extremamente úteis e eficazes.

11. Conjuntos de dados abertos do Yelp

O conjunto de dados do Yelp é basicamente um subconjunto de nada além de nossos próprios negócios, avaliações e dados do usuário para uso em atividades pessoais, educacionais e acadêmicas.

Existem 5.996.996 avaliações, 188.593 empresas, 280.991 fotos e 10 áreas metropolitanas incluídas nos conjuntos de dados abertos do Yelp.

Você pode usá-los para finalidades diferentes. Como eles estão disponíveis como arquivos JSON, você pode usá-los para ensinar aos alunos sobre bancos de dados. Você pode usá-los para aprender PNL ou para dados de produção de amostra enquanto entende como projetar aplicativos móveis.

Neste conjunto de dados, você encontrará cada arquivo composto por um único tipo de objeto, um objeto JSON por linha.

12. Conjunto de dados UNICEF

Visto que o UNICEF se preocupa com uma ampla variedade de questões críticas, ele compilou dados relevantes sobre educação, trabalho infantil, deficiência infantil, mortalidade infantil, mortalidade materna, água e saneamento, baixo peso ao nascer, cuidados pré-natais, pneumonia, malária, deficiência de iodo distúrbio, mutilação / corte genital feminino e adolescentes.

Os conjuntos de dados abertos do UNICEF publicados no Registro da IATI: //www.iatiregistry.org/publisher/unicef ​​foram extraídos diretamente do sistema operacional do UNICEF (VISION) e de outros sistemas de dados e refletem as entradas feitas por escritórios individuais do UNICEF.

O bom é que há uma atualização regular quando se trata desses conjuntos de dados. Todos os meses, os dados são atualizados de forma a torná-los mais completos, fiáveis ​​e precisos.

Você pode acessar esses dados de forma fácil e livre. Para fazer isso, você pode baixar esses dados em formato CSV. Você também pode visualizar os dados de amostra antes de baixá-los.

Embora qualquer pessoa possa explorar e visualizar os conjuntos de dados do UNICEF, existem três editores principais:

PORTAL DE TRANSPARÊNCIA DE AJUDA DA UNICEF: Você pode acessar os conjuntos de dados com muito mais facilidade se usar este portal. Também inclui detalhes para cada país em que o UNICEF trabalha.

Editora d-portal: Está, no momento, em versão BETA. Com este portal, você pode explorar dados IATI.

Você pode pesquisar as informações relacionadas às atividades de desenvolvimento, orçamentos, etc. Você pode explorar essas informações por país.

Plataforma de dados do editor: Nesta plataforma, você pode acessar facilmente estatísticas, gráficos e métricas sobre os dados acessados ​​por meio do Registro IATI. Se você clicar nos cabeçalhos, também poderá classificar muitas das tabelas que vê na plataforma. Você também encontrará muitos dos conjuntos de dados nas plataformas em formato JSON legível por máquina.

13. Kaggle

O Kaggle é ótimo porque promove o uso de diferentes formatos de publicação de conjuntos de dados. No entanto, a melhor parte é que ele recomenda fortemente que os editores do conjunto de dados compartilhem seus dados em um formato acessível e não proprietário.

A plataforma suporta formatos de dados abertos e acessíveis. É importante não apenas para acesso, mas também para tudo o que você deseja fazer com esses dados. Portanto, o conjunto de dados Kaggle define claramente os formatos de arquivo que são recomendados durante o compartilhamento de dados.

A única coisa sobre os conjuntos de dados Kaggle é que eles não são apenas um repositório de dados. Cada conjunto de dados representa uma comunidade que permite a você discutir dados, descobrir códigos e técnicas públicas e conceituar seus próprios projetos em Kernels.

CSV, JSON, SQLite, Archive, Big Query etc. são tipos de arquivos que o Kaggle suporta. Você pode encontrar uma variedade de recursos para começar a trabalhar em seu projeto de dados abertos.

A melhor parte é que o Kaggle permite que você publique e compartilhe conjuntos de dados de forma privada ou pública.

14. LODUM

É a iniciativa de dados abertos da Universidade de Münster. Com essa iniciativa, é possível que qualquer pessoa tenha acesso a qualquer informação pública sobre a universidade em formatos legíveis por máquina. Você pode acessá-lo facilmente e reutilizá-lo de acordo com suas necessidades.

Dados abertos sobre artefatos científicos e codificados como dados vinculados são disponibilizados neste projeto.

Com a ajuda do Linked Data, é possível compartilhar e utilizar dados, ontologias e diversos padrões de metadados. Prevê-se, de fato, que será o padrão aceito para fornecer metadados, e os próprios dados na web.

A equipe LODUM co-iniciou LinkedUniversities.org e LinkedScience.org.

Você pode usar o editor SPARQL ou o pacote SPARQL de R para analisar dados.

O pacote SPARQL permite conectar a um terminal SPARQL sobre HTTP, fazer uma consulta SELECT ou uma consulta de atualização (LOAD, INSERT, DELETE).

15. Repositório de Aprendizado de Máquina UCI

Ele serve como um repositório abrangente de bancos de dados, teorias de domínio e geradores de dados que são usados ​​pela comunidade de aprendizado de máquina para a análise empírica de algoritmos de aprendizado de máquina.

Neste repositório, existem, atualmente, 463 conjuntos de dados a serviço da comunidade de aprendizado de máquina.

O Centro de Aprendizado de Máquina e Sistemas Inteligentes da Universidade da Califórnia, Irvine o hospeda e mantém. David Aha o criou originalmente como um estudante de graduação na UC Irvine.

Desde então, alunos, educadores e pesquisadores em todo o mundo o utilizam como uma fonte confiável de conjuntos de dados de aprendizado de máquina.

Como funciona é que cada conjunto de dados tem sua página da web distinta, que lista todos os detalhes conhecidos, incluindo quaisquer publicações relevantes que o investiguem. Você pode baixar esses conjuntos de dados como arquivos ASCII, geralmente o formato CSV útil.

Os detalhes dos conjuntos de dados são resumidos por aspectos como tipos de atributos, número de instâncias, número de atributos e ano de publicação que podem ser classificados e pesquisados.

Abra portais de dados e mecanismos de pesquisa:

Embora haja muitos conjuntos de dados publicados por várias agências todos os anos, poucos conjuntos de dados são reconhecidos e estabelecidos.

A razão pela qual muito poucos conjuntos de dados são mantidos como recursos úteis é que é um desafio desenvolver, gerenciar e fornecer os dados de uma forma que as pessoas e as organizações os considerem úteis e fáceis de usar.

No entanto, encontre abaixo uma lista de outros portais e plataformas de dados abertos importantes que permitem aos usuários acessar dados abertos com bastante facilidade, estudar o impacto e obter informações valiosas.

  1. Pesquisa de conjunto de dados do Google
  2. Dataverse
  3. Open Data Kit
  4. Ckan
  5. Abra o Data Monitor
  6. Plenar.io
  7. Mapa de impacto de dados aberto

Conclusão

Os dados abertos estão na ordem do dia. O mundo começou gradualmente a se mover em direção a sistemas abertos e os dados abertos estão corretamente sincronizados com isso.

Os negócios e organizações que utilizam dados abertos ganharão uma vantagem competitiva e serão capazes de dominar o futuro.