1. Extrair

Como extrair, baixar, hackear dados escondidos em páginas html, quebrar PDFs (extracting, getting, hacking, scraping data trapped in pdf files or html pages)

Extrair dados de páginas web (html)

Converter PDF para Excel

Editar PDFs (mesclar, dividir, desbloquear,…)

OCR (digitalizar texto de imagens)

Outras coisas

Contratando alguém

Extrair dados de páginas web (HTML)


import.io

Desktop (win/mac/linux)

  • Serve para:
    • raspagem de dados sem precisar programar
    • extrair conteúdo de páginas html e transformar em tabela (download em CSV)
  • Parece com o Kimono
  • Tem uma versão rápida pra raspar listas: magic.import.io
  • Tutorial: scrape without coding with import.io

https://import.io

magic.import.io

Online

  • Raspar dados em lista de qualquer site
  • Entrada: um URL
  • Saída: lista de itens da página (filmes do imdb, produtos da amazon, jobs no linkedin, …)
  • Muito fácil de usar

https://magic.import.io/

Kimono Labs (descontinuado)

Agora, versão desktop apenas

  • Licença: grátis até 20.000.000 páginas
  • Tutorial/demonstração rápida: http://youtu.be/8g6GBjz3K6s
  • Pra mim, é o futuro da extração de dados. É genial.
  • Ótima e intuitiva interface. É possível fazer tudo sem uma linha de código. Ele cria APIs para extrair o conteúdo uma vez ou ficar rodando frequentemente (1x a cada 15min, 1x/dia, 1x/mês, …)
  • Serve pra: Extrair conteúdo de páginas html. Extrair conteúdo de várias páginas (scrape multiple html pages)
  • Como usar: Instalar extensão do chrome ou arrastar o bookmarklet na barra de favoritos (Instale aqui). Abrir página com o conteúdo a ser extraído. Iniciar Kimono. Clicar nos elementos da página que tem a informação desejada. Depois clicar em “Done” pra fazer os ajustes finais ou avançados da API.
  • As APIs criadas ficam associadas ao seu login.
  • Tem várias opções para vasculhar mais de uma página: inserir lista pronta de URLs, puxar lista de URLs de outra API feita no próprio Kimono ou gerar lista (Generated URL list). Nesse último, o esquema mais legal, o Kimono identifica os “pedaços” do URL que pode ser variáveis e desmonta a URL pra você escolher se cada parte vai ser fixa (Default Value), numérica (Range) ou uma lista de variáveis, separadas entre vírgulas (Custom list). Entenda melhor nessa imagem
  • Ainda tem problemas com: conteúdos carregados dinamicamente
  • Saída: CSV, JSON, RSS.

https://www.kimonolabs.com

Google spreadsheets

Online

  • Função “importHTML” ou “importXML”
  • Serve pra: extrair conteúdo de páginas html
  • Bom pra uma ou poucas páginas
  • Mantém a tabela atualizada com a fonte (se a página atualizar, os dados no seu google drive também vão atualizar)

http://escoladedados.org/manual/recipes/liberating-html-tables/

Scraper

Extensão do Chrome

  • Licença: Free / Open Source
  • Serve pra: extrair conteúdo de páginas em html.
  • Como usar: clicar com o botão direito em uma informação (ex: uma célula de uma tabela) e “Scrape similar”. O plugin vai encontrar estruturas similares (ex.: a tabela inteira)
  • Saída: Copiar a tabela do preview ou exportar tabela para o Google Docs
  • Funciona legal
  • Na maioria dos casos não vai ser muito fácil conseguir todo o conteúdo desejado. Então vai ser necessário um conhecimento básico de html.
  • Tutorial: Escola de dados – Scraper for chrome

https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd

DownThemAll

Plugin do Firefox

  • Licença: Free / Open Source
  • Serve pra: Baixar links ou arquivos em uma página.
  • Como funciona: O plugin detecta tudo que tem de conteúdo externo na página (links, imagens, arquivos) e oferece uma janela pra escolher o que baixar.
  • Possível Filtrar e escolher como renomear os arquivos
  • Funciona muito bem
  • Bom pra grande quantidade de arquivos (já baixei mais de 1000 htmls de uma vez)

https://addons.mozilla.org/pt-br/firefox/addon/downthemall/

Outwit

Plugin do Firefox

Helium Scraper

Desktop (Win)

  • Grátis por 10 dias
  • Licença: Paga. Básica: $99
  • Fácil de usar, tudo via interface
  • Definir campos antes de puxar dados, criar filtros, …

http://www.heliumscraper.com

Google Refine + Scraper (Chrome extension)

Tutoriais sobre como extrair conteúdo de páginas html

PDF para Excel (PDF to XLS)


Comet Docs

Conversor online

  • Licença: grátis pra 5 conversões por semana
  • Entrada: PDF
  • Saída: XLS, TXT…
  • Funciona super bem!

http://www.cometdocs.com/

Tabula

Desktop (mac/win). Roda no browser

  • Licença: Free / Open Source
  • Serve pra: Extrair dados de PDFs (tabelas)
  • Fácil de usar
  • Entrada: PDF
  • Saída: CSV ou TSV
  • Como usar: desenhar um retângulo sobre uma tabela, e ele identifica os dados e oferece opção de copiar ou baixar. Se o arquivo tiver tabelas idênticas (mesma posição e tamanho) em todas as páginas, tem um botão “Repetir seleção”.
  • Bom pra PDFs com poucas páginas (se tiver que desenhar a seleção em todas) ou com estrutura idêntica em todas as páginas (pra usar o “Repetir seleção”).

http://tabula.nerdpower.org/

PDF to Excel online (Nitro)

Conversor online

  • Licença: grátis até 5mb ou 50 páginas
  • Como funciona: você envia o arquivo .pdf, o site converte e manda o .xls para seu email
  • Se não quiser cadastrar seu email, você pode usar um serviço de email descartável, como o Mailinator (Você entra com um email aleatório, como anabanana@mailinator.com, e clique em Check it pra receber)
  • Funciona em alguns casos (pdfs não muito avacalhados)
  • Entrada: PDF, DOC, PPT
  • Saída: XLS, DOC…
  • Limite do tamanho do arquivo: 5mb ou 50 páginas

https://www.pdftoexcelonline.com

Zamzar

Conversor online

  • Como funciona: você envia o arquivo .pdf, o site converte e manda o .xls para seu email
  • Se não quiser cadastrar seu email, você pode usar um serviço de email descartável, como o Mailinator (Você entra com um email aleatório, como anabanana@mailinator.com, e clique em Check it pra receber)
  • Funciona em alguns casos (pdfs não muito avacalhados)
  • Entrada: PDF
  • Saída: XLS, CSV, DOC…
  • Limite do tamanho do arquivo: 10mb

http://www.zamzar.com/

PDF Tables (do ScraperWiki)

Conversor online

  • Licença: grátis pra 5 PDFs
  • Entrada: PDF
  • Saída: XLS
  • Ainda não testei

https://pdftables.com/

Adobe Acrobat Reader

Desktop (win/mac)

  • Licença: Free
  • Selecionar, copiar e colar no Excel ou editor de texto.
  • Funciona para poucos casos, é bem manual.
  • Se você selecionar segurando a tecla Alt, é possível selecionar apenas uma coluna por vez. É bem útil quando os dados estão vindo truncados entre uma coluna e outra.

http://www.adobe.com/products/reader.html

Adobe Acrobat Pro

Desktop (win/mac)

  • Licença: paga. Vendido individualmente ($19/mês), ou junto com a suíte Adobe Cloud ($99/mês)
  • O Acrobat PRO a partir da versão 10 (X) tem uma função File > Export > XLSX
  • Se a tabela não sai perfeita, pelo menos reconhece a maioria dos tabs e separa bem as colunas
  • Funciona em quase todos os casos
  • Entrada: PDF
  • Saída: XLS

http://www.adobe.com/br/products/acrobatpro.html

Tutoriais sobre como limpar PDFs

Editar PDFs


I love PDF

Conversor online. Dividir, mesclar, comprimir PDFs.

  • Licença: free
  • Entrada: PDF, XLS, DOC, PPT
  • Saída: PDF mesclado, PDF dividido, PDF comprimido
  • Merge PDF, Split PDF, Compress PDF, Word to PDF, Powerpoint to PDF, Excel to PDF, PDF to JPG, JPG to PDF

http://www.ilovepdf.com/

PDF Mergy

Online. Mesclar arquivos PDF

  • Licença: free
  • Entrada: Vários PDFs
  • Saída: Um PDF

https://pdfmerge.w69b.com/

PDF Unlock – Desbloquear PDFs

Desktop (mac)

  • Licença: free
  • Entrada: PDF bloqueado com senha
  • Saída: PDF livre pra copiar conteúdo
  • Ajuste as preferências pra funcionar melhor
  • Funciona muito bem, com muitos arquivos ao mesmo tempo

http://www.macupdate.com/app/mac/35106/pdf-unlock

OCR, converter imagens em texto, JPG > TXT

Reconhecimento ótico de caracteres (ou como “ler” documentos que estão em formato imagem, ou em imagens dentro de um pdf). Digitalização/extração de textos que estão em arquivos de imagem, como documentos escaneados (optical character recognition, extracting text from scanned documents, jpg2txt)


OCR no Google Drive

Online

  • Super simples e funciona bem
  • Tutorial rápido:

    • Abra drive.google.com com sua conta
    • Faça o Upload de um texto em formato PDF ou imagem (JPG, PNG…)
    • Clique com o botão direito no arquivo
    • Abrir com > Documentos Google
    • O Google Drive abrirá um arquivo de texto com o conteúdo da imagem interpretado
  • Tutorial sobre como preparar os arquivos antes do OCR

https://drive.google.com/

Online OCR

Online

http://www.onlineocr.net/

NewOCR.com

Online

http://www.newocr.com/

DocumentCloud (ocr)

Online

  • Upload dos documentos
  • Reconhecimento de caracteres
  • Publicação (dos originais, do texto extraído, das anotações da galera)
  • Acesso a jornalistas (1 conta por redação, parece)

http://www.documentcloud.org

ZAMZAR

Conversor online

  • Conversor de arquivos (PDF, Excel, …)
  • Parece ter função de OCR no caso de upload de imagens

http://www.zamzar.com/

Simile Exhibit

  • Analisar documentos, fazer buscas,

http://simile-widgets.org/wiki/Exhibit

Tutoriais de OCR

Scanned Image to Excel Converter

http://www.verypdf.com/app/scan-to-excel-ocr/scanned-image-to-excel-converter.html

Tesseract (ocr)

Engine (não é um software pronto com interface. precisa ser usado com programação)

  • Reconhecimento de caracteres

http://code.google.com/p/tesseract-ocr/

Free OCR

Online

http://www.free-ocr.com/

Outras coisas


Extrair listas de um site

Online

  • Entrada: um URL
  • Saída: lista de itens da página (filmes do imdb, produtos da amazon, jobs no linkedin, …)

https://magic.import.io/

Extrair URLs de um texto

Online

  • Entrada: um texto, uma lista, o código fonte de uma página
  • Saída: apenas uma lista dos URLs limpos que estavam contidos no texto

https://anta.digitalmethods.net/beta/harvestUrls/

Contratando alguém


Uma opção é contratar alguém pra baixar ou limpar os dados. Pode ser útil quando a quantidade de dados é muito grande e não há equipe disponível pra fazer isso. Nunca usei, mas ouvi falar destas opções:

Mechanical Turk

Tutorial: ProPublica’s Guide to Mechanical Turk

http://www.propublica.org/article/propublicas-guide-to-mechanical-turk

Scraper wiki

https://scraperwiki.com/