Dados Finos: 1. Extrair

Lista com as melhores ferramentas grátis para raspagem de dados, para usar sem precisar saber programar. Saiba como extrair, hackear ou baixar dados escondidos em documentos pdf ou páginas html. Conversores de PDF para Excel, conversores de PDF para Word, programas para desbloquear PDFs com senha, para escanear texto a partir de arquivos de imagem (OCR) e técnicas de raspagem de dados.

// Best tools for scraping data trapped in pdf files or html pages, to unlock pdf files, ocr image files

Converter PDF para Excel

Editar PDFs (mesclar, dividir, desbloquear,...)

OCR (digitalizar texto de imagens)

Extrair dados de páginas web (html)

Outras coisas

Contratando alguém

PDF para Excel (PDF to XLS)

Veja aqui mais dicas e as melhores ferramentas grátis para extrair tabelas de PDF para excel: https://www.dadosfinos.info/2023/02/como-converter-pdf-para-excel.html

I Love PDF - PDF to XLS

Conversor online

Licença: grátis (aparentemente)
Entrada: PDF
Saída: XLS, DOC
Funciona melhor que o Comet Docs

http://www.ilovepdf.com/pt/pdf_para_excel

Comet Docs

Conversor online

Licença: grátis pra 5 conversões por semana
Entrada: PDF
Saída: XLS, TXT…
Funciona super bem!

http://www.cometdocs.com/

Tabula

Desktop (mac/win). Roda no browser (tem uma versão online do Tabula aqui, mas os PDFs ficam públicos no site)

Licença: Free / Open Source
Serve pra: Extrair dados de PDFs (tabelas)
Fácil de usar
Entrada: PDF
Saída: CSV ou TSV
Como usar: desenhar um retângulo sobre uma tabela, e ele identifica os dados e oferece opção de copiar ou baixar. Se o arquivo tiver tabelas idênticas (mesma posição e tamanho) em todas as páginas, tem um botão "Repetir seleção".
Bom pra PDFs com poucas páginas (se tiver que desenhar a seleção em todas) ou com estrutura idêntica em todas as páginas (pra usar o "Repetir seleção").

https://tabula.technology/

PDF to Excel online (Nitro)

Conversor online

Licença: grátis até 5mb ou 50 páginas
Como funciona: você envia o arquivo .pdf, o site converte e manda o .xls para seu email
Se não quiser cadastrar seu email, você pode usar um serviço de email descartável, como o Mailinator (Você entra com um email aleatório, como anabanana@mailinator.com, e clique em Check it pra receber)
Funciona em alguns casos (pdfs não muito avacalhados)
Entrada: PDF, DOC, PPT
Saída: XLS, DOC...
Limite do tamanho do arquivo: 5mb ou 50 páginas

https://www.pdftoexcelonline.com

Zamzar

Conversor online

Como funciona: você envia o arquivo .pdf, o site converte e manda o .xls para seu email
Se não quiser cadastrar seu email, você pode usar um serviço de email descartável, como o Mailinator (Você entra com um email aleatório, como anabanana@mailinator.com, e clique em Check it pra receber)
Funciona em alguns casos (pdfs não muito avacalhados)
Entrada: PDF
Saída: XLS, CSV, DOC...
Limite do tamanho do arquivo: 10mb

http://www.zamzar.com/

Adobe Acrobat Reader

Desktop (win/mac)

Licença: Free
Selecionar, copiar e colar no Excel ou editor de texto.
Funciona para poucos casos, é bem manual.
Se você selecionar segurando a tecla Alt, é possível selecionar apenas uma coluna por vez. É bem útil quando os dados estão vindo truncados entre uma coluna e outra.

http://www.adobe.com/products/reader.html

Adobe Acrobat Pro

Desktop (win/mac)

Licença: paga. Vendido individualmente ($19/mês), ou junto com a suíte Adobe Cloud ($99/mês)
O Acrobat PRO a partir da versão 10 (X) tem uma função File > Export > XLSX
Se a tabela não sai perfeita, pelo menos reconhece a maioria dos tabs e separa bem as colunas
Funciona em quase todos os casos
Entrada: PDF
Saída: XLS

http://www.adobe.com/br/products/acrobatpro.html

PDF Tables (do ScraperWiki)

Conversor online

Licença: grátis pra 5 PDFs
Entrada: PDF
Saída: XLS
Ainda não testei

https://pdftables.com/

Tutoriais sobre como limpar PDFs

Convertendo PDFs manualmente pra CSV

https://tabulatethis.wordpress.com/2013/04/09/last-chance-saloon-manually-converting-a-pdf-to-csv-format/
Extracting data tables from PDF files (Kaas & Mulvad, DataHarvest 2014)

http://46.38.172.73/unv/dh14/tipsheet-pdf.pdf
Simple data scraping using online tools

http://internewskenya.org/fellowshipblog/simple-data-scraping-using-online-tools
How to extract data from a PDF

http://www.interhacktives.com/2014/03/12/extract-data-pdf/
The Tyranny of the PDF (os problemas do formato pdf)

https://blog.scraperwiki.com/2013/12/the-tyranny-of-the-pdf/
Turning PDFs to Text (da ProPublica, de 2010)

http://www.propublica.org/nerds/item/turning-pdfs-to-text-doc-dollars-guide

Editar PDFs

I love PDF

Conversor online. Dividir, mesclar, comprimir PDFs.

Licença: free
Entrada: PDF, XLS, DOC, PPT
Saída: PDF mesclado, PDF dividido, PDF comprimido
Merge PDF, Split PDF, Compress PDF, Word to PDF, Powerpoint to PDF, Excel to PDF, PDF to JPG, JPG to PDF

http://www.ilovepdf.com

Unlock PDF - I love PDF

Desbloqueador online. Remove senha de arquivos pdf para permitir edição.

Licença: free
Entrada: PDF bloqueado com senha
Saída: PDF desbloqueado (podendo copiar, editar, imprimir conteúdo)

https://www.ilovepdf.com/unlock_pdf

PDF Mergy

Online. Mesclar arquivos PDF

Licença: free
Entrada: Vários PDFs
Saída: Um PDF

https://pdfmerge.w69b.com/

PDF Unlock - Desbloquear PDFs

Desktop (mac)

Licença: free
Entrada: PDF bloqueado com senha
Saída: PDF livre pra copiar conteúdo
Ajuste as preferências pra funcionar melhor
Funciona muito bem, com muitos arquivos ao mesmo tempo

http://www.macupdate.com/app/mac/35106/pdf-unlock

OCR, converter imagens em texto, JPG > TXT

Reconhecimento ótico de caracteres (ou como "ler" documentos que estão em formato imagem, ou em imagens dentro de um pdf). Digitalização/extração de textos que estão em arquivos de imagem, como documentos escaneados (optical character recognition, extracting text from scanned documents, jpg2txt)

OCR no Google Drive

Online

Super simples e funciona bem
Tutorial rápido:
- Abra drive.google.com com sua conta
- Faça o Upload de um texto em formato PDF ou imagem (JPG, PNG...)
- Clique com o botão direito no arquivo
- Abrir com > Documentos Google
- O Google Drive abrirá um arquivo de texto com o conteúdo da imagem interpretado
Tutorial sobre como preparar os arquivos antes do OCR

https://drive.google.com/

Online OCR

Online

http://www.onlineocr.net/

NewOCR.com

Online

http://www.newocr.com/

DocumentCloud (ocr)

Online

Upload dos documentos
Reconhecimento de caracteres
Publicação (dos originais, do texto extraído, das anotações da galera)
Acesso a jornalistas (1 conta por redação, parece)

http://www.documentcloud.org

ZAMZAR

Conversor online

Conversor de arquivos (PDF, Excel, …)
Parece ter função de OCR no caso de upload de imagens

http://www.zamzar.com/

Simile Exhibit

Analisar documentos, fazer buscas,

http://simile-widgets.org/wiki/Exhibit

Tutoriais de OCR

Scanned Image to Excel Converter

http://www.verypdf.com/app/scan-to-excel-ocr/scanned-image-to-excel-converter.html

Tesseract (ocr)

Engine (não é um software pronto com interface. precisa ser usado com programação)

Reconhecimento de caracteres

http://code.google.com/p/tesseract-ocr/

Free OCR

Online

http://www.free-ocr.com/

Extrair dados de páginas web (HTML)

import.io

Desktop (win/mac/linux)

Serve para:
- raspagem de dados sem precisar programar
- extrair conteúdo de páginas html e transformar em tabela (download em CSV)
Parece com o Kimono
Tem uma versão rápida pra raspar listas: magic.import.io
Tutorial: scrape without coding with import.io

https://import.io

magic.import.io

Online

Raspar dados em lista de qualquer site
Entrada: um URL
Saída: lista de itens da página (filmes do imdb, produtos da amazon, jobs no linkedin, ...)
Muito fácil de usar

https://magic.import.io/

Kimono Labs (descontinuado)

Agora, versão desktop apenas

Licença: grátis até 20.000.000 páginas
Tutorial/demonstração rápida: http://youtu.be/8g6GBjz3K6s
Pra mim, é o futuro da extração de dados. É genial.
Ótima e intuitiva interface. É possível fazer tudo sem uma linha de código. Ele cria APIs para extrair o conteúdo uma vez ou ficar rodando frequentemente (1x a cada 15min, 1x/dia, 1x/mês, ...)
Serve pra: Extrair conteúdo de páginas html. Extrair conteúdo de várias páginas (scrape multiple html pages)
Como usar: Instalar extensão do chrome ou arrastar o bookmarklet na barra de favoritos (Instale aqui). Abrir página com o conteúdo a ser extraído. Iniciar Kimono. Clicar nos elementos da página que tem a informação desejada. Depois clicar em "Done" pra fazer os ajustes finais ou avançados da API.
As APIs criadas ficam associadas ao seu login.
Tem várias opções para vasculhar mais de uma página: inserir lista pronta de URLs, puxar lista de URLs de outra API feita no próprio Kimono ou gerar lista (Generated URL list). Nesse último, o esquema mais legal, o Kimono identifica os "pedaços" do URL que pode ser variáveis e desmonta a URL pra você escolher se cada parte vai ser fixa (Default Value), numérica (Range) ou uma lista de variáveis, separadas entre vírgulas (Custom list). Entenda melhor nessa imagem
Ainda tem problemas com: conteúdos carregados dinamicamente
Saída: CSV, JSON, RSS.

https://www.kimonolabs.com

Google spreadsheets

Online

Função "importHTML" ou "importXML"
Serve pra: extrair conteúdo de páginas html
Bom pra uma ou poucas páginas
Mantém a tabela atualizada com a fonte (se a página atualizar, os dados no seu google drive também vão atualizar)

http://escoladedados.org/manual/recipes/liberating-html-tables/

Scraper

Extensão do Chrome

Licença: Free / Open Source
Serve pra: extrair conteúdo de páginas em html.
Como usar: clicar com o botão direito em uma informação (ex: uma célula de uma tabela) e "Scrape similar". O plugin vai encontrar estruturas similares (ex.: a tabela inteira)
Saída: Copiar a tabela do preview ou exportar tabela para o Google Docs
Funciona legal
Na maioria dos casos não vai ser muito fácil conseguir todo o conteúdo desejado. Então vai ser necessário um conhecimento básico de html.
Tutorial: Escola de dados - Scraper for chrome

https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbkdlecaccepngjd

DownThemAll

Plugin do Firefox

Licença: Free / Open Source
Serve pra: Baixar links ou arquivos em uma página.
Como funciona: O plugin detecta tudo que tem de conteúdo externo na página (links, imagens, arquivos) e oferece uma janela pra escolher o que baixar.
Possível Filtrar e escolher como renomear os arquivos
Funciona muito bem
Bom pra grande quantidade de arquivos (já baixei mais de 1000 htmls de uma vez)

https://addons.mozilla.org/pt-br/firefox/addon/downthemall/

Outwit

Plugin do Firefox

Mais difícil de entender como funciona
Não testei
Tutorial: scraping without programming

Helium Scraper

Desktop (Win)

Grátis por 10 dias
Licença: Paga. Básica: $99
Fácil de usar, tudo via interface
Definir campos antes de puxar dados, criar filtros, ...

http://www.heliumscraper.com

Google Refine + Scraper (Chrome extension)

Serve pra: extrair conteúdo de várias páginas html
Único jeito, fora o kimono, de raspar vários htmls sem programação
Um pouco complicado de acompanhar
Tutorial: Scraping multiple Pages using the Scraper Extension and Refine
Tutorial: Scraping data with Google Refine
Tutorial: Escola de dados - Scraping multiple Pages using the Scraper Extension and Refine

Tutoriais sobre como extrair conteúdo de páginas html

Escola de dados - Raspagem de dados da internet

http://escoladedados.org/manual/cursos/raspagem/
Escola de dados - Liberating HTML Data Tables

http://escoladedados.org/manual/recipes/liberating-html-tables/
E-book: Scraping for journalists, Paul Bradshaw

https://leanpub.com/scrapingforjournalists
Escola de dados - Introdução ao HTML

http://schoolofdata.org/handbook/recipes/introduction-to-html/
Table Capture - Extensão do Google Chrome para copiar tabelas em html

https://chrome.google.com/webstore/detail/table-capture/iebpjdmgckacbodjpijphcplhebcmeop?hl=en
Interhacktives - Scrape data without coding with import.io

http://www.interhacktives.com/2014/03/06/scrape-data-without-coding-step-step-tutorial-import-io/

Outras coisas

Extrair listas de um site

Online

Entrada: um URL
Saída: lista de itens da página (filmes do imdb, produtos da amazon, jobs no linkedin, ...)

https://magic.import.io/

Extrair URLs de um texto

Online

Entrada: um texto, uma lista, o código fonte de uma página
Saída: apenas uma lista dos URLs limpos que estavam contidos no texto

https://anta.digitalmethods.net/beta/harvestUrls/

Contratando alguém

Uma opção é contratar alguém pra baixar ou limpar os dados. Pode ser útil quando a quantidade de dados é muito grande e não há equipe disponível pra fazer isso. Nunca usei, mas ouvi falar destas opções:

Mechanical Turk

Tutorial: ProPublica's Guide to Mechanical Turk

http://www.propublica.org/article/propublicas-guide-to-mechanical-turk

Scraper wiki

https://scraperwiki.com/

Páginas

1. Extrair

PDF para Excel (PDF to XLS)

I Love PDF - PDF to XLS

Comet Docs

Tabula

PDF to Excel online (Nitro)

Zamzar

Adobe Acrobat Reader

Adobe Acrobat Pro

PDF Tables (do ScraperWiki)

Tutoriais sobre como limpar PDFs

Editar PDFs

I love PDF

Unlock PDF - I love PDF

PDF Mergy

PDF Unlock - Desbloquear PDFs

OCR, converter imagens em texto, JPG > TXT

OCR no Google Drive

Online OCR

NewOCR.com

DocumentCloud (ocr)

ZAMZAR

Simile Exhibit

Tutoriais de OCR

Tesseract (ocr)

Free OCR

Extrair dados de páginas web (HTML)

import.io

magic.import.io

Kimono Labs (descontinuado)

Google spreadsheets

Scraper

DownThemAll

Outwit

Helium Scraper

Google Refine + Scraper (Chrome extension)

Tutoriais sobre como extrair conteúdo de páginas html

Outras coisas

Extrair listas de um site

Extrair URLs de um texto

Contratando alguém

Mechanical Turk

Scraper wiki