Reconhecimento Óptico de Caracteres (OCR) para manuscritos
OCR (Optical Character Recognition) permite fazer o reconhecimento digital de caracteres (letras, números, símbolos, etc), o que é algo que importa investigar no âmbito da tecnologia, para conseguir extrair informação proveniente de uma imagem, para obter informação que possa ser tratada digitalmente e construir uma base de dados, por exemplo.
Como estou a fazer o estudo genealógico da minha família, leio muitos ficheiros digitalizados de registos paroquiais e torna-se exaustivo ler e reler os mesmos livros à procura de informações de uma pessoa e noutra iteração ler e reler outra vez os mesmos livros à procura de dados sobre outra pessoa. O que dava mesmo jeito era ter uma base de dados onde residissem as informações das pessoas registadas nos livros, de modo a poder fazer uma pesquisa rapidamente através de filtros. Embora haja sites onde estas bases de dados estejam a ser construidas manualmente, com a colaboração de diversas pessoas que têm o trabalho de ler e registar manualmente na base de dados, a informação lida a partir de cada registo.
Mas se houvesse um automatismo que permitisse construir uma base de dados, a partir de uma digitalização de registos paroquiais, é que era! Dava mesmo jeito!
Sabe-se que existem ferramentas que fazer OCR para texto digitalizado em imagens. Um registo paroquial tem a dificuldade de ser um registo manuscrito, com letras escritas à mão, de várias formas e feitios, consoante a época ou consoante o pároco. Por isso a ferramenta ideal, para além de saber fazer OCR, também tem de saber tirar partido da inteligência artificial, para ela própria aprender o que pode reconhecer consoante as diversas fontes manuscritas. Será que já existe uma ferramenta assim?
Por isso, comecei a investigar o que existe em termos de tecnologia nos dias de hoje, e fazer experiências...
Artigos:
- Encontrei um artigo num blog [2017] onde este problema é abordado: OCR para manuscritos, onde foram feitas experiências com várias ferramentas já existentes. Irei seguir este artigo para ver se consigo obter o que pretendo... depois darei novidades sobre os resultados das experiências. Para resumir, este artigo sugere usar-se o OCRopy para fazer o reconhecimento OCR, mas com um tratamento prévio da imagem através do ScanTailor.
- Neste artigo [2019] sugere a utilização do Kraken, embora também indique que existem outras ferramentas como o Tessaract e o OCRopy
Comentários
Enviar um comentário