'pdf'에 해당되는 글 1건

  1. 2010.09.30 Naver Lab 이미지 문자 인식 OCR 4
2010. 9. 30. 10:56
사용자 삽입 이미지

대학원생 생활을 하다 보니

가끔씩 PDF 파일을 한글(HWP, DOC) 파일로 변환을 해야 하는 경우가 종종 생기는

이런 우울함 ㅠㅠㅠㅠㅠㅠ

그렇게 몇 번을 하다 이번에 허거덕^^;;

하는 경우가 생겼으니 ㅠㅠㅠㅠ

지금까지는 PDF 파일 자체가 문자가 복사가 되는 경우

사용자 삽입 이미지

요런 경우에 해당하여 그냥 Ctrl + C 그리고 Ctrl + V 를 이용해서

한글 워드프로세스 프로그램에 붙여 넣기 해서 문서 편집만 하면 되는 경우라서

그렇게 했는데

PDF 파일 자체가 이미지화가 되어서

아예 글자 복사가 안되는 경우가 있었으니 ㅠㅠㅠㅠㅠ

사용자 삽입 이미지

허걱 ㅠㅠㅠㅠㅠㅠㅠ

이 경우를 어찌 해야 하는가 하는 난감함에 봉착. ㅠㅠㅠㅠㅠ

페이지가 2~3페이지 정도라면 그냥 다시 타이핑을 하면 되는 것이지만

30장이 넘어가면 ㅠㅠㅠㅠ

그걸 다 어찌 다시 타이핑 하고 있는 것인가? ㅠㅠㅠ

그래서 찾은 방법 첫번째

네이버 지식인에 물어보기..ㅋㅋㅋㅋㅋㅋㅋㅋㅋ

당연히 있을 줄 알았다. ㅠㅠㅠ

하지만 이렇게 이미지화 된 것은 없었다. ㅠㅠㅠㅠ

결국은 모두다 다시 타이핑을 하기로 마음 먹은 순간..

올레(alleh) 하는 사건이 있었으니

그건 바로 다름 아닌 네이버 랩의 이미지 문자 인식 OCR ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

세상에 이 기쁨을 어찌 말로 표현 할 수 있을까놔? ㅋㅋㅋㅋ

사용자 삽입 이미지

나를 구원해준 네이버에 먼저 감사의 인사를 꾸벅 ^&^

나의 구세주이자 구원군인 이미지 문자 인식 OCR 홈페이지를 소개 합니다. ㅋㅋㅋㅋ


자 그러면 문자 인식을 들어가 볼까 합니다. ㅋㅋㅋㅋㅋㅋㅋ

우선 제일 먼저 준비해야 할 것은 홈페이지에 안내글이 있지만

다시한번 이미지 파일은 jpg 파일이어야 하고 파일 크기는 1장당 5M 이하

그리고 이미지에 포함된 문자는 최대한 컴퓨터 문서를 스캔하거나 이미지화 한 파일이 인식률이 높다는거

ㅋㅋㅋㅋㅋㅋㅋ

요렇게 준비를 합니다.

즉 PDF 파일을 우선은 jpg 파일로 변환 하기 ㅋㅋㅋㅋㅋㅋㅋㅋ

jpg 파일은 파일 하나에 다중의 이미지가 저장되는 gif 형식이랑 달라서

pdf 파일을 jpg로 변환하면

사용자 삽입 이미지

요렇게 파일이 많이 생겨서 일일이 수작업을 해야 하기는 하지만

그래도 타이핑을 해야 하는 것에 비하면

하늘이 제게 주신 선물이 아닌 듯 싶습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

그럼 이렇게 jpg로 파일 변환을 시켜 놓고

이미지 파일에서 글자 추출을 해보겠습니다. ㅋㅋㅋ

사용자 삽입 이미지

우리의 구세주 OCR 페이지에서 "이미지 올리기" 클릭 클릭 ㅋㅋ

사용자 삽입 이미지

그럼 이렇게 평가 결과가 나옵니다.

예상인식률 95% ㅋㅋㅋㅋㅋ 가능하다는 이 기쁨 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

이 기쁨을 어찌 말로 설명하겠습니까? ^&^

이렇게 적합하다고 나오면

다음 성능개선을 위한 파일 공유에 동의하는지를 체크 하시고

사용자 삽입 이미지

우리의 구세주 "이미지 문자 인식 실행" 을 클릭합니다. 고고고공!!!!!

사용자 삽입 이미지

그럼 이렇게 문자가 되어 나타나는 고마운 네이버 OCR ㅋㅋㅋㅋㅋㅋㅋ

나의 수고를 엄청 덜어 줌에 감사함을 생각하며

한글 워드프로세서에 붙여 넣고

이제는 조금씩 조금씩 편집을 살짝꿍 해주면 된다는..ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

이런 감사함을 어찌 다 말로 표현할지..ㅋㅋㅋㅋㅋㅋㅋ

이렇게 한장 한장 하면서 모든 pdf 파일에서 글자 추출 완료..ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ

감사합니다. 네이버 ^^


참고로 꼭 다 하고 나서 원본과 비교하면서

문서 편집은 꼭 필요하다는거 잊지마시기를. ^^
Posted by zmaster