대학원생 생활을 하다 보니
가끔씩 PDF 파일을 한글(HWP, DOC) 파일로 변환을 해야 하는 경우가 종종 생기는
이런 우울함 ㅠㅠㅠㅠㅠㅠ
그렇게 몇 번을 하다 이번에 허거덕^^;;
하는 경우가 생겼으니 ㅠㅠㅠㅠ
지금까지는 PDF 파일 자체가 문자가 복사가 되는 경우
요런 경우에 해당하여 그냥 Ctrl + C 그리고 Ctrl + V 를 이용해서
한글 워드프로세스 프로그램에 붙여 넣기 해서 문서 편집만 하면 되는 경우라서
그렇게 했는데
PDF 파일 자체가 이미지화가 되어서
아예 글자 복사가 안되는 경우가 있었으니 ㅠㅠㅠㅠㅠ
허걱 ㅠㅠㅠㅠㅠㅠㅠ
이 경우를 어찌 해야 하는가 하는 난감함에 봉착. ㅠㅠㅠㅠㅠ
페이지가 2~3페이지 정도라면 그냥 다시 타이핑을 하면 되는 것이지만
30장이 넘어가면 ㅠㅠㅠㅠ
그걸 다 어찌 다시 타이핑 하고 있는 것인가? ㅠㅠㅠ
그래서 찾은 방법 첫번째
네이버 지식인에 물어보기..ㅋㅋㅋㅋㅋㅋㅋㅋㅋ
당연히 있을 줄 알았다. ㅠㅠㅠ
하지만 이렇게 이미지화 된 것은 없었다. ㅠㅠㅠㅠ
결국은 모두다 다시 타이핑을 하기로 마음 먹은 순간..
올레(alleh) 하는 사건이 있었으니
그건 바로 다름 아닌 네이버 랩의 이미지 문자 인식 OCR ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
세상에 이 기쁨을 어찌 말로 표현 할 수 있을까놔? ㅋㅋㅋㅋ
나를 구원해준 네이버에 먼저 감사의 인사를 꾸벅 ^&^
나의 구세주이자 구원군인 이미지 문자 인식 OCR 홈페이지를 소개 합니다. ㅋㅋㅋㅋ
자 그러면 문자 인식을 들어가 볼까 합니다. ㅋㅋㅋㅋㅋㅋㅋ
우선 제일 먼저 준비해야 할 것은 홈페이지에 안내글이 있지만
다시한번 이미지 파일은 jpg 파일이어야 하고 파일 크기는 1장당 5M 이하
그리고 이미지에 포함된 문자는 최대한 컴퓨터 문서를 스캔하거나 이미지화 한 파일이 인식률이 높다는거
ㅋㅋㅋㅋㅋㅋㅋ
요렇게 준비를 합니다.
즉 PDF 파일을 우선은 jpg 파일로 변환 하기 ㅋㅋㅋㅋㅋㅋㅋㅋ
jpg 파일은 파일 하나에 다중의 이미지가 저장되는 gif 형식이랑 달라서
pdf 파일을 jpg로 변환하면
요렇게 파일이 많이 생겨서 일일이 수작업을 해야 하기는 하지만
그래도 타이핑을 해야 하는 것에 비하면
하늘이 제게 주신 선물이 아닌 듯 싶습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
그럼 이렇게 jpg로 파일 변환을 시켜 놓고
이미지 파일에서 글자 추출을 해보겠습니다. ㅋㅋㅋ
우리의 구세주 OCR 페이지에서 "이미지 올리기" 클릭 클릭 ㅋㅋ
그럼 이렇게 평가 결과가 나옵니다.
예상인식률 95% ㅋㅋㅋㅋㅋ 가능하다는 이 기쁨 ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
이 기쁨을 어찌 말로 설명하겠습니까? ^&^
이렇게 적합하다고 나오면
다음 성능개선을 위한 파일 공유에 동의하는지를 체크 하시고
우리의 구세주 "이미지 문자 인식 실행" 을 클릭합니다. 고고고공!!!!!
그럼 이렇게 문자가 되어 나타나는 고마운 네이버 OCR ㅋㅋㅋㅋㅋㅋㅋ
나의 수고를 엄청 덜어 줌에 감사함을 생각하며
한글 워드프로세서에 붙여 넣고
이제는 조금씩 조금씩 편집을 살짝꿍 해주면 된다는..ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
이런 감사함을 어찌 다 말로 표현할지..ㅋㅋㅋㅋㅋㅋㅋ
이렇게 한장 한장 하면서 모든 pdf 파일에서 글자 추출 완료..ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ
감사합니다. 네이버 ^^
참고로 꼭 다 하고 나서 원본과 비교하면서
문서 편집은 꼭 필요하다는거 잊지마시기를. ^^
'나두블러거 > 각종 후기' 카테고리의 다른 글
ABC타이어에서 타이어 교체기 (0) | 2013.12.13 |
---|---|
삼성 갤럭시 S3와 Dropbox 프로모션 (0) | 2012.12.19 |
Naver Lab 이미지 문자 인식 OCR (4) | 2010.09.30 |
트윅덱(Tweetdeck desktop)으로 포스퀘어(foursquare) 이용하기 (0) | 2010.09.27 |
MPTI검사 (0) | 2010.03.10 |
트위터를 시작하고.. (0) | 2010.02.09 |
댓글을 달아 주세요
저는 러시아 ABBYY FINEREADER 11 쓰고 있는 유저인데요,
문자인식 자주쓰시는 분이시면 이 소프트웨어 많이 편하실듯요 ㅎ
전문 업체에서 만든 OCR 프로그램이기도 하고, 인식율이 워낙 좋아서,
번역이나 업무상으로 쓰이는 일이 많다네요 ㅎ
저도 쓰면서, 정말 만족하고 있습니다 ㅎ 네이버OCR보다는 아마..
월등하게 우수할것같네요 ㅎ
네이버 OCR 서비스도 좋지만, 그래도 OCR은 전문 소프트웨어가 좋은것 같습니다.
위에 분처럼 저도 Finereader 11 버젼 쓰고 있는데, 참 편리하던군요.
특히 한국어 인터페이스가 국내 소비자에게 굉장히 크게 어필하는 것 같습니다.
최근에는 가격 할인 프로모션도 진행중이다고 들은 것 같은데 참고하시면 좋겠네요.
http://finereader.abbyy.com/korean_ocr_software/
공식사이트 주소네요.
이거 교수님 타이핑 심부름하는데는 제격이겠는데요?^^ 좋은 정보 감사드립니다.
제 생각에는 당연히 유료의 OCR 프로그램이 가장 좋기는 하겠지만,
급할 때 그리고 프로그램이 없을 때에는 Naver ocr을 활용하는 것이 나쁘지는 않는 것 같습니다 그래도 제법 높은 인식률을 보여주는 것 같아서 ^^