prosource

PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?

probook 2023. 9. 5. 20:38
반응형

PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?

PHP를 사용하여 PDF 문서에서 텍스트를 추출하는 방법은 무엇입니까?

(다른 도구를 사용할 수 없습니다. 루트 액세스 권한이 없습니다.)

일반 텍스트에 대해 작동하는 일부 기능을 찾았지만 유니코드 문자를 잘 처리하지 못합니다.

http://www.hashbangcode.com/blog/zend-lucene-and-pdf-documents-part-2-pdf-data-extraction-437.html

class.pdf2text를 다운로드합니다.php @ https://pastebin.com/dvwySU1a 또는 https://webcheatsheet.com/php/scripts/pdf2text.zip

코드:

include('class.pdf2text.php');
$a = new PDF2Text();
$a->setFilename('filename.pdf'); 
$a->decodePDF();
echo $a->output(); 

  • class.pdf2text.php 프로젝트 홈
  • pdf2textclass제가 테스트한 모든 PDF에서 작동하지 않습니다. 작동하지 않으면 PDF 파서를 사용해 보십시오.

언급URL : https://stackoverflow.com/questions/6999889/how-to-extract-text-from-the-pdf-document

반응형