logo

Ištraukite tekstą iš PDF failo naudodami Python

Visi turite žinoti, kas yra PDF. Tiesą sakant, jie yra viena iš svarbiausių ir plačiausiai naudojamų skaitmeninių laikmenų. PDF reiškia Nešiojamojo dokumento formatas . Tai naudoja .pdf pratęsimas. Jis naudojamas norint patikimai pateikti ir keistis dokumentais, nepriklausomai nuo programinės įrangos, aparatinės įrangos ar operacinės sistemos.

Mes ištrauksime tekstą iš pdf failų naudodami dvi Python bibliotekas, pypdf ir PyMuPDF , šiame straipsnyje.



Teksto ištraukimas iš PDF failo naudojant pypdf biblioteką.

Python paketas pypdf gali būti naudojamas norint pasiekti tai, ko norime (teksto ištraukimas), nors jis gali padaryti daugiau nei mums reikia. Šis paketas taip pat gali būti naudojamas PDF failams generuoti, iššifruoti ir sujungti. Pastaba: Norėdami gauti daugiau informacijos, žr Darbas su PDF failais Python

Montavimas

Norėdami įdiegti šį paketą, terminale įveskite žemiau esančią komandą.

pip install pypdf>

Pavyzdys: Įvesti PDF: ekstraktas-pdf-tekstas-python



Python3






lygu java

# importing required modules> from> pypdf>import> PdfReader> > # creating a pdf reader object> reader>=> PdfReader(>'example.pdf'>)> > # printing number of pages in pdf file> print>(>len>(reader.pages))> > # getting a specific page from the pdf file> page>=> reader.pages[>0>]> > # extracting text from page> text>=> page.extract_text()> print>(text)>

>

>

Išvestis:

ekstraktas-pdf-python

Pabandykime suprasti aukščiau pateiktą kodą dalimis:

reader = PdfReader('example.pdf')>
  • Mes sukūrėme objektą PdfReader klasė iš pypdf modulis.
  • The PdfReader klasė paima reikiamą kelio į pdf failą padėties argumentą.
print(len(reader.pages))>
  • puslapių turtas pateikia sąrašą Puslapio objektai . Taigi, čia galime naudoti įmontuotą tik() python funkcija, kad gautumėte pdf failo puslapių skaičių.
page = reader.pages[0]>
  • Dabar, kaip skaitytojas.puslapiai yra sąrašas Puslapio objektai , galime gauti konkretų Puslapis pdf failą bakstelėdami puslapio rodyklę. Python sąraše indeksavimas prasideda nuo 0, taigi skaitytojas.puslapiai[0] suteikia mums pirmąjį pdf failo puslapį.
text = page.extract_text() print(text)>
  • Puslapio objektas turi funkciją ekstrakto_tekstas() Ištraukti tekstą iš pdf puslapio.

Teksto ištraukimas iš PDF failo naudojant PyMuPDF biblioteką.

PyMuPDF yra Python biblioteka, kuri palaiko tokius failų formatus kaip XPS, PDF, CBR ir CBZ. Tačiau kol kas šiame straipsnyje daugiausia dėmesio skirsime PDF (nešiojamojo dokumento formato) failams.

Montavimas

pip install pymupdf pip install fitz>

Norėdami ištraukti tekstą iš pdf, turime atlikti šiuos veiksmus:

  1. Bibliotekos importavimas
  2. Atidaromas dokumentas
  3. Teksto ištraukimas

Pastaba: Mes naudojame sample.pdf čia; Norėdami gauti pdf, naudokite toliau pateiktą nuorodą.

sample.pdf – Nuoroda

1. Bibliotekos importavimas

f filmai

Python3




import> fitz>

>

>

2. Atidaromas dokumentas

Python3


kaip išsiveržti iš amžių ciklo java



doc>=> fitz.>open>(>'sample.pdf'>)>

>

>

Čia sukūrėme objektą, vadinamą doc , o failo pavadinimas turi būti Python eilutė.

3. Teksto ištraukimas

Python3




for> page>in> doc:> >text>=> page.get_text()> >print>(text)>

>

kokio dydžio šis monitorius
>

Čia mes kartojome puslapius pdf formatu ir naudojome get_text() būdas ištraukti kiekvieną puslapį iš failo.

Visas kodas tekstui išgauti

Python3

c# kodo pavyzdžiai




import> fitz> doc>=> fitz.>open>(>'sample.pdf'>)> text>=> ''> for> page>in> doc:> >text>+>=>page.get_text()> print>(text)>

>

>

Išvestis:

Išvada

Mes matėme dvi Python bibliotekas, pypdf ir PyMuPDF , kuris gali išgauti tekstą iš PDF failo. Komentuokite savo pageidaujamą biblioteką iš pirmiau minėtų dviejų bibliotekų.