2024 m. sausio 6 d., šeštadienis

Darbas su PDF failais. Žodžių skaičiavimas visoje knygoje.

Praeitos programos pratęsimas. Ši programa suskaičiuoja žodžių pasikartojimą visoje knygoje.

# prijungiama reikalinga biblioteka

import PyPDF2

 

# sukuriamas failo objektas

pdfFileObj = open('Failo_vardas.pdf', 'rb')

 

# sukuriamas skaitymo objektas

pdfReader = PyPDF2.PdfReader(pdfFileObj)

 

# atspausdinamas puslapių skaičius

print(len(pdfReader.pages))

 

# sukuriamas puslapio objektas

m=[]

for i in pdfReader.pages:

    m.append(i)

#pageObj = pdfReader.pages[10]

 

# ištraukiamas tekstas, ištraukimo metu sussumuojami puslapių tekstai į vieną tekstą.


k=''

for i in m:

    k+=i.extract_text()


#print(k)

# uždaromas skaitymo objektas

pdfFileObj.close()


k=k.casefold()

u={")","(","'",",",".",":","`",'_',';','+','-','*','/','"','—',"“"}

for i in u:

    k=k.replace(i,"")

k1=k.split()

del(k)


print('----------------')


k2=[]

for i in k1:

    if i.isnumeric():

        pass

    else:

        k2.append(i)


del(k1)


s=set(k2)



# sukuriame žodyną    

dik={}    

print('žodžių skaičius tekste =',len(k2))

print('žodžių esančių tekste sąrašas =',len(s))

print('----------------')


# užpildome žodyną

for i in s:

#    print(i,'=',k2.count(i))

    dik.update({i:k2.count(i)})

    

del(s)

del(k2)


w=dik.items()


# skaičiuoja žodžius nuo raidžių skaičiaus n1 iki n2

n1=1000

n2=10000

for i,j in w:

    if j<n2 and j>n1:

        print(i,"=",j)

del(dik)

del(w)


Komentarų nėra:

Rašyti komentarą

Atmosferos elektra

"Žaibas trenkiantis išdebesies į Žemės paviršių bendru elektros požiūriu. Tai yra plazmos, esančios Žemės paviršiuje, pavyzdys. Paprast...