Praeitos programos pratęsimas. Ši programa suskaičiuoja žodžių pasikartojimą visoje knygoje.
# prijungiama reikalinga biblioteka
import PyPDF2
# sukuriamas failo objektas
pdfFileObj = open('Failo_vardas.pdf', 'rb')
# sukuriamas skaitymo objektas
pdfReader = PyPDF2.PdfReader(pdfFileObj)
# atspausdinamas puslapių skaičius
print(len(pdfReader.pages))
# sukuriamas puslapio objektas
m=[]
for i in pdfReader.pages:
m.append(i)
#pageObj = pdfReader.pages[10]
# ištraukiamas tekstas, ištraukimo metu sussumuojami puslapių tekstai į vieną tekstą.
k=''
for i in m:
k+=i.extract_text()
#print(k)
# uždaromas skaitymo objektas
pdfFileObj.close()
k=k.casefold()
u={")","(","'",",",".",":","`",'_',';','+','-','*','/','"','—',"“"}
for i in u:
k=k.replace(i,"")
k1=k.split()
del(k)
print('----------------')
k2=[]
for i in k1:
if i.isnumeric():
pass
else:
k2.append(i)
del(k1)
s=set(k2)
# sukuriame žodyną
dik={}
print('žodžių skaičius tekste =',len(k2))
print('žodžių esančių tekste sąrašas =',len(s))
print('----------------')
# užpildome žodyną
for i in s:
# print(i,'=',k2.count(i))
dik.update({i:k2.count(i)})
del(s)
del(k2)
w=dik.items()
# skaičiuoja žodžius nuo raidžių skaičiaus n1 iki n2
n1=1000
n2=10000
for i,j in w:
if j<n2 and j>n1:
print(i,"=",j)
del(dik)
del(w)
Komentarų nėra:
Rašyti komentarą