Permalink

0

Arabische Handschriften & Automatische Texterkennung

Screenshot eines Transkription einer arabischen Handschrift mit dem Programm "Transkribus" (https://blogs.bl.uk/digital-scholarship/2020/01/using-transkribus-for-arabic-handwritten-text-recognition.html)

Die British Library beherbergt eine der größten Samm­lun­gen ara­bis­ch­er Hand­schriften:

Our Ara­bic man­u­scripts date from the ear­ly 8th to the 19th cen­tu­ry AD. They orig­i­nate from a wide range of Arab coun­tries, from Yemen to North Africa, and from oth­er regions with Mus­lim com­mu­ni­ties includ­ing Iran, Cen­tral Asia, India, Chi­na, Indone­sia, Malaysia, and West Africa, show­ing fas­ci­nat­ing vari­a­tions in style and script.

Viele Werke sind schon dig­i­tal­isiert wor­den und online ver­füg­bar.
Nun stellt sich die Frage, wie man sie durch­such­bar machen kann. Dafür müsste eine Tex­terken­nung für die Dig­i­tal­isate durchge­führt wer­den – ein Prozess, der für „sauber getippte“ Texte schon recht gut funk­tion­iert, für Frak­tur- oder gar Hand­schriften aber noch schwierig ist.

Daher führt die British Library zurzeit ein Pro­jekt namens Auto­mat­ic Tran­scrip­tion of His­tor­i­cal Hand­writ­ten Ara­bic Texts:

Through this project we aim to sup­port con­tin­ued research in this area by con­tribut­ing an open image and ground truth dataset of his­tor­i­cal hand­writ­ten Ara­bic texts, ensur­ing his­tor­i­cal Ara­bic col­lec­tions con­tin­ue to ben­e­fit from state-of-the-art devel­op­ments in hand­writ­ten text recog­ni­tion (HTR).

Infor­ma­tio­nen zum Pro­jekt find­en Sie auf dieser Seite der BL sowie in diesem Beitrag zum Dig­i­tal schol­ar­ship blog der BL.

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.