Das Zeitungsportal zeit.punkt NRW erhält eine Volltextsuche!

Einklappen
X
 
  • Filter
  • Zeit
  • Anzeigen
Alles löschen
neue Beiträge
  • Ralf-I-vonderMark
    Super-Moderator
    • 02.01.2015
    • 2931

    Das Zeitungsportal zeit.punkt NRW erhält eine Volltextsuche!

    Hallo zusammen,

    für das Zeitungsportal NRW (= zeit.punkt NRW) wird eine Volltextsuche installiert werden; wenn auch erst abschließend eine Volltextsuche für alle Zeitungen im Jahr 2022 erfolgen kann.

    „Der Auftrag zur OCR-Erkennung ist vergeben, der Volltext wird mit der Software Transkribus Platform erzeugt werden. In diesem Jahr wird mit einer Zeitung ein Testlauf durchgeführt, um Workflows und Verfahren zu proben. Ab 2021 wird der gesamte Bestand nach und nach texterkannt. Ende 2022 werden alle Zeitungen im Volltext durchsuchbar sein. Dazu wird voraussichtlich 2022 die Suchoberfläche angepasst.“
    vgl. https://www.compgen.de/2020/07/histo...esbar-gemacht/

    Aber es gibt bereits eine erste Zeitung mit Volltextsuche!

    Derzeit sind bei zeit.punkt NRW 236 Titel aufgelistet. Am 06.02.2019 waren bei zeit.punkt NRW 138 Zeitungen aufgeführt, so dass in 17 Monaten 98 dazu gekommen sind.

    „Aus den Digitalen Sammlungen der Universitäts- und Landesbibliothek Düsseldorf hat das Zeitungsportal zahlreiche Düsseldorfer Zeitungen übernommen, die in den nächsten Wochen vorgestellt werden sollen. Die Digitalisierung dieser Blätter ist nicht vom Film erfolgt, sondern direkt vom Original. Die Qualität der Digitalisate ist damit sehr gut. Zudem sind die Zeitungen durch eine Texterkennung gelaufen, so dass sie im Volltext durchsuchbar sind.“
    (vgl. Artikel vom 28.06.2020 von Michael Herkenhoff auf FACEBOOK; erreichbar über o.g. Link)

    Denn am 12.07.2020 wurde aus den Digitalen Sammlungen der ULB Düsseldorf die "Düsseldorfer Zeitung" in das Portal übernommen. Eingestellt sind Ausgaben vom 1. Januar 1814, also vom Ende der französischen Herrschaft, bis zum Jahr 1848. Zeitweise erschien das Blatt auch unter dem Namen "Neue Düsseldorfer Zeitung". Wie alle aus der ULB Düsseldorf übernommenen Titel ist die Zeitung im Volltext durchsuchbar.
    (vgl. Artikel vom 12.07.2020 von Michael Herkenhoff auf FACEBOOK; erreichbar über o.g. Link)

    Das ist m.E. ein sehr guter Ausblick, auch wenn eine Wartezeit von bis zu 2 ½ Jahren mit viel Geduld überstanden werden muss. Aber sobald die Volltextsuche für alle Zeitungen funktioniert, können wir bestimmt auf viele neue und möglicherweise auch überraschende Funde hoffen.

    Viele Grüße
    Ralf
  • Ralf-I-vonderMark
    Super-Moderator
    • 02.01.2015
    • 2931

    #2
    Hallo zusammen,

    da das alte Jahr nun abgeschlossen ist, bietet sich ein statistischer Zwischenstand und Ausblick an.

    Am 02.01.2021 sind bei zeit.punkt NRW 262 Zeitungsunternehmen und 638 Zeitungstitel aufgelistet. Am 06.02.2019 waren bei zeit.punkt NRW erst 138 Zeitungsunternehmen aufgeführt, so dass in 23 Monaten 124 neue dazu gekommen sind.

    Hinsichtlich der möglichen Volltextsuche ist noch Geduld gefragt.

    Aber im Blog von CompGen ist am 27.11.2020 ein Artikel erschienen, wonach die „Kölnische Zeitung“ nun digitalisiert wird und mit einem Abschluss der Arbeiten bis zum 31.05.2021 gerechnet wird.
    Beachtlich ist, dass die OCR-Texterkennung mit Transkribus auf dem OCR-Server von Read COOP im 1. oder 2. Quartal 2021 erfolgen soll. In einer Fachtagung im Herbst 2021 soll das abgeschlossenen Projekt und die dann online gestellte Zeitung vorgestellt werden.
    vgl. https://www.compgen.de/2020/11/die-k...zeit-punktnrw/

    Viele Grüße und ein erwartungsfrohes Neues Jahr 2021
    Ralf

    Kommentar

    • Ralf-I-vonderMark
      Super-Moderator
      • 02.01.2015
      • 2931

      #3
      Hallo zusammen,

      beim Zeitungsportal NRW (= zeit.punkt NRW) hat es hinsichtlich der zu installierenden Volltextsuche Fortschritte gegeben!

      Denn bislang waren nur die aus den Digitalen Sammlungen der Universitäts- und Landesbibliothek Düsseldorf vom Zeitungsportal übernommenen Düsseldorfer Zeitungen im Volltext durchsuchbar.

      Nunmehr ist das Projekt begonnen worden, um die einzelnen Seiten mit der OCR-Texterkennung zu erfassen.

      Daher können über die o.g. Düsseldorfer Zeitungen hinausgehend auch schon Seiten aus der „Godesberger Volkszeitung“, aus dem „Kölner Lokal-Anzeiger“ und aus einigen kleineren Zeitungen sowie die Jahrgänge 1928 – 1932 der „Dortmunder Zeitung“ online im Volltext durchsucht werden.

      Der „Münsterische Anzeiger" soll voraussichtlich noch in diesem Jahr durch eine Texterkennung laufen.

      Die Suchmaske erscheint stets neben denjenigen Zeitung, welche zumindest schon teilweise von der der OCR-Texterkennung erfasst wurde.

      Eine generelle Volltextsuche über die Homepage in allen Zeitungen ist derzeit offiziell noch nicht möglich, da offenbar zunächst eine Testphase durchlaufen wird, so dass die Suchmöglichkeit auch noch nicht öffentlich verkündet wurde.

      Aber bei google habe ich mit der Eingabe „zeit.punkt.nrw Volltextsuche“ eine Möglichkeit gefunden. In der google-Suche erscheint dann an erster Stelle ein Link zu „zeit.punkt NRW / Detailsuche“, welcher angeklickt werden kann und dann in allen Zeitungen mit einem Suchbegriff gesucht werden kann. Auf der Homepage habe ich diese spezielle Suchseite noch nicht gefunden.

      Zudem wurde von Herrn Herkenhoff am 17.04.2021 im auch für Außenstehende einsehbaren Facebook-Auftritt des Portals folgende Neuerung mitgeteilt:
      Seit dieser Woche bietet das Zeitungsportal zwei neue Funktionalitäten. Die wichtigste ist die Möglichkeit, Volltext herunterzuladen (soweit er vorliegt). Im Hamburger-Menü rechts neben dem Bild der Zeitung befindet sich jetzt ein Icon (unterhalb des PDF-Icons), mit dem man den Text einer Ausgabe downloaden kann. Ich habe das für die vorliegende Ausgabe vom 21. Juli 1932 (sogenannter Preußenschlag, d.h. Absetzung der sozialdemokratisch geführten preußischen Regierung durch die Reichsregierung) der Godesberger Volkszeitung getan, den Text in einem Editor geöffnet und von dort wiederum nach Word kopiert. Bei einer üblichen Standardeinstellung (Times Roman 12, Zeilenabstand 1,5) enthält man eine Worddatei von 67 (!) Seiten (die Zeitungsausgabe enthält 10 Seiten). Das mühselige Abtippen von Zeitungsseiten entfällt damit. Zugleich kann man so auch die Qualität einer OCR erheben. Man sieht, dass diese nicht perfekt ist (welche Texterkennung ist das schon), aber sehr, sehr gut.
      Die Möglichkeit, Volltext herunterzuladen, besteht im Moment nur für die Zeitungen, die schon durch eine OCR gelaufen sind, perspektivisch natürlich für den gesamten Bestand.
      Unterhalb des Texticons befindet sich noch ein weiteres Icon. Klickt man darauf, kann man sich eine komplette Seite als Image herunterladen.
      vgl. https://www.facebook.com/groups/186939308645008/

      Dies sich doch gute Aussichten! Denn bestimmt können bis zum Jahresende deutlich mehr Zeitungen und Zeitungsseiten mit der Volltextsuche durchsucht werden; vielleicht sogar schon die gesamte Dortmunder Zeitung von 1874 – 1939 mit den dortigen Personenstandsmeldungen.

      Viele Grüße
      Ralf

      Kommentar

      • Ralf-I-vonderMark
        Super-Moderator
        • 02.01.2015
        • 2931

        #4
        Hallo zusammen,

        beim Portal zeit.punktNRW geht es mit der online Stellung von Zeitungen und insbesondere mit der Umstellung auf eine Volltextsuche weiter voran!

        Hinzugekommen sind mittlerweile weitere Zeitungen, u.a. am 03.08.2021 die „Lüdenscheider Zeitung“ 1873 – 1923 (amtlicher Anzeiger für den Kreis Altena) sowie insbesondere am 28.07.2021 die Onlinestellung der umfangreichen „Kölnischen Zeitung“ 1803 – 1945, diese sogar mit Volltextsuche!
        vgl. https://zeitpunkt.nrw/ulbbn/periodic...leinfo/9715712

        Nachdem Ende Juni erst die 5 Jahrgänge 1928 – 1932 der „Dortmunder Zeitung“ online im Volltext durchsucht werden konnten, sind nun folgende 15 Jahrgänge durchsuchbar:

        1878,
        1902, 1903,
        1906, 1907,
        1911,
        1913,
        1915,
        1920,
        1927, 1928, 1929, 1930, 1931, 1932.

        Die ziemlich unsystematisch wirkende Auswahl der Jahrgänge erschließt sich mir nicht.

        Im Verlauf dieses Jahres sind weitere Ergänzungen und Verbesserungen am Portal zeit.punktNRW geplant; sicherlich auch eine Auflistung derjenigen Zeitungen, welche schon im Volltext durchsucht werden können.

        Technischer Partner des Portals zeit.punktNRW ist eine Firma Semantics Kommunikationsmanagement GmbH aus Aachen, welche auch an dem Projekt NOAH (Errichtung eines Open-Access-Nachweises von Publikationen aus NRW für Studium und Lehre, Unterstützung von Retrodigitalisierungsmaßnahmen) beteiligt ist.

        Viele Grüße
        Ralf

        Kommentar

        • Ralf-I-vonderMark
          Super-Moderator
          • 02.01.2015
          • 2931

          #5
          Hallo zusammen,

          nun können alle Jahrgänge von 1874 – 1939 der „Dortmunder Zeitung“ online im Volltext durchsucht werden.

          Dies ist aber bei häufigen Familiennamen extrem mühsam und auch bei einer Vielzahl von Namen, welche teilweise identisch mit alltäglichen Begriffen sind, nahezu aussichtslos, weil eine sehr hohe Trefferanzahl angezeigt wird.

          Da uns aber vorrangig standesamtliche Nachrichten interessieren habe ich einen kleinen Tipp.
          Denn mit der „Suche“ kann eine Einschränkung der Treffer durch Verbindung von Familiennamen plus „Aufgebote“, oder „Eheschließungen“, oder „Geburten“ oder „Todesfälle“ erfolgen, auch wenn dann immer noch mehrere hundert Treffer angezeigt werden.

          Sofern eine Wohnanschrift bekannt war, könnte bei der Suche die Verbindung Familiennamen plus Straßennamen zum Erfolg führen, weil zumindest beim Standesamt Dortmund die Anschriften aufgeführt sind.

          Durch Hinzufügen des Vornamens oder Berufes können noch weitere Einschränkungen vorgenommen werden. Eine Erfolgsgarantie ergibt sich daraus aber nicht.

          Funde bleiben daher Glücksache!

          Viele Grüße
          Ralf

          Kommentar

          • Ralf-I-vonderMark
            Super-Moderator
            • 02.01.2015
            • 2931

            #6
            Hallo zusammen,

            Herr Michael Herkenhoff hat gestern aktuelle Neuigkeiten zum Zeitungsportal NRW veröffentlicht:
            Zum Ende des dritten Quartals 2021 ein aktualisierter Statusbericht zum Projekt. Das Portal stellt inzwischen 325 Zeitungsunternehmen mit 783 Zeitungstiteln zur Onlinenutzung und –recherche bereit. Die Karte Nordrhein-Westfalens füllt sich mit roten Punkten von Orten, in denen historische Zeitungen verbreitet und gelesen wurden!
            In den letzten drei Monaten ist das Portal um weitere 618.000 Zeitungsseiten angewachsen. Es enthält jetzt gut 11.655.000 Seiten, von denen knapp 9.370.000 inzwischen online freigegeben werden konnten. Für etwas über 1.700.000 Seiten liegen inzwischen auch die Volltexte vor, darunter für die „Dortmunder Zeitung“, den „Kölner Lokal-Anzeiger“, die „Rhein- und Ruhrzeitung“ sowie den „Generalanzeiger für Bonn und Umgegend“. Da es aber bei der Indexierung der Volltexte im Portal momentan Probleme gibt und damit die Suchergebnisse nicht vollständig sind, habe ich die Volltextsuche in diesen Zeitungen bisher nicht publik gemacht. Wir sind aber zuversichtlich, dass diese Probleme bald mit dem nächsten Update des Systems behoben werden können. Dann wird auch die Volltextsuche auf der Eingangsseite freigegeben.
            Im Rheinland ist die Digitalisierung der Essener Zeitungen abgeschlossen. Sie werden zurzeit im System bearbeitet und dann freigegeben. Begonnen hat jetzt die Digitalisierung von Blättern aus Remscheid. In Westfalen läuft noch die Digitalisierung und Bearbeitung der Hagener Zeitungen. Deren Freigabe soll im ersten Quartal des nächsten Jahres erfolgen. Darüber hinaus werden momentan bei einem Dienstleister Zeitungen von Mikrofiches aus zwei rheinischen und mindestens sieben westfälischen Archiven gescannt. Mit deren Digitalisierung, Bearbeitung und Freigabe wird sich die Zahl der roten Punkte auf der Karte noch einmal deutlich vermehren!!
            vgl. https://www.facebook.com/groups/186939308645008/

            Dies bedeutet, dass die Volltextsuche noch optimiert wird und dann voraussichtlich auch mehr Treffer mit größerer Genauigkeit erzielt werden können. Ferner ist alsbald mit der Freigabe weiterer Zeitungen zu rechnen, wobei sicherlich diejenigen aus Essen und Hagen von großem Interesse sein dürften.

            Viele Grüße
            Ralf

            Kommentar

            • Ralf-I-vonderMark
              Super-Moderator
              • 02.01.2015
              • 2931

              #7
              Hallo zusammen,

              beim Zeitungsportal NRW (= zeit.punkt NRW) wurde mittlerweile die Volltextsuche verbessert.

              Denn bei der erweiterten Suche wurde auch ein Suchschlitz für die Volltextsuche eingerichtet.

              Da eine gezielte Suche nach Personen relativ schwierig ist, habe ich vielleicht einen Suchtipp:

              Wenn die Suchbegriffe AAA und BBB zusammen in die Volltextsuche eingegeben werden, wird offenbar mit der Verknüpfung „oder“ gesucht, was durchaus zufällig zu den gewünschten Ergebnissen führen kann.

              Wenn die Suchbegriffe (AAA BBB) in Klammern eingegeben werden, kann wohl die gewünschte Suchverknüpfung „und“ erreicht werden und die Anzahl der „Treffer“ vermindert werden.

              Wenn die Suchbegriffe „AAA BBB“ in Anführungszeichen eingegeben werden, kann gezielt gesucht werden.

              Dies dürfte entscheidend sein, da mit dieser Methode gezielt nach Personen mit „Vorname Nachname“ oder „Familienname Ort“ oder „Beruf Vorname Nachname“ o.ä. gesucht werden kann.

              Sofern eine Zeitung mit Volltext durchsuchbar ist, erscheint in der rechten Symbolleiste an vierter Stelle das Symbol für „OCR-Text“. Damit kann die Seite in einen Editor übertragen werden und dann eine gewünschte Passage in eine WORD-Datei kopiert werden. Dadurch kann im Bedarfsfall ein mühsames Abschreiben erspart werden, auch wenn wegen einiger Ungenauigkeiten und Fehler der Text noch nachkorrigiert werden muss.

              Auf der Eingangsseite des Portals findet sich unten bei den statistischen Angaben jetzt auch die Anzahl der mit Volltext durchsuchbaren Seiten. Mit heutigem Datum sind es aktuell 2.257.719. Wenn daneben auf „Seiten mit Volltext“ geklickt wird, erscheint eine Übersicht über alle Zeitungen (aktuell 20 Titel), die bisher im Volltext durchsuchbar sind.
              vgl. https://zeitpunkt.nrw/nav/index?face...de%3D%22ocr%22

              Zudem gibt es eine Auflistung zu den aktuellen Neuzugängen mit dem Datum der Einstellung.
              vgl. https://zeitpunkt.nrw/nav/new

              Viele Grüße
              Ralf

              Kommentar

              • staarman
                Erfahrener Benutzer
                • 17.01.2020
                • 792

                #8
                Hallo Ralf,

                ich wollte die Gelegenheit mal nutzen und Dir ein herzliches "Danke Schön" schreiben für die Arbeit, die Du hier machst. Deine Tipps und Aktualisierungen haben mir schon zu vielen neuen Informationen und Ergänzungen verholfen. Wie jetzt gerade wieder in den Zeitungsarchiven, wo für mich viele Überraschungen und "Stories" ans Tageslicht kamen.

                Auf die Idee, es bei diesen Suchsystemen mit boole'scher Logik per (Klammerung) zu versuchen, bin ich noch gar nicht gekommen.


                Herzliche Grüße

                Gerd
                Namen im Fokus:
                • NACHTSHEIM/NACHTSAM/NACHTSEM/NAGTHEIM/NAGTZAAM, EINIG (Rheinland + Hessen), RAFFAUF
                • DITANDY, LOOSEN, NEUKIRCH, SCHOOR, THON, WEINAND,VERHOEVEN, KURFÜRST/KÖRFFER

                Kommentar

                • Ralf-I-vonderMark
                  Super-Moderator
                  • 02.01.2015
                  • 2931

                  #9
                  Hallo zusammen,

                  beim Zeitungsportal NRW (= zeit.punkt NRW) gibt es einen neuen Hinweis zur Volltextsuche.

                  Denn nun wurde von Herrn Herkenhoff am 13.11.2021 in dem auch für Außenstehende einsehbaren Facebook-Auftritt des Portals folgende Information mitgeteilt:
                  Die Einspielung der letzten OCR-Tranche ist abgeschlossen. Damit sind im Portal jetzt 2.613.852 Seiten im Volltext verfügbar. Das sind momentan gut 27,2 % aller freigeschalteten Seiten. Fast vollständig erkannt ist die „Westfälische Zeitung“ aus Bielefeld mit ihren ca. 230.000 Seiten. Damit ist ein weiteres großes Zeitungsunternehmen durchsuchbar. Beim „Aachener Anzeiger“ scheinen dagegen noch einige größere Lücken zu bestehen, die wir noch schließen müssen
                  Mit diesen beiden Blättern sind die zehn benutzungsstärksten Zeitungen jetzt durch die OCR gelaufen. Zurzeit sind ca. 500.000 Seiten in der Texterkennung. Die weitere Abfolge der OCR bestimmt sich nach dem Alphabet, eine einfache und für alle nachvollziehbare Reihenfolge Momentan sind Zeitungsunternehmen mit den Anfangsbuchstaben 'A' bzw. 'B' in Bearbeitung.
                  vgl. https://www.facebook.com/groups/186939308645008/

                  Daraus ergibt sich nun Klarheit für die Reihenfolge der künftigen Durchsuchbarkeit der Zeitungen im Volltext. Dies ist z.B. eine gute Perspektive für alle Interessierten an den Zeitungen aus Altena, welche teilweise erst am 08.10.2021 online freigeschaltet worden sind und schlecht für mein Interesse an den Wittener Zeitungen, für welche erst ganz am Ende die OCR-Kennung eingerichtet sein wird (Ausnahme: Annener Zeitung ab 1885). Immerhin wird die OCR-Kennung für die Bochumer Zeitungen schon jetzt vorbereitet und ist in diesen vielleicht noch in diesem Jahr die Volltextsuche möglich.

                  Viele Grüße
                  Ralf

                  Kommentar

                  • Ralf-I-vonderMark
                    Super-Moderator
                    • 02.01.2015
                    • 2931

                    #10
                    Hallo zusammen,

                    dies dürfte für alle Forscher aus der Region Essen von Interesse sein!

                    Herr Michael Herkenhoff hat gestern aktuelle Neuigkeiten zum Zeitungsportal NRW veröffentlicht:

                    „Es ist geschafft!! Mit der Freigabe von fast 600.000 Seiten Essener Zeitungen hat das Zeitungsportal die 10.000.000 Grenze deutlich überschritten. Mit heutigem Datum sind 10.522.514 Zeitungsseiten frei zugänglich. Zeit.punktNRW hat sich somit in relativ kurzer Zeit zu einem der größten, wenn nicht gar zum größten Zeitungsportal in Deutschland entwickelt! An dieser Stelle herzlichen Dank allen Beteiligten: den Kolleginnen und Kollegen der Projektpartner, den Firmen Semantics und Walter Nagel, vor allem aber den vielen Kooperationspartnern im Land, den Archiven, Bibliotheken und sonstigen Institutionen in Nordrhein-Westfalen, die ihre Bestände für dieses Projekt zur Verfügung gestellt haben bzw. stellen werden. Wir sind im Moment eifrig dabei, die nächste Projektphase (2023-2025) zu planen. Es gibt noch viel zu tun, packen wir es an!“

                    Mit der „Essener Zeitung“ bzw. der „Rheinisch-Westfälischen Zeitung“ ist eine umfangreiche Zeitung aus dem Ruhrgebiet online gestellt worden, die weit über ihren Erscheinungsort Essen hinaus Bedeutung erlangt hat. Der Umfang ist beträchtlich: 80 Jahrgänge (1860-1940) mit ca. 180.000 Seiten. Der Erscheinungsverlauf ist komplex. Das Blatt erschien 1860 zuerst als „Essener Zeitung“. 1883 wurde es in „Rheinisch-Westfälische Zeitung“ umbenannt. Unter diesem Namen ist das Zeitungsunternehmen fast noch bekannter als unter „Essener Zeitung“. Im Laufe der Jahre wechselte die Zeitung noch mehrmals den Titel. Zuletzt erschien sie unter dem Titel „Essener Anzeiger : Rheinisch-Westfälischer Anzeiger : Stadtanzeiger : Bottroper General-Anzeiger : Gladbeker Tageblatt : Werdener Allgemeine Zeitung“. Diese Titelfassung deutet auf ein umfangreiches Verbreitungsgebiet hin. Die letzte digitalisierte Ausgabe datiert auf den 30. Dezember 1940.
                    Insgesamt findet Ihr nach der gestrigen Freigabe von fast 600.000 Seiten Essener Zeitungen jetzt 31 Zeitungstitel aus Essen im Portal:“

                    Die Volltextsuche macht ebenfalls Fortschritte:
                    „Die letzte Einspielung von Volltexten ist abgeschlossen. Es handelt sich um 18 Zeitungsunternehmen mit dem Anfangsbuchstaben „A“, die jetzt durchsuchbar sind. Insgesamt liegen jetzt für 2.843.272 Seiten Volltexte vor, d.h. für 28,7% des Gesamtbestandes. Nachfolgend die Liste der Zeitungen, die jetzt durch eine OCR gelaufen sind:“
                    vgl. https://www.facebook.com/groups/186939308645008/

                    Viele Grüße
                    Ralf

                    Kommentar

                    • Ralf-I-vonderMark
                      Super-Moderator
                      • 02.01.2015
                      • 2931

                      #11
                      Hallo zusammen,

                      Michael Herkenhoff hat am 12.02.2022 aktuelle Neuigkeiten zur Ausweitung der mit Volltext durchsuchbaren Bestände im Zeitungsportal NRW veröffentlicht:

                      Die Volltexterkennung der Zeitungen geht weiter. Bearbeitet sind momentan alle Zeitungen bis zum Anfangsbuchstaben „H“ (mit Ausnahme „D“). Die Einspielung läuft zurzeit. Da es sich aber um eine große Seitenzahl handelt, wird es einige Zeit dauern, bis die Volltexte komplett für den Index aufbereitet und damit durchsuchbar sind. Wenn dieser Prozess abgeschlossen, werde ich entsprechend berichten.“
                      vgl. https://www.facebook.com/groups/186939308645008/

                      Die Anzahl der mit Volltext durchsuchbaren Seiten (aktuell 4350153) ist schon jetzt innerhalb von weniger als 2 Tagen um 35 % gesteigert worden. Aktuell werden 91 Titel in der Volltextsuche angezeigt; auch wenn die Durchsuchbarkeit bei den neuen Titeln noch nicht funktioniert.
                      vgl. https://zeitpunkt.nrw/nav/index?face...de%3D%22ocr%22

                      Die nächsten Wochen werden bestimmt sehr spannend werden und können zu neuen Funden führen.

                      Viele Grüße
                      Ralf

                      Kommentar

                      • Ralf-I-vonderMark
                        Super-Moderator
                        • 02.01.2015
                        • 2931

                        #12
                        Hallo zusammen,

                        Michael Herkenhoff hat am 19.02.2022 erneut Neuigkeiten zur Volltextsuche der Zeitungen im Zeitungsportal NRW veröffentlicht:
                        vgl. https://www.facebook.com/groups/186939308645008/

                        Die Einspielung und Indexierung der Volltexte für die freigegebenen Zeitungen mit den Anfangsbuchstaben B, C, E, F und G ist inzwischen abgeschlossen. Damit sind inzwischen 107 Zeitungsunternehmen mit 4.596.547 Seiten ganz oder zumindest teilweise im Volltext recherchierbar. Die Zeitungen können einzeln durchsucht werden, sie werden aber auch bei der Suche über den Gesamtbestand miterfasst. 42,3% aller freigegebenen Zeitungsseiten liegen damit bereits im Volltext vor.
                        Eine Übersicht aller Zeitungen, für die bereits Volltexte vorliegen, findet Ihr hier:
                        https://zeitpunkt.nrw/nav/index?face...de%3D%22ocr%22

                        Darin besteht dann der entscheidende Unterschied, weil noch nicht alle Zeitungen mit den o.g. Anfangsbuchstaben mit der Volltextsuche ausgestattet bzw. dazu freigegeben worden sind.
                        Denn z.B. für das Bochumer Kreisblatt 1842 – 1898 und die Essener Zeitung oder die Essener Volkszeitung ist noch keine Volltextsuche installiert worden.

                        Viele Grüße
                        Ralf

                        Kommentar

                        • Ralf-I-vonderMark
                          Super-Moderator
                          • 02.01.2015
                          • 2931

                          #13
                          Hallo zusammen,

                          Michael Herkenhoff hat auf die konkrete Frage nach der weiteren Vorgehensweise hinsichtlich der Volltexterkennung der Zeitungen im Zeitungsportal NRW am 20.02.2022 wie folgt geantwortet:
                          „Geht nach dem Alphabet, also weiter H-Z, und dann die Zeitungen, die zwischendurch freigegeben wurden. Bis Jahresende sollen alle Zeitungen durchsuchbar sein. Ehrgeiziges Ziel, aber noch realistisch.“
                          vgl. https://www.facebook.com/groups/186939308645008/

                          Demnach werden die erst in letzter Zeit eingespielten Zeitungen erst nach dem ersten Durchlauf der Volltexterkennung für die früheren Zeitungen bis „Z“ eine Volltexterkennung erhalten; also z.B. die erst am 17.12.2021 freigeschaltete Essener Zeitung und die Essener Volkszeitung.

                          Aber gleichwohl ist dies eine positive Perspektive, wenn bis Ende des Jahres 2022 alle schon jetzt online einsehbaren Zeitungen mit einer Volltexterkennung ausgestattet sein sollten.

                          Viele Grüße
                          Ralf

                          Kommentar

                          • Ralf-I-vonderMark
                            Super-Moderator
                            • 02.01.2015
                            • 2931

                            #14
                            Hallo zusammen,

                            Michael Herkenhoff hat am 25.02.2022 eine konkrete Frage wie folgt beantwortet:
                            „Wuppertaler Zeitungen sind auch eingeplant, auch der Wuppertaler GA. Digitalisierung ab 2023. Wir digitalisierten allerdings nur Zeitungen bis 1945, also nicht aus den 50er und 80er Jahren.
                            vgl. https://www.facebook.com/groups/186939308645008/

                            Abgesehen davon, dass mit einer Digitalisierung der Wuppertaler Zeitungen erst im Jahr 2023 zu rechnen ist, steht nach der Klarstellung fest, dass das Jahr 1945 eine Begrenzung darstellt, auch wenn die Honnefer Volkszeitung bis 1977 (!) online einsehbar ist. Ausnahmen von der Regel gibt es aber immer wieder.

                            Viele Grüße
                            Ralf

                            Kommentar

                            • Ralf-I-vonderMark
                              Super-Moderator
                              • 02.01.2015
                              • 2931

                              #15
                              Hallo zusammen,

                              Michael Herkenhoff hat am 09.04.2022 weitere Neuigkeiten zur Volltextsuche der Zeitungen im Zeitungsportal NRW und einen Quartalsüberblick veröffentlicht:


                              Zu Beginn des neuen Quartals ein kleines Update. Durch das Einspielen der im letzten Jahr erzeugten Mikrofichedigitalisate ist das Portal im 1. Quartal 2022 kräftig gewachsen. Es enthält jetzt ca. 14.100.000 Zeitungsseiten, von denen bisher gut 11.200.000 Seiten zur Benutzung freigegeben werden konnten. Wir rechnen damit, dass das Portal am Jahresende ca. 15.500.000 bis 16.000.000 Seiten enthält.
                              Fortschritte macht auch die Volltexterkennung. Bisher sind Zeitungen mit den Anfangsbuchstaben A, B, C, E, F und G durch die OCR gelaufen. In Kürze werden Zeitungen mit dem Anfangsbuchstaben D im Portal im Volltext durchsuchbar sein. Mit heutigem Stand sind 4.596.547 Seiten im Volltext verfügbar, das sind gut 41% der freigegebenen Seiten. Diese Zahl wird sich im Laufe des Jahres noch deutlich erhöhen, ebenso auch der Prozentsatz gemessen am Gesamtbestand.
                              Ansonsten planen wir zurzeit intensiv die nächste Förderphase (2023-2025). Es geht sowohl um die quantitative Verbreiterung des Angebots – wir kalkulieren mit einem Zuwachs von 5.500.000 bis 6.000.000 Seiten in den nächsten drei Jahren – als auch um funktionale Erweiterungen. Es bleibt also spannend!
                              vgl. https://www.facebook.com/groups/186939308645008/

                              Die Ankündigung zu der erweiterten Volltexterkennung der Zeitungen mit dem Anfangsbuchstaben D überrascht insoweit ein wenig, als dass bekanntlich schon jetzt die Dortmunder Zeitung, der Duisburger General-Anzeiger, der Düsseldorfer Anzeiger, die Düsseldorfer Bürger-Zeitung, der Düsseldorfer General-Anzeiger, das Düsseldorfer Volksblatt und die Düsseldorfer Zeitung mit Volltexterkennung durchsuchbar sind.

                              Unter „D“ einsortiert sind aber viele Zeitungen, welche mit „Das“ oder „Der“ anfangen sowie z.B. das Dorstener Wochenblatt und die Dürener Zeitung.

                              Interessant ist nicht nur die Perspektive bis Ende 2022, sondern vielmehr auch, dass es in den Jahren 2023-2025 umfangreich weitergehen soll.

                              Viele Grüße
                              Ralf

                              Kommentar

                              Lädt...
                              X