Das ist leider nicht möglich.
Zumindest nicht ohne eine große Arbeit von Ihrer Seite. Und generell ist es nicht möglich für alle PDFs.
PDFs sind (im Allgemeinen) eine Einbahnstraße.
Sie wurden erstellt, um Text auf die gleiche Weise auf jedem System ohne Unterschied anzuzeigen und für Drucker, um ein Dokument zu drucken, ohne dass der Drucker alle Schriftarten und Zeug kennt.
Extrahieren von Text ist nicht trivial und nur für einige PDFs möglich, in denen das grundlegende Bild-PDF von Text begleitet wird (was er nicht muss). Alle in der PDF enthaltenen Textinformationen werden mit Standortinformationen gekoppelt, um zu bestimmen, wo sie angezeigt werden sollen.
Wenn in der PDF eine Tabelle angezeigt wird, in der die linke Spalte die Namen der Einträge und die rechte Zeile deren Inhalt enthält, können diese beiden Spalten als völlig unterschiedliche Textblöcke dargestellt werden, die nur anzeigen aufgrund der Platzierung nebeneinander eine Verbindung haben.
Was das Framework/Ihr Code tun müsste, ist zu bestimmen, welche Teile von Text, die visuell verknüpft sind, auch logisch verknüpft sind und zusammengehören. Das ist (noch) nicht möglich. Der Grund, warum Sie und ich das PDF lesen und verstehen und gruppieren können, ist, dass unser Gehirn in einigen Bereichen immer noch viel besser ist als Computer.
Abschließende Anmerkung, weil es Verwirrung verursachen könnte: Es ist sicher möglich, dass Adobe und Apple auch einige dieser Gruppierung bereits machen und ein gutes Ergebnis erzielen, aber es ist immer noch nicht perfekt. Das PDF, das ich gerade getestet habe, war nach dem Extrahieren des Textes über die Mac-Vorschau ziemlich kaputt.
Konnte ich 'string()' für 'pdf'-Instanz nicht finden? Ist es weg? – Hemang