Beiträge getaggt mit pdf

DAM: Titel mit metaExtract aus PDF extrahieren

Geschrieben von npostnik in TYPO3 am 24. August 2010

Der Service metaExtract für DAM sucht alle möglichen Informationen aus den Meta-Daten des PDFs raus, aber irgendwie wird der Titel ignoriert. Dieser ist (aus dem Adobe PDF Reader) über Dokument > Eigenschaften (oder auch Strg + D) im Tab Beschreibung zu finden. Ein Blick in den Service hat ergeben, dass es nicht vorgesehen ist, den Titel aus dem Dokument als Titel des Datensatzes zu übernehmen. Abhilfe schafft die kleine Zeile Code in der Klasse des Service:

switch ($name) {
// neu ab hier
	case 'Title':
		$this->out['fields']['title'] = $value;
	break;
// bis hier
	case 'Producer':
		$this->out['fields']['file_creator'] = $value;
	break;

And it works!

DAM: Inhalte aus PDFs extrahieren

Geschrieben von npostnik in TYPO3 am 23. August 2010

Eingentlich ist das kein Voodoo, wenn mans weiß. Zunächst mal befand sich ein Hinweis darauf, dass es möglich ist, Inhalte aus PDFs beim Extrahieren in die Datenbank zu schreiben, um z.B. danach zu suchen, in diesem Artikel auf t3n: Digital Asset Management mit TYPO3.

Dann fand sich im Manual des DAM Indexers (dam_index) ein Hinweis, dass es eine Liste der Services gibt. Ich habe allerdings ein wenig gesucht, bis ich diese Liste gefungen habe. Dazu im Modulmenü (linke Spalte) auf Media > Tools klicken und dann (wenn nicht bereits ausgewählt), im Drop Down oben Indexing Setup auswählen, dort bekommt man dann eine Ansicht, wie im Manual zu dam_index beschrieben.

Da man ja nun weiß, dass der Service textExtract heißt, braucht man nur im TER danach zu suchen und findet die Extension cc_txtextexec. Diese Extension muss man installieren und dann den Indexer erneut laufen lassen, dabei ist wichtig, den Haken bei reindex zu setzen.

[dsgvo_imprint]

Beiträge getaggt mit pdf

DAM: Titel mit metaExtract aus PDF extrahieren

DAM: Inhalte aus PDFs extrahieren

Seiten

Neueste Kommentare

Blogroll

Links

Meta