Skip to content

nextPageId is missing even if there are subpages

Alex requested to merge github/fork/codingPF/develop-Arte into develop

Created by: codingPF

Der Crawler berücksichtigt die Folgeseiten der Subcategories nicht weil result.getNextPageId immer leer ist. Man kann nur vermuten, dass es noch weitere Seiten gibt über: result.getUrls().size() == ArteConstants.SUBCATEGORY_LIMIT Um die 429 (too many request) abzuschwächen habe ich (wie im alten Crawler) einen retry eingebaut.

Offtopic.... Die PageNumber in dieser Klasse habe ich entfernt weil das so nicht wirklich funktioniert. Das Task wird für mehrere Subcategories verwendet, was dann dazu führt, dass die PageNumber über die Subcategories hinweg hochgezählt wird (Subcategory A Page 1 / A Page 2 / B Page 3). Eigentlich müsste man vorher die Eingangsqueue splitten und dann pro Subcategory eine Instanz bauen...alles etwas schwierig...

Merge request reports

Loading