Solr verfügt über eine "More Like This"-Komponente und seit Version 5 über die Möglichkeit der Erkennung von "Near-Duplicates". Die "More Like this"-Komponente erzeugt oft nicht die gewünschten Ergebnisse, da der Algorithmus auf dem Vergleich von Worthäufigkeiten basiert. Außerdem funktioniert dieser Ansatz nur schlecht für kurze Texte. Dieses Prinzip erfüllt oft nicht die Vorstellung der Anwender*innen von Ähnlichkeit.
Die Erkennung der "Near-Duplicates" hat ebenfalls Grenzen. Sie lässt zu wenig Spielraum für Ähnlichkeiten, weil die gefundenen Dokumente nahezu identisch sein müssen. Iin der Nutzung wünschen wir uns für "ähnliche Dokumente" mehr Abweichungen.
Wir haben ein Solr Plug-In entwickelt, das diese Beschränkungen umgeht. Die von uns verwendete Signatur lässt sich hinsichtlich der gewünschten Ähnlichkeit konfigurieren. Zur Berechnung können mehrere Felder verwendet werden, und der Algorithmus funktioniert bereits für kurze Texte sehr gut.