2017-10-13 8 views
0

Ich möchte griechische Zeichen (mit akzentunempfindlichen) durch Entfernen oder Ersetzen von Akzenten mit ähnlichen Zeichen suchen.Akzent insensitive Suche nach griechischen Zeichen

Bsp: Wenn Sie einen griechischen Akzent suchen, sagen wir πῬοἲὅν, erwarten wir eine akzentunempfindliche Suche, dh Sie brauchen einen äquivalenten griechischen Akzent wie προιον in den Suchergebnissen.

Außerdem habe ich nicht mehr Kenntnisse über griechische Zeichen. also suche ich nur nach Standardregeln, um die griechische Akzent-unempfindliche Suche durchzuführen.

Löst ICUFoldingFilter meinen Fall? Ich habe das schon probiert. Es funktioniert gut für griechische Akzentzeichen. Aber das ist nicht sprachspezifisch ... Es hat Internalisierungsunterstützung für alle Sprachen. Hier bin ich mir nicht sicher, ob es mein bestehendes Sprachverhalten im Index brechen wird.

Gibt es eine Möglichkeit, ICUFoldingFilter sprachspezifisch zu machen?

Chitra

+1

Die ICUFoldingFilter über die Regeln im Rahmen des Unicode-Standard gesetzt vorwärts basiert, so dass sie _should_ für die meisten Sprachen nützlich sein. Sie können ein ICUTransform-Objekt bei Bedarf mit einem bestimmten Regelwerk anwenden, wenn dies erforderlich ist, z. B. Griechisch-Latein, aber ich bin mir nicht sicher, ob das Ihren Anwendungsfall löst. – MatsLindh

+0

also, welches system ist für dich relevant, elastisch oder solr? – Mysterion

+0

@Mysterion Ab sofort verwenden wir Lucene – Chitra

Antwort

0

@Nikolay

Schon habe ich versucht, GreekAnalyzer aber einige Fälle, brechen auch in GreekAnalyzer ...

ZB: Indizierung eines griechischen Begriff greekword: προϊόν GreekAnalyzer verwenden. προϊόν als προιον (Begriff Vektor) indiziert ...

Wenn ich einen Begriff suchen nach indiziert (προϊόν) oder case-sensitive Akzent (πΡΟΙΟν, προιον), dann werde ich die erwarteten Ergebnisse erhalten ...

Aber es funktioniert nicht für gleichwertige griechische diakritische wie πῬοἲὅν, πῬὋἼὋν, πῤΟΙΟν, πΡοῐον, προἲὅν), hier ist der Bruch. Es gibt keine Dokumente von προϊϊν für die obigen Suchbegriffe zurück ...

Es verhält sich nicht wie erwartet. In GreekAnalyzer gibt es eine Nichtübereinstimmung/Diskrepanz zwischen προϊϊν & πῬὋἼὋν indizierten Termen (Termvektor).

HINWEIS: Aber diese Fälle werden ordnungsgemäß erfasst und in ICUFoldingFilter gelöst. Ab sofort arbeitet unser Suchindex an ClassicalAnalyzer, ASCIIFoldingFilter & LowerCaseFilter und unterstützt Spanisch, Englisch, Chinesisch & japanische Zeichen. Ich habe studiert & untersucht (testcases), dass ICUFoldingFilter ist replacement of above two filters & erfasste Standardregeln für die meisten Sprachen ... Hier bin ich nicht sicher, ob es mein vorhandenes Sprachverhalten im Suchindex bricht.

Bitte posten Sie Ihre Ideen/Vorschläge ...