2016-12-01 3 views
2

questionInformationsbeschaffung Indexierung und Rang Modelle

Ich kann nicht über Struktur denken, die auf diese Frage entsprechen (a).

Ich dachte über die Idee der Veröffentlichung Liste von 100x100 +1 Einträge, die die genauen Daten von jedem Pixel enthalten, aber es scheint mir verschwendete Idee.

Und wenn ich in den nächsten Fragen Hilfe bekommen könnte (b, c), verstehe ich nicht, wie ich darauf reagieren muss.

Antwort

0

Ich gebe eine Idee, die Sie ausprobieren können.

Da wir beide Bild und seine Beschriftungen haben, ist meine Idee, verschiedene Arten von Informationen aus Bild zu extrahieren und sie als Text zusammen mit der Beschriftung zu speichern. Wenn ein Benutzer eine Textabfrage und/oder ein Bild einreicht, müssen wir sie in eine Suchanfrage umwandeln. Ranking-Modell bedeutet, dass Sie die indizierten Dokumente (Bild + Bildunterschrift) basierend auf Ähnlichkeit und einem vordefinierten Ergebnis (falls vorhanden) bewerten müssen.

Mit Bildern können wir mehrere Dinge tun: (Siehe reference)

(1) Wir können das Bild durch eine Zeichenerkennungsroutine ausführen, um alle Worte aus Beschilderung sichtbar auf dem Foto zu extrahieren. (oder zum Beispiel den Text eines Bildmems zu lesen)

(2) Wir können alle berühmten Sehenswürdigkeiten erkennen. (und wir haben raffinierte Techniken, um sie aus jedem Winkel zu erkennen)

(3) Wir können Gesichter erkennen - von Prominenten und berühmten Menschen oder, wenn Sie über Ihre privaten Fotos in der Google Fotos Suche indiziert sind, können wir Ihre erkennen Familie und Freunde von anderen Fotos. Auch wenn wir keine Namen haben, können wir bekannte Gesichter erkennen und im Index zusammenfassen. Wir können auch Haustiere erkennen.

(4) Wir können Objekte erkennen - Fahrzeuge, Gebäude, Tierarten.

Die Liste der möglichen Dinge, die wir aus einem Foto und seiner Beschriftung extrahieren können, ist ziemlich lang und vielfältig, aber einige Dinge liefern offensichtlich höhere Qualitätsbegriffe als andere. Alle extrahierten Merkmale sind nicht notwendigerweise ausreichend relevant. Zum Beispiel sollten Features, die aus der Überschrift extrahiert werden, mehr Gewicht erhalten, während die Relevanz der Relevanz berechnet wird.

Ähnlich ist das Lesen des Textes eines T-Shirts, das auf einem Foto erscheint, nicht annähernd so nützlich wie das Lesen der Straßenschilder und Ladenschilder, die uns leicht erlauben, einen Standort herauszufinden.

Wenn wir also nach Dingen suchen, die in den Index aufgenommen werden können, bauen wir eine große lange Liste von Dingen auf, die mit dem Foto zusammenhängen, zusammen mit einigen Informationen über unser Vertrauen, dass diese Begriffe den Inhalt des Fotos genau wiedergeben. Wir können diese Bewertungen im Laufe der Zeit anpassen, indem wir ermitteln, wie viele Personen nach der Suche nach einem bestimmten Begriff auf ein Bild klicken. Wenn es viele Klicks gibt, dann ist es wahrscheinlich sinnvoll, die Punktzahl für diesen Begriff hoch zu drehen. Wenn es nie in Relation zu anderen Fotos in der Nähe auf die Ergebnisse geklickt wird, können wir es senken.

Wenn der Benutzer eine Abfrage und ein Foto abschickt, müssen wir unsere Feature-Extraktionsrichtlinie ausführen und sie in eine Suchabfrage konvertieren. Dann müssen wir die Menge der Fotos herausfinden, deren Begriffe mit der Suchanfrage übereinstimmen. Dann müssen wir diese Fotos nach Relevanz ordnen, basierend auf den Ergebnissen der übereinstimmenden Begriffe. Dann können wir das Ergebnis dem Benutzer zeigen.

Merkmalsextraktion aus Bildern und Berechnung der Relevanz Relevanz auf der Grundlage der extrahierten Features ist keine leichte Sache. Welche Art von Ranking-Modell Ihnen ein gutes Ergebnis liefert, hängt weitgehend von den extrahierten Merkmalen ab (Merkmale bedeuten mit Bildern assoziierte Schlüsselwörter) und wie genau Ihr System die mit den Bildern zusammenhängenden Begriffe beeinflussen kann.

Sobald Sie die Bildunterschrift und/oder Bilder in Textinformationen konvertieren können, können Sie Ranking-Funktionen wie Okapi BM25 verwenden, die von Suchmaschinen verwendet wird, um übereinstimmende Dokumente nach ihrer Relevanz für eine bestimmte Suchanfrage rangieren.

+0

Aber ich habe Bilder in Pixeln Begriffe und ich muss die Pixel im Index verwenden, so verstehe ich nicht, wie soll ich Informationen aus einem angezeigten Bild in Pixeln pumpen – yaron0

+0

Bilder im Allgemeinen als Satz von Pixelwerten gegeben. üblicherweise werden Bilder als 3-dimensionale Matrix angegeben. Wenn Sie beispielsweise ein Bild mit der Größe 128 x 64 haben, speichern Sie es in einem Array (128 x 64 x 3), wobei 3 die RGB-Werte eines Pixels darstellt. Also können wir Features aus Pixelwerten extrahieren und mein vorgeschlagener Ansatz wird funktionieren. Ich denke, Sie sollten eine Literaturrecherche machen, um tieferes Wissen über Bildverarbeitungs-/Vergleichssysteme zu erlangen. –