Wie wir die automatische Auswahl Àhnlicher Produkte getroffen haben

Bild



In frĂŒheren Artikeln habe ich darĂŒber gesprochen, wie wir gelernt haben, Produkte aus verschiedenen Quellen zu vergleichen und eine Produktkarte auszufĂŒllen - Eigenschaften, Bilder, Beschreibung. Und wenn die Preise der Lieferanten, die Preise der Wettbewerber und die Eigenschaften der Waren bekannt sind, war eine logische Fortsetzung die Suche nach Informationen ĂŒber Analoga oder Waren, die in ihren Eigenschaften einfach Ă€hnlich sind.



Dies kann auf verschiedene Arten verwendet werden, z. B. um dem Kunden mehrere Ă€hnliche Positionen auf der Produktkarte anzuzeigen, vielleicht wird ihm noch eine gefallen. Wenn etwas nicht vorrĂ€tig ist, ist auch eine Liste Ă€hnlicher Produkte hilfreich. Die zweite Möglichkeit besteht darin, diese Informationen den Call-Center-Mitarbeitern zur VerfĂŒgung zu stellen, damit diese schnell (oder im Prinzip) Analoga anbieten können, wenn das angeforderte Produkt nicht verfĂŒgbar ist oder das Analog besser auf die WĂŒnsche des Kunden zugeschnitten ist.



Wie können Sie feststellen, ob Produkte Ă€hnlich sind? Sie können die Eigenschaften vergleichen, je besser sie ĂŒbereinstimmen, desto Ă€hnlicher sind die Produkte. Leider funktioniert es nicht so einfach. In der Praxis stellt sich heraus, dass es in der Regel fast keine Produkte gibt, bei denen alle Merkmale erfĂŒllt sind. 80% ist ein gutes Ergebnis. Zweitens sind einige Merkmale wichtiger als andere. Beispielsweise unterscheidet sich ein 65-Zoll-Fernseher vollstĂ€ndig von einem 22-Zoll-Fernseher, obwohl beide ĂŒber 2 USB-AnschlĂŒsse verfĂŒgen. Oder ein anderes Beispiel: Ein MetallgehĂ€use und ein AluminiumgehĂ€use liegen viel nĂ€her beieinander als Kunststoff, obwohl sie drei verschiedene Bedeutungen haben.



Um Ă€hnliche Produkte auszuwĂ€hlen, mĂŒssen wir daher die folgenden Aufgaben lösen:



  1. Weisen Sie Gewichtsmerkmale zu. Die diagonale GrĂ¶ĂŸe ist wichtig, die Anzahl der USB-AnschlĂŒsse ist weniger wichtig.
  2. Bestimmen Sie den Wertebereich jedes Merkmals und stellen Sie darauf die Funktion des Abstands zwischen den Werten ein.
  3. Entscheiden Sie sich fĂŒr eine Strategie zur Behandlung von FĂ€llen, in denen ein Merkmal fĂŒr ein Produkt bekannt ist, fĂŒr ein anderes jedoch nicht.
  4. Berechnen Sie anhand des Abstands zwischen den Werten aller Merkmale den Abstand zwischen den Waren.
  5. Denken Sie an die Leistung. Die Berechnung aller Entfernungspaare ist komplex

    Ö(N.2)

    Und wenn die Berechnung von 50 Millionen Entfernungen fĂŒr 10.000 Waren kein großes Problem zu sein scheint, dann sind 50 Milliarden fĂŒr 300.000 bereits eine Menge.


Lösen wir diese Probleme. Bis zu einem gewissen Grad wird dies Forschungsarbeit sein.



Wie wir Merkmalsgewichte bestimmen



Wir haben zwei Grundideen mit Gewichten verwendet.



  • Die Eigenschaften, die den Preis beeinflussen, sind wichtig. Das Gegenteil ist nicht unbedingt der Fall. Zum Beispiel ist die Farbe eines Mobiltelefons wichtig genug, hat aber kaum Einfluss auf den Preis.
  • Um wichtige Merkmale zu identifizieren, die den Preis nicht beeinflussen, gehen wir davon aus, dass sie im Durchschnitt besser gefĂŒllt sind.


Außerdem weisen wir fĂŒr jede Kategorie allen Merkmalen Gewichte zu. Gehen Sie dazu wie folgt vor:



  1. Wenn das Merkmal numerisch ist, betrachten wir die Korrelation mit dem Pearson-Preis.
  2. Wenn die AufzĂ€hlung eine sich gegenseitig ausschließende Auswahl hat (aber keine Zahlen), ordnen wir ihre Elemente nach dem Durchschnittspreis der Waren mit diesem Wert und berechnen die Korrelation mit dem Spearman-Preis.
  3. Wenn Multiple Choice zur VerfĂŒgung steht, reduzieren wir es auf einen Satz von sich gegenseitig ausschließenden (Ja / Nein) und berechnen die Korrelation zwischen jedem und dem Spearman-Preis. Wir reduzieren den resultierenden Koeffizienten in AbhĂ€ngigkeit von der Anzahl der Optionen.
  4. Wir berechnen den Prozentsatz der gefĂŒllten Werte fĂŒr jedes der Merkmale und erhöhen oder verringern das zuvor erhaltene Gewicht.
  5. Die erhaltenen Werte können als Gewichte verwendet werden, aber in der Praxis wird das beste Ergebnis erzielt, wenn sie erneut nichtlinear transformiert werden, wobei die Reihenfolge beibehalten wird.


Jeder der Schritte hat seine eigenen Nuancen, zum Beispiel, wie der Preis berechnet wird, wenn in einem Fall nur Einzelhandelspreise bekannt sind, in dem anderen nur Großhandelspreise und im dritten sowohl diese als auch andere. Oder eines der GeschĂ€fte hat einen Fehler mit dem Preis gemacht und verkauft einen Nachttisch zum Preis eines Schranks aus derselben Serie.



Wie berechnen wir den Abstand zwischen Waren



Bei der Auswahl des Algorithmus, mit dem der Abstand zwischen den Werten des Merkmals berechnet wird, mĂŒssen wir berĂŒcksichtigen, wie der Abstand zwischen den Waren berechnet wird, wobei der Abstand zwischen den einzelnen Merkmalen und ihrem Gewicht berĂŒcksichtigt wird. Meine Intuition sagt mir, dass ich mit nur einer Entfernung im n-dimensionalen Raum beginnen soll, d. H. die Quadratwurzel der Summe der Quadrate der AbstĂ€nde zwischen den Merkmalen.



Ferner sagt die Intuition, dass in diesem Fall die Funktion des Abstands zwischen Werten verteilend sein sollte und noch besser, wenn die Dreiecksungleichung erfĂŒllt ist. Ich kann die Richtigkeit solcher Anforderungen nicht nachweisen, aber wir werden diese Bedingungen einhalten.



Dann können die folgenden Funktionen als Funktion der Entfernung ĂŒbernommen werden:



  • — , . , 35 , — 75 , 40 . .
  • — (, ?), . .
  • , .


Nun zur Leistung. In der Praxis stellte sich heraus, dass wir in einer angemessenen Zeit (bis zu 5 Minuten) paarweise AbstÀnde zwischen 30.000 Waren berechnen können. Gleichzeitig gibt es in einigen Warenkategorien mehr, zum Beispiel möglicherweise hunderttausend Matratzen im Katalog, und in diesem Fall geht es darum, die aufgewendete Zeit um das Zehnfache zu erhöhen.



Die Optimierung dieses Falls sieht folgendermaßen aus: Wir bestellen alle Produkte nach dem Wert des Merkmals mit dem höchsten Gewicht

Ö(N.∗lÖG(N.))

Das ist schneller als

Ö(N.2)

Dann teilen wir alle Produkte in ĂŒberlappende Gruppen ein (z. B. um 20% ĂŒberlappend) und berechnen die paarweisen AbstĂ€nde innerhalb jeder Gruppe. Bei bis zu 30.000 Produkten in einer Kategorie erhöht sich somit die Verarbeitungszeit mit

Ö(N.2)

und ab 30.000 - wie

Ö(N.∗lÖG(N.))





Ergebnisse



Ich werde einige Beispiele fĂŒr die Ergebnisse der automatischen Suche nach Ă€hnlichen Produkten unter Verwendung dieses Algorithmus geben (der erste in der Tabelle ist das Produkt, fĂŒr das wir nach Ă€hnlichen Produkten gesucht haben).













Bosch WLT24540OE

Bosch WLN24240OE

Samsung WW80K6210RW

Bosch WLT24460OE

Siemens WS12T440OE

Siemens WS12T540OE

Eine Art automatisch

automatisch

automatisch

automatisch

automatisch

automatisch

AusfĂŒhrung freistehend

freistehend

freistehend

freistehend

freistehend

freistehend

WĂ€sche laden frontal

frontal

frontal

frontal

frontal

frontal

Maximale Belastung 7

7

acht

7

7

7

Farbe Weiß

Weiß

Weiß

Weiß

Weiß

Weiß

Energieklasse A +++

A +++

A +++

A +++

A +++

A +++

Spin Klasse B.

B.

B.

B.

B.

B.

Anzahl der Programme vierzehn

fĂŒnfzehn

vierzehn

fĂŒnfzehn



vierzehn

Schraffurfarbe Silber-

Weiß

das Schwarze

Silber-

Silber-

Silber-

Maximale Schleuderdrehzahl 1200

1200

1200

1200

1200

1200

Ind. Zeit bis zum Ende des Programms +



+

+

+



Energieverbrauch 2300,00





2300,00

2300,00



Ungleichgewichtskontrolle +

+

+

+

+

+

Körpermaterial Plastik

Plastik

Plastik

Plastik

Plastik

Plastik

LĂ€nge des Netzkabels 1,75

1,75









Einbetten









unter der Arbeitsplatte

Anzahl der Trommeln

1







1

Auswahl der Schleuderdrehzahl +

+

+

+

+

+

Spin abbrechen +

+

+

+

+

+

Blasengenerator



+







Alle Programme Kunststoffe

zusĂ€tzliche SpĂŒlung

zusĂ€tzliche SpĂŒlung

zusĂ€tzliche SpĂŒlung

zusĂ€tzliche SpĂŒlung

Öko-WĂ€sche

MarkteinfĂŒhrungsdatum 2016

2016

2016

2015





Stromverbrauch pro Zyklus 0,91

0,91



0,96

0,91

0,91

38,00

38,00



38,00

38,00

38,00





8100,00





8550,00

A

A

A

A

A

A

+

+

+

+

+

+

— —

— — —
56

56

56

56



56

77

78

75

78

76

77

— — — — — —
— — — — — —










165°

32,00





32,00

32,00

32,00



— — — — +

— — — — — —


46,00



46,00

46,00

46,00

























+

+

+

+

+

+







—

+

—



—



+

+





+

+

+







+

+

+

+







+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+

+





—

+











—












84,80

84,80

85,00

84,80

84,80

84,80

59,80

59,80

60,00

59,80

59,80

60,00

44,50

44,60

45,60

44,40

44,60

44,60

48,60

48,60



48,60

47,40



65,00

63,00

67,00

64,00

65,00

63,00

-























Hotpoint-Ariston WMTF 701 H CIS

Hotpoint-Ariston WMTL 601 L CIS

Gorenje WT62093 468938

Whirlpool AWE 7515/1

Zanussi ZWY51004WA































7

6

6

5.5

5.5











A+

A+

A+

A+

A+

C

C

C

C

C

18

18

18

11













1000

1000

900

1000

1000

2100,00

2100,00



2100,00





+

+

+

+

















1





+

+

+

+



+

+

+

+











1,18



1,02

0,93



50,00



48,00

48,00









8674,00



A

A

A

A

A

— — —

—
59

59

59

59

58

75

76

76

76

75

— — —

—
— — — — —










— — — —







—







42,00























+



+

+

+

— — — —

A

A









+



+









+



+

+

+

+

+

+

+

+

+



—



—

— — —



90,00

90,00

85,00

90,00

89,00

40,00

40,00

40,00

40,00

40,00

60,00

60,00

60,00

60,00

60,00



58,00

58,00

58,00

58,00

-











Diese Beispiele zeigen, dass der Algorithmus im Prinzip gute Arbeit geleistet und im ersten Fall freistehende automatische Waschmaschinen mit horizontaler Belastung gleicher Tiefe und ungefĂ€hr gleicher maximaler Belastung ausgewĂ€hlt hat (ich bin kein großer Spezialist fĂŒr Waschmaschinen, aber es sind diese Eigenschaften, die mir wichtig erscheinen). Im zweiten Fall - auch freistehende automatische Waschmaschinen, jedoch mit Toplader. Die Breite und Tiefe der vorgeschlagenen Optionen sind gleich. In beiden FĂ€llen wurden Aktivator- oder Einbaumaschinen sowie kompakte Wandmaschinen nicht angeboten, obwohl sie im Katalog enthalten sind.



Wahrscheinlich hĂ€tte ein Spezialist fĂŒr GroßgerĂ€te die Arbeit besser machen können (wir haben die Ergebnisse in verschiedenen Kategorien mit den VerkĂ€ufern besprochen, sie haben die meisten Optionen genehmigt, aber auch Optionen vorgeschlagen, die wir nicht in das Ergebnis aufgenommen haben). Wenn ich das Ergebnis fĂŒr mich als KĂ€ufer versuche, finde ich solche Empfehlungen nĂŒtzlich. Ich habe keine groben Fehler in den Erwartungen gefunden.



Nach der Implementierung dieses Algorithmus, bei dem nur der Name des Produkts als Eingabe verwendet wird, können wir ihn automatisch von Lieferanten und Wettbewerbern finden, seine Eigenschaften ausfĂŒllen, Bilder auswĂ€hlen und sogar Analoga anbieten. Dies vereinfacht die Arbeit von Content Managern und Vertriebsmanagern erheblich.



All Articles