Woher weiß YouTube, welches Video zu empfehlen ist?

Hast du dich jemals gefragt, wie YouTube deine Vorlieben errät und Videos nach deinen Wünschen liefert? Die Antwort besteht aus drei Worten: Empfehlungsalgorithmen.

Das Ziel dieses Artikels ist es, das Funktionsprinzip dieser Algorithmen kurz vorzustellen und zu zeigen, wie einfach Begriffe vonLineare Algebra kann einen Computer in ein echtes Orakel verwandeln. Im Rest des Artikels werden wir YouTube als anschauliches Beispiel nehmen, aber das Prinzip bleibt offensichtlich für viele andere Plattformen (Facebook, Netflix, Spotify usw.) gültig.

Um die Vorlieben aller zu verstehen, nichts wie ein Tisch

Das zu lösende Problem ist wie folgt: Überlegen Sie nicht Videos und m Internetbenutzer (m und nicht möglicherweise sehr groß sein). Angenommen, eine der Personen hat bereits einige der verfügbaren Videos angesehen. So, Welche anderen Videos werden ihr wahrscheinlich am besten gefallen?

Dann sind zwei Ideen möglich: Entweder wird sie Videos mögen, die denen ähneln, die sie bereits in der Vergangenheit gemocht hat – wir entwickeln dann die Technik von Filtern nach Inhalten. Entweder wird ihr gefallen, was andere Leute wie sie bereits gemocht haben – und wir werden es versuchen kollaborative Filterung.

Die erste Idee erfordert eine Definition a priori viele Kriterien. Es wird in der Praxis nur in ganz besonderen Fällen eingesetzt. Wir werden uns daher auf die zweite Idee konzentrieren.

Lassen Sie uns unser Problem mit a darstellen Matrix D (Größe nicht x m) wobei jede Spalte eine Person und jede Zeile ein Video darstellt. In jedes Feld geben wir eine Zahl zwischen 0 und 4 ein (wie bei einem Bewertungssystem mit 5 Sternen). Ein Wert von 0 zeigt an, dass die Person das Video hasste, und ein Wert von 4 zeigt an, dass sie es mochte. Diese Bewertung hängt von der Zeit ab, die Sie für das Video aufgewendet haben, ob Sie ein "Gefällt mir" gesetzt haben oder nicht, ob Sie einen Kommentar abgegeben haben oder nicht usw. Es wird in der Praxis dank a berechnet vertrauliches Rezept von YouTube. Ein Feld, das einem Video entspricht, das von der Person noch nicht angesehen wurde, bleibt leer. Das Ziel des Algorithmus besteht dann darin, die Werte zu erraten, die in diese leeren Felder eingegeben werden müssen, um abzuschätzen, welches Video den Benutzer am meisten anspricht.

Wir erstellen eine Tabelle mit den Bewertungen jedes Benutzers für die Videos, die er gesehen hat. Wenn er das Video nicht gesehen hat, ist die Box leer.
Athmane Bakhta, Autor zur Verfügung gestellt

Die Idee der kollaborativen Filterung besteht darin, zu berücksichtigen, dass die Präferenz einer Person für ein Video von a angegeben wird " Skalarprodukt " von zwei Vektoren u und v Darstellen der Merkmale der Person bzw. des Videos. Wenn es zwischen der Person und dem Video überhaupt keine gemeinsamen Merkmale gibt, sagen wir das u ist "orthogonal" zu v und das Punktprodukt uv ist Null. Umgekehrt, wenn die Person und das Video gemeinsame Eigenschaften haben, die Vektoren u und v sollen "quasi kollinear" sein und ihr Punktprodukt ergibt eine hohe Punktzahl.

Indem wir die gemeinsamen Merkmale zwischen Videos und Internetnutzern bestimmen, können wir jedem Video eine potenzielle Bewertung zuweisen: die Bewertung, die der Benutzer diesem Video (möglicherweise) geben würde, wenn er es sich ansieht.

Verwenden Sie ein grundlegendes lineares Algebra-Werkzeug

Die zugrunde liegende mathematische Idee besteht darin, die Datenmatrix D in das Produkt zweier kleiner Matrizen U und V zu zerlegen Zersetzung ermöglicht es, Personen (durch Matrix U) und Videos (durch Matrix V) durch eine kleine Zahl zu charakterisieren k von Vektoren.

Daher suchen wir für jedes gefüllte Feld (zum Beispiel das grüne Feld in der Abbildung) nach den Vektoren u (blau markiert) und v (rot dargestellt) U- und V-Matrizen wie das Produkt u x v oder so nah wie möglich am Wert im grünen Feld. Für die Neugierigeren bedeutet dies, a zu lösen Optimierungsproblem.

Es reicht in der Tat aus, die Zeilen von U mit den Spalten von V zu multiplizieren, um die Werte aller leeren Kästchen zu finden und so die zukünftige Präferenz jeder Person für jedes Video abzuschätzen.

Aufgrund der schieren Anzahl von Personen und Videos erfordert die Lösung dieses Problems die Verwendung vonLernalgorithmen wie neuronale Netze, die viel schneller sind als klassische Optimierungstechniken.

Ist es wirklich so einfach?

Man fragt sich, ob dies das ist, was YouTube wirklich tut – die Antwort lautet im Prinzip ja, aber natürlich mit vielen Verbesserungen. Das eigentliche Empfehlungssystem von YouTube kombiniert, wie erläutert, zwei tiefe neuronale Netze In diesem Artikel. Das erste wird verwendet, um einige hundert Kandidaten unter den Millionen verfügbaren Videos zu identifizieren, und das zweite weist jedem Kandidaten eine Punktzahl zu, wobei die in diesem Artikel erläuterte Matrixzerlegung verwendet wird.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.