Unternehmensweite Suche: Daten und Wissen gehören zusammen, Teil 2

Vielleicht verwenden Sie häufig die automatischen Suchvorschläge in Google (oder die Ihrer bevorzugten Suchmaschine), um Fakten zu bestätigen, gegebenenfalls ohne überhaupt die Suchergebnisse anzuzeigen. Sie sind nicht sicher, wie man den Namen dieses American-Football-Spielers auf der Position des Runningbacks schreibt? Geben Sie einfach die ersten Buchstaben „Mars“ ein, und schon schlägt Google „Marshawn Lynch“ vor. Wer war gleich der Autor von Oliver Twist, Charles irgendwas? Google schlägt natürlich Charles Dickens vor. Aber woher hat die Suchmaschine diese Information? Im letzten Blogeintrag dieser Reihe habe ich bereits erwähnt, dass sich die automatischen Suchvorschläge in Google stark, aber nicht ausschließlich auf ähnliche Suchanfragen stützen, die derzeit von anderen Google-Nutzern eingegeben werden.

Google sieht sich jedoch nicht nur den kollektiven Suchwort-Stream an. Genau wie andere Suchmaschinen werden auch Informationen von Webseiten an sich verwendet und, wie wir noch sehen werden, weitere Informationen aus anderen Ressourcen.

Wenn ich fälschlicherweise „Marshall Lynch“ eingebe, zeigt Google mir trotzdem die Ergebnisse für den Football-Star Marshawn Lynch an. Die Algorithmen haben „gewusst“, dass deutlich mehr Inhalte für eine leicht abgeänderte Version dieser Suchwörter existieren, und schlossen daraus, dass ich mich wahrscheinlich für die Marshawn-Variante interessiere. Google zeigt dann die entsprechenden Ergebnisse an.

Die Webseiten bilden also eine Art Wissensbasis, die auch für die automatische Vervollständigung genutzt wird. Wer die automatischen Vorschläge und Suchergebnisse im letzten Jahr beobachtet hat konnte feststellen, dass sie sogar noch besser geworden sind.

Ein Ausflug in die Semantik
Es scheint fast so, als würde Google die Bedeutung der Suchwörter verstehen. Wenn Sie die Gesamtintelligenz von Google einmal in Aktion erleben wollen, dann geben Sie „Charles Dickens“ in das Suchfeld ein.

Google beschließt, dass sich diese Suchwörter auf eine Person beziehen, die auch ein Schriftsteller ist. Rechts neben den Suchergebnissen erscheint ein Feld mit zahlreichen Informationen, darunter auch ein Bild dieser Person und eine Liste der Bücher, die sie geschrieben hat.

Oder noch besser: Tippen Sie mal „Charles Dickens Alter“ ein. Google zeigt über den Suchergebnissen das Alter des Schriftstellers bei seinem Tod an.

Woher weiß Google das alles?

Da wir keine auf Silikon basierende Lebensform sind, haben wir alle eine Wissenslandkarte der Welt im Kopf. Wir wissen, dass Oliver Twist ein Roman ist, was wiederum eine Art von Buch ist, und dass Bücher etwas mit Schriftstellern zu tun haben. Dass Schriftsteller Personen sind usw.

Google hat seine eigene, digitale Version dieser Wissenslandkarte. Informatiker bezeichnen sie als semantisches Schema. Dieses Schema stellt die grundlegende Struktur zur Organisation von Informationen bereit.

2013 veröffentlichte Google sein Hummingbird-Update, bei dem semantische Suchkonzepte in die Algorithmen integriert wurden – eine gute Erläuterung dazu finden Sie hier. Diese umfassende Neuerung basierte auf der bereits bestehenden Schema-Initiative Knowledge Graph.

Nur wenige wissen, dass das Hummingbird-Update teilweise von Freebase erarbeitet wurde, einem Startup-Unternehmen, das Google vor ein paar Jahren übernommen hat.

Freebase entwickelte ein komplexes und, wie ich finde, umfangreiches Schema, das zahlreiche Wissensbereiche strukturiert: Filme, Bücher, Geografie usw. Sie können es sich als organisierte Metadaten vorstellen. Dabei handelt es sich um eine vernetzte Datenbank – die übrigens nichts mehr mit altmodischen relationalen Datenbanken zu tun hat –, in der jedes Quäntchen Wissen und jede Eigenschaft mit einer anderen verknüpft ist.

Wer mehr darüber erfahren will, kann sich die Website von Freebase ansehen, die Google (zumindest bis jetzt) erhalten hat. Wenn Sie „Charles Dickens“ eingeben, sehen Sie eine riesige Menge von Eigenschaften, die in größere Gruppierungen, so genannte „Types“, unterteilt sind: Eine komplizierte Wissenslandkarte mit unglaublich vielen Informationen über Dickens.

Wissens-Freaks, die die Datenbank selbst durchforsten möchten, können noch bis zum 31. März mit der MQL (Metaweb Query Language) von Freebase experimentieren. Vorsicht: steile Lernkurve!

Automatisches Unternehmenswissen
Doch zurück zu automatischen Suchvorschlägen. Jetzt beginnen wir zu verstehen, was Google eigentlich im Hintergrund macht. Es verwendet die Suchwörter, um seinen eigenen Knowledge Graph zu durchsuchen, zu dem auch die Freebase-Daten gehören. Dann erstellt es die automatischen Suchvorschläge und filtert die gefundenen Inhalte mithilfe der semantischen Landkarte.

Hier ist ein gutes Beispiel für die enorme Leistung dieser Schemata. Wenn ich „Citizen Kane 1“ eingebe, weiß Google sofort, dass ich den Film meine, und dass die Zahl 1 sich auf eine numerische Eigenschaft von Filmen bezieht, wahrscheinlich auf das Veröffentlichungsdatum. Und genau das schlägt Google vor: Citizen Kane 1941. Brillant – es hat meine Gedanken gelesen.

Wie kann die unternehmensweite Suche ähnliche Zauberkünste vollbringen und das Unternehmenswissen anzapfen, das sich in den Daten verbirgt?

Genau wie Google würde die unternehmensweite Suche sich zunächst an der Beliebtheit der Suchwörter orientieren, um automatische Vorschläge zu erstellen. In meinem letzten Blogbeitrag habe ich gefragt, was denn die Parallele zu dem Ort wäre, an den Google seine Vorschläge anpasst.

Die Antwort lautet: Gruppen und Abteilungen, die in Active Directory vorgehalten werden. Ich fände es gut, wenn sich die automatischen Vorschläge danach richten, was andere aus dem Technischen Marketing eingegeben haben.

Wenn meine Kollegin Cindy Ng und das übrige Team nach „Produkt-Roadmap Kalkulation 2015“ suchen, dann könnte eine allgemeinere Suche nach „Roadmap“ auf Basis des kollektiven Wissens, das in den Suchabfragen aus dem Marketing-Bereich enthalten ist, erweitert werden.

Unternehmens-Metadaten und automatische Suchvorschläge
Natürlich würden Metadaten bei der Optimierung der automatischen Vervollständigung eine wichtige Rolle spielen. Inwiefern? Es wäre hilfreich, die Zugriffsaktivitäten aller Mitarbeiter zu kennen und Nutzer mit ähnlichen Mustern in derselben virtuellen Gruppe zu organisieren, und zwar unabhängig davon, welcher Abteilung sie angehören. Genau das macht übrigens Varonis DatAdvantage unter Zuhilfenahme des Metadata Framework wenn es Data-Ownership-Empfehlungen ausspricht.

Die automatischen Suchvorschläge für die unternehmensweite Suche könnten dann anhand dieser Gruppierungen angepasst werden. Ich verwende beispielsweise sehr häufig Dateien aus den Ordnern „Vertrieb“ und „Wettbewerbsanalyse“. Für mich wäre es deshalb hilfreich, wenn sich meine automatischen Suchvorschläge stärker an beliebten Suchwörtern der Mitarbeiter mit ähnlichen Dateizugriffsmustern orientieren würden.

Das ergibt Sinn, oder? Alle Mitglieder unserer virtuellen Gruppe hätten ähnliche inhaltliche Vorlieben und könnten so von den Suchwörtern der anderen profitieren.

Die Suche der Zukunft
Ein semantisches Schema mit Allgemeinwissen würde die automatische Vervollständigung bei der unternehmensweite Suche genauso verbessern, wie dies im Internet der Fall ist.

Vielleicht wird dieses Szenario schon bald Realität: Ich muss einen Blogbeitrag zu Aktualisierungen der Datensicherheitsgesetze und -richtlinien schreiben und weiß, dass sich zahlreiche Inhalte dazu im Dateisystem befinden. Aber Moment, wie heißt gleich dieses amerikanische Gesetz zu Kreditkarten, „US Credit Reporting Act“ oder so ähnlich?

Ein solides Schema informiert die Suchfunktion darüber, dass „US Act“ sich auf amerikanische Gesetze bezieht, und schlägt das „Fair Credit Report Act (FCRA) von 1970“ vor. Die unternehmensweite Suche würde dann relevante Dateien finden, in denen das Gesetz genannt wird, und eine Google-ähnliche Infobox mit den dazugehörigen Bestimmungen anzeigen.

Ziemlich cool.

Programmierer, die diese Idee für ihre eigene Arbeit nutzen möchten, können noch bis zum 30. Juni 2015 das Freebase-Widget zur automatischen Vervollständigung ausprobieren.

In meinem nächsten Blogbeitrag geht es darum, wie Sie semantische Informationen aus unstrukturierten Daten ziehen können, um die unternehmensweite Suche noch cleverer zu machen.

The post Unternehmensweite Suche: Daten und Wissen gehören zusammen, Teil 2 appeared first on Varonis Deutsch.

Wie soll ich vorgehen?

Im Folgenden finden Sie drei Möglichkeiten, wie Sie das Datenrisiko in Ihrem Unternehmen verringern können:

Vereinbaren Sie eine Demo mit uns, um Varonis in Aktion zu erleben. Wir passen die Session an die Datensicherheitsanforderungen Ihres Unternehmens an und beantworten alle Fragen.

Sehen Sie sich ein Beispiel unserer Datenrisikobewertung an und erfahren Sie, welche Risiken in Ihrer Umgebung lauern könnten. Varonis DRA ist völlig kostenlos und bietet einen klaren Weg zur automatischen Sanierung.

Folgen Sie uns auf LinkedIn, YouTubeund X (Twitter), um kurze Einblicke in alle Themen der Datensicherheit zu erhalten, einschließlich Data Security Posture Management (DSPM), Bedrohungserkennung, KI-Sicherheit und mehr.

Michael Buckbee Michael hat als Systemadministrator und Softwareentwickler für Startups im Silicon Valley, die US Navy und alles dazwischen gearbeitet.

Unternehmensweite Suche: Daten und Wissen gehören zusammen, Teil 2

Wie soll ich vorgehen?

Testen Sie Varonis gratis.

Weiter lesen