Μια νέα μηχανή αναζήτησης λανσάρισε η Google, την Dataset Search που εντοπίζει επιστημονικά δεδομένα τα οποία είναι ελεύθερα για χρήση.

Google Dataset Search

H Google Dataset Search ξεκίνησε να λειτουργεί 5 Σεπτεμβρίου και έρχεται να συμπληρώσει και άλλες εξειδικευμένες μηχανές αναζήτησης όπως το Google Scholar, το Google Books.

Δε διαβάζει το περιεχόμενο των δεδομένων, όπως κάνει για τις ιστοσελίδες. Τα ταξινομεί τα σύνολα δεδομένων (datasets) με βάση το πώς τα δικαιώματα χρήσης που έχουν δώσει οι συντάκτες τους

Με αυτή την κίνηση η Google στήριζε το κίνημα για τα ανοιχτά δεδομένα, που στόχο έχει να γίνουν τα διαθέσιμα δεδομένα προσβάσιμα από όλους.

Κυβερνητικοί οργανισμοί, επιστημονικοί εκδοτικοί οίκοι ακόμα και μεμονωμένοι επιστήμονες διαθέτουν βάσεις με ανοιχτή πρόσβαση. Όμως κάποιος πρέπει να τις γνωρίζει για να αναζητήσει το υλικό που επιθυμεί.

Η Natasha Noy και ο συνάδελφός της στη Google, Dan Brickley, ξεκίνησαν να συζητούν μια στρατηγική για να αντιμετωπίσουν αυτό το πρόβλημα σε ένα blogpost τον Ιανουάριο του 2017. 

Μια κλασική μηχανή αναζήτησης έχουν 2 βασικά στάδια λειτουργίας:

- Στο πρώτο καταγράφουν τις ιστοσελίδες ψάχνοντας συνεχώς στο διαδίκτυο και δημιουργούν ένα ευρετήριο.
- Στο δεύτερο στάδιο κατατάσσουν τις σελίδες που βρήκαν, έτσι ώστε να εμφανίσουν τις πιο σχετικές στο χρήστη ανάλογα με τη λέξη κλειδί που εισάγει.

Για να βοηθήσουν την αναζήτηση οι συντάκτες των δεδομένων, χαρακτηρίζουν το περιεχόμενο τους με βάση τους κανόνες του Schema.org. Το Schema.org είναι μια πρωτοβουλία που ιδρύθηκε από την Google και άλλες 3 κολοσσιαίες μηχανές αναζήτησης, της Microsoft, της Yahoo και της Yandex και το διαχειρίζεται η Brickley. Η ομάδα της Google σχεδίασε έναν ειδικό αλγόριθμο που ταξινομεί τα σύνολα αυτών των δεδομένων.

Η Google σαν κυρίαρχος παίκτης στη διακίνηση δεδομένων στο διαδίκτυο κατάφερε να κινητοποιήσει γρήγορα τους βασικούς ακαδημαϊκούς φορείς , όπως είναι τα πανεπιστήμια, να καταγράψουν τα δεδομένα τους με κάποιες σημασιολογικές νόρμες (metadata). Καθώς εάν δεν έχουν τη συνεργασία των κατόχων των δεδομένων δεν μπορούν να τα ταξινομήσουν.

Από τους πρώτους υποστηρικτές αυτού του εγχειρήματος ήταν η Εθνική Ωκεανογραφική και Ατμοσφαιρική Υπηρεσία των Η.Π.Α. (US National Oceanic and Atmospheric Administration, NOAA). Η υπηρεσία έχει στην διάθεσή της περίπου 70.000 σύνολα δεδομένων , κάπου 35 petabytes, από τα 1800, από καταγραφές πλοίων και αλιευτικά δεδομένα μέχρι την κορώνα του Ήλιου.

Για την ώρα δεν υπάρχει δυνατότητα για αυτόματα querying ή για τη δημιουργία application programming interface (API) όπως άλλωστε και στο Google Scholar, αλλά η εταιρεία αναφέρει ότι μπορεί να την προσθέσει στο μέλλον. Τώρα οι developers θέλουν να δουν πως οι χρήστες αλληλεπιδρούν με την πλατφόρμα και πώς χρησιμοποιούν τα δεδομένα για να βελτιώσουν τα αποτελέσματα αναζήτησης.

Επισκεφθείτε την και δοκιμάστε την!

Google Dataset Search

 

--

Πηγές:

  1. https://toolbox.google.com/datasetsearch
  2. Castelvecchi, D. (2018). Google unveils search engine for open data. Nature.
  3. Facilitating the discovery of public datasets. Tuesday, January 24, 2017. Posted by Natasha Noy, Google Research and Dan Brickley, Open Source Programs Office. ai.googleblog.com
  4. https://schema.org/
  5. https://developers.google.com/search/docs/data-types/dataset