Ο νέος αλγόριθμος SMITH από την Google

 

Ο αλγόριθμος SMITH της Google που ξεπερνά τα BERT; Ο νέος αλγόριθμος SMITH της Google κατανοεί το περιεχόμενο μεγάλης διάρκειας καλύτερα από το BERT.

Η Google δημοσίευσε πρόσφατα ένα ερευνητικό έγγραφο για έναν νέο αλγόριθμο που ονομάζεται SMITH ότι ισχυρίζεται ότι ξεπερνά το BERT για την κατανόηση μεγάλων ερωτημάτων και μεγάλων εγγράφων. Συγκεκριμένα, αυτό που κάνει αυτό το νέο μοντέλο καλύτερο είναι ότι είναι σε θέση να κατανοήσει χωρίσματα εντός εγγράφων με τον ίδιο τρόπο που το BERT κατανοεί λέξεις και προτάσεις, γεγονός που επιτρέπει στον αλγόριθμο να κατανοεί μεγαλύτερα έγγραφα.

Στις 3 Νοεμβρίου 2020 διάβασα για έναν αλγόριθμο Google που ονομάζεται Smith που ισχυρίζεται ότι ξεπερνά το BERT.
Περίμενα έως ότου είχα λίγο χρόνο να γράψω μια περίληψη του γιατί το SMITH φαίνεται να είναι ένας σημαντικός αλγόριθμος και άξιζε μια προσεκτική σύνταξη.

Εδώ λοιπόν, ελπίζω να κατανοήσετε και να μοιραστείτε αυτό το άρθρο με άλλους.

 

1. Χρησιμοποιεί η Google τον αλγόριθμο SMITH;

Η Google δεν λέει γενικά ποιους συγκεκριμένους αλγόριθμους χρησιμοποιεί. Αν και οι ερευνητές λένε ότι αυτός ο αλγόριθμος ξεπερνά το BERT, έως ότου η Google να δηλώσει επισήμως ότι ο αλγόριθμος SMITH χρησιμοποιείται για την κατανόηση αποσπασμάτων σε ιστοσελίδες, είναι καθαρά κερδοσκοπικό να πει κάποιος εάν χρησιμοποιείται ή όχι.

 

Τι είναι όμως ο αλγόριθμος SMITH;

Το SMITH είναι ένα νέο μοντέλο για την προσπάθεια κατανόησης ολόκληρων εγγράφων. Μοντέλα όπως το BERT εκπαιδεύονται να κατανοούν λέξεις στο πλαίσιο των προτάσεων.

Σε μια πολύ απλουστευμένη περιγραφή, το μοντέλο SMITH εκπαιδεύεται για να κατανοεί αποσπάσματα στο πλαίσιο ολόκληρου του εγγράφου.

Ενώ οι αλγόριθμοι όπως το BERT εκπαιδεύονται σε σύνολα δεδομένων για να προβλέψουν τυχαία κρυμμένες λέξεις προέρχονται από το πλαίσιο εντός των προτάσεων, ο αλγόριθμος SMITH εκπαιδεύεται για να προβλέψει ποιο είναι το επόμενο μπλοκ των προτάσεων.

Αυτό το είδος εκπαίδευσης βοηθά τον αλγόριθμο να κατανοήσει μεγαλύτερα έγγραφα καλύτερα από τον αλγόριθμο BERT, σύμφωνα με τους ερευνητές.

 

2. Ο αλγόριθμος BERT έχει περιορισμούς

 

Έτσι παρουσιάζουν τις αδυναμίες του BERT:

«Τα τελευταία χρόνια, μοντέλα που βασίζονται στην αυτο-προσοχή όπως οι Transformers… και ο BERT… έχουν επιτύχει κορυφαίες επιδόσεις στο έργο αντιστοίχισης κειμένου. Αυτά τα μοντέλα, ωστόσο, εξακολουθούν να περιορίζονται σε σύντομο κείμενο όπως μερικές προτάσεις ή μία παράγραφο λόγω της τετραγωνικής υπολογιστικής πολυπλοκότητας της αυτο-προσοχής σε σχέση με το μήκος εισαγωγής κειμένου.

Σε αυτό το άρθρο, αντιμετωπίζουμε το ζήτημα προτείνοντας τον Siamese Multi Transformer-based Hierarchical (SMITH) Encoder για αντιστοίχιση εγγράφων μακράς μορφής. Το μοντέλο μας περιέχει αρκετές καινοτομίες για την προσαρμογή μοντέλων αυτο-προσοχής για μεγαλύτερη εισαγωγή κειμένου. ”

Σύμφωνα με τους ερευνητές, ο αλγόριθμος BERT περιορίζεται στην κατανόηση σύντομων εγγράφων. Για διάφορους λόγους που εξηγούνται στο ερευνητικό έγγραφο, ο BERT δεν είναι κατάλληλος για την κατανόηση εγγράφων μεγάλου μήκους.

Οι ερευνητές προτείνουν τον νέο τους αλγόριθμο που λένε ότι ξεπερνά το BERT με μεγαλύτερα έγγραφα.

Στη συνέχεια εξηγούν γιατί τα μακρά έγγραφα είναι δύσκολα

«… Η σημασιολογική αντιστοίχιση μεταξύ μεγάλων κειμένων είναι πιο δύσκολη υπόθεση για μερικούς λόγους:

1) Όταν και τα δύο κείμενα είναι μεγάλα, η αντιστοίχιση τους απαιτεί μια πιο εμπεριστατωμένη κατανόηση των σημασιολογικών σχέσεων, συμπεριλαμβανομένου του μοτίβου αντιστοίχισης μεταξύ κομματιών κειμένου με μεγάλη απόσταση.

2) Τα μεγάλα έγγραφα περιέχουν εσωτερική δομή, όπως ενότητες, αποσπάσματα και προτάσεις. Για τους αναγνώστες ανθρώπους, η δομή εγγράφων παίζει συνήθως βασικό ρόλο στην κατανόηση του περιεχομένου. Ομοίως, ένα μοντέλο πρέπει επίσης να λαμβάνει υπόψη τις πληροφορίες δομής εγγράφου για καλύτερη απόδοση αντιστοίχισης εγγράφων.

3) Η επεξεργασία μεγάλων κειμένων είναι πιο πιθανό να προκαλέσει πρακτικά ζητήματα όπως από τις αύξηση στις μνήμες TPU / GPU χωρίς προσεκτικό σχεδιασμό μοντέλου. ”

 

3. Μεγαλύτερο κείμενο εισαγωγής

Ο BERT περιορίζεται στο πόσο παλιό μπορεί να είναι τα έγγραφα. Το SMITH, όπως θα δείτε πιο κάτω, αποδίδει καλύτερα όσο νεώτερο είναι το έγγραφο.

Αυτό είναι ένα γνωστό μειονέκτημα με τον BERT.

Έτσι το εξηγούν:

“Τα πειραματικά αποτελέσματα σε πολλά δεδομένα αναφοράς για αντιστοίχιση κειμένου μακράς μορφής … δείχνουν ότι το προτεινόμενο μοντέλο SMITH ξεπερνά τα προηγούμενα προηγμένα μοντέλα και αυξάνει το μέγιστο μήκος κειμένου εισαγωγής από 512 έως 2048 σε σύγκριση με τις βασικές γραμμές που βασίζονται στο BERT.”

Αυτό το γεγονός ότι το SMITH είναι σε θέση να κάνει κάτι που το BERT δεν μπορεί να κάνει είναι αυτό που κάνει το μοντέλο SMITH ενδιαφέρον.

Το μοντέλο SMITH δεν αντικαθιστά το BERT.

Το μοντέλο SMITH συμπληρώνει το BERT κάνοντας τη βαριά ανύψωση που ο BERT δεν μπορεί να κάνει.

Οι ερευνητές το δοκίμασαν και είπαν:

«Τα πειραματικά μας αποτελέσματα σε πολλά σύνολα δεδομένων αναφοράς για αντιστοίχιση εγγράφων μακράς μορφής δείχνουν ότι το προτεινόμενο μοντέλο SMITH ξεπερνά τα προηγούμενα προηγμένα μοντέλα, όπως ιεραρχική προσοχή…, ιεραρχικό επαναλαμβανόμενο νευρωνικό δίκτυο βασισμένο σε προσοχή σε βάθος… και BERT .

Σε σύγκριση με τις βασικές γραμμές που βασίζονται στο BERT, το μοντέλο μας μπορεί να αυξήσει το μέγιστο μήκος εισαγωγής κειμένου από 512 σε 2048. ”

Αν καταλαβαίνω σωστά το ερευνητικό έγγραφο, το ερευνητικό έγγραφο δηλώνει ότι το πρόβλημα της αντιστοίχισης μεγάλων ερωτημάτων με μεγάλο περιεχόμενο δεν έχει διερευνηθεί επαρκώς.

Σύμφωνα με τους ερευνητές:

«Από όσα γνωρίζουμε, η σημασιολογική αντιστοίχιση μεταξύ μεγάλων ζευγών εγγράφων, η οποία έχει πολλές σημαντικές εφαρμογές όπως σύσταση ειδήσεων, σχετικές προτάσεις άρθρων και ομαδοποίηση εγγράφων, είναι λιγότερο διερευνητική και χρειάζεται περισσότερη ερευνητική προσπάθεια.

Αργότερα στο έγγραφο δηλώνουν ότι υπήρξαν κάποιες μελέτες που πλησιάζουν αυτό που ερευνούν.

Ωστόσο, γενικά φαίνεται να υπάρχει κενό στην έρευνα τρόπων αντιστοίχισης μεγάλων ερωτημάτων με μεγάλα έγγραφα. Αυτό είναι το πρόβλημα που οι ερευνητές επιλύουν με τον αλγόριθμο SMITH.

 

4. Λεπτομέρειες για το SMITH της Google

Δεν θα πάω βαθιά στις λεπτομέρειες του αλγορίθμου, αλλά θα διαλέξω μερικά γενικά χαρακτηριστικά αυτού.

Το έγγραφο εξηγεί ότι χρησιμοποιούν ένα μοντέλο προ-κατάρτισης που είναι παρόμοιο με το BERT και πολλούς άλλους αλγόριθμους .

Αρχικά δίνουν λίγες βασικές πληροφορίες, ώστε το έγγραφο να έχει πιο μεγάλο νόημα.

 

5. Προ-κατάρτιση αλγορίθμου

Η προ-εκπαίδευση είναι το σημείο όπου ένας αλγόριθμος εκπαιδεύεται σε ένα σύνολο δεδομένων. Για τυπική προ εκπαίδευση τέτοιων αλγορίθμων, οι μηχανικοί θα καλύψουν (απόκρυψη) τυχαίες λέξεις μέσα σε προτάσεις. Ο αλγόριθμος προσπαθεί να προβλέψει τις καλυμμένες λέξεις.

Για παράδειγμα, εάν μια πρόταση γράφεται ως ” Ο κύριος McDonald είχε ____ “, ο αλγόριθμος όταν είναι πλήρως εκπαιδευμένος μπορεί να προβλέψει, ” Φάρμα ” είναι η λέξη που λείπει.

Καθώς μαθαίνει ο αλγόριθμος, τελικά βελτιστοποιείται για να κάνει λιγότερα λάθη στα δεδομένα εκπαίδευσης.

Η προ-προπόνηση γίνεται με σκοπό την εκπαίδευση της μηχανής ώστε να είναι ακριβής και να κάνει λιγότερα λάθη.

«Εμπνευσμένο από την πρόσφατη επιτυχία μεθόδων προ-κατάρτισης γλωσσικού μοντέλου, όπως το BERT, ο SMITH υιοθετεί επίσης το πρότυπο « μη επιτηρούμενη προ-κατάρτιση + τελειοποίηση »για την εκπαίδευση μοντέλων.

Για την προ-προπόνηση του μοντέλου Smith, προτείνουμε την εργασία μοντελοποίησης της γλώσσας μπλοκ φράσεων με μάσκα, εκτός από την αρχική εργασία μοντελοποίησης της γλώσσας μάσκας που χρησιμοποιείται στο BERT για μεγάλες εισαγωγές κειμένου. ”

Τα μπλοκ των προτάσεων είναι κρυμμένα στην προ-εκπαίδευση
Εδώ είναι που οι ερευνητές εξηγούν ένα βασικό μέρος του αλγορίθμου, πώς χρησιμοποιούνται οι σχέσεις μεταξύ των ομάδων φράσεων σε ένα έγγραφο για την κατανόηση του τι αφορά ένα έγγραφο κατά τη διαδικασία προ-κατάρτισης.

Όταν το κείμενο εισαγωγής γίνει μακρύ, τόσο οι σχέσεις μεταξύ λέξεων σε ένα τμήμα φράσεων όσο και οι σχέσεις μεταξύ ομάδων φράσεων μέσα σε ένα έγγραφο καθίστανται σημαντικές για την κατανόηση του περιεχομένου.

Επομένως, καλύπτουμε τόσο τυχαία επιλεγμένες λέξεις όσο και μπλοκ προτάσεων κατά τη διάρκεια της προ-εκπαίδευσης του μοντέλου. ”

Στη συνέχεια, οι ερευνητές περιγράφουν με μεγαλύτερη λεπτομέρεια πώς αυτός ο αλγόριθμος πηγαίνει πάνω και πέρα ​​από τον αλγόριθμο BERT.

Αυτό που κάνουν είναι να αυξήσουν την προπόνηση για να προχωρήσουν πέρα ​​από την προπόνηση λέξεων για να πάρουν τμήματα προτάσεων.

 

Δείτε πώς περιγράφεται στο ερευνητικό έγγραφο:

“Εκτός από την εργασία πρόβλεψης μασκαρισμένης λέξης στο BERT, προτείνουμε την εργασία πρόβλεψης μπλοκ καλυμμένων φράσεων για να μάθουμε τις σχέσεις μεταξύ διαφορετικών ομάδων φράσεων.”

Ο αλγόριθμος SMITH εκπαιδεύεται για την πρόβλεψη ομάδων προτάσεων. Η προσωπική μου αίσθηση γι ‘αυτό είναι… είναι τέλειο.

Αυτός ο αλγόριθμος μαθαίνει τις σχέσεις μεταξύ λέξεων και στη συνέχεια ανεβάζει επίπεδο για να μάθει το πλαίσιο των τμημάτων των προτάσεων και πώς σχετίζονται μεταξύ τους σε ένα μακρύ έγγραφο.

 

6. Αποτελέσματα της δοκιμής SMITH

Οι ερευνητές σημείωσαν ότι το SMITH κάνει καλύτερα με μεγαλύτερα έγγραφα κειμένου.

“Το μοντέλο SMITH που απολαμβάνει μεγαλύτερα μήκη κειμένου εισαγωγής σε σύγκριση με άλλα τυπικά μοντέλα αυτο-προσοχής είναι μια καλύτερη επιλογή για εκμάθηση και αντιστοίχιση μακράς αναπαράστασης εγγράφων.”

Στο τέλος, οι ερευνητές κατέληξαν στο συμπέρασμα ότι ο αλγόριθμος SMITH δίνει καλύτερα αποτελέσματα από τον BERT για μεγάλα έγγραφα.

7. Γιατί το ερευνητικό έγγραφο SMITH είναι σημαντικό

Ένας από τους λόγους που προτιμώ να διαβάζω ερευνητικά έγγραφα σε σχέση με τα διπλώματα ευρεσιτεχνίας είναι ότι τα ερευνητικά έγγραφα μοιράζονται λεπτομέρειες σχετικά με το εάν το προτεινόμενο μοντέλο λειτουργεί καλύτερα από τα υπάρχοντα και τα σύγχρονα μοντέλα.

Πολλές ερευνητικές εργασίες καταλήγουν λέγοντας ότι πρέπει να γίνει περισσότερη δουλειά. Για μένα αυτό σημαίνει ότι το πείραμα του αλγορίθμου είναι πολλά υποσχόμενο, αλλά πιθανότατα δεν είναι έτοιμο να τεθεί σε ζωντανό περιβάλλον.

Ένα μικρότερο ποσοστό ερευνητικών ερευνών αναφέρουν ότι τα αποτελέσματα υπερτερούν της τελευταίας τεχνολογίας. Αυτά είναι τα ερευνητικά έγγραφα που κατά τη γνώμη μου αξίζουν να δώσουν προσοχή γιατί είναι πιο πιθανό να το κάνουν στον αλγόριθμο της Google.
Όταν λέω παρόμοιο, δεν εννοώ ότι ο αλγόριθμος βρίσκεται ή θα βρίσκεται στον ζωντανό αλγόριθμο της Google .

Αυτό που εννοώ είναι ότι, σε σχέση με άλλα πειράματα αλγορίθμων, οι ερευνητικές εργασίες που ισχυρίζονται ότι υπερτερούν της στάθμης της τεχνολογίας είναι πιο πιθανό να το κάνουν στον υπάρχον αλγόριθμο της Google.

 

8. Χρησιμοποιείται τελικά ο αλγόριθμος SMITH;

Όπως γράφτηκε νωρίτερα, έως ότου η Google δηλώσει ρητά ότι χρησιμοποιούν το SMITH δεν υπάρχει τρόπος να πούμε με ακρίβεια ότι το μοντέλο SMITH χρησιμοποιείται τώρα στο Google.

Τούτου λεχθέντος, ερευνητικά έγγραφα που δεν είναι πιθανό να χρησιμοποιούνται είναι αυτά που δηλώνουν ρητά ότι τα ευρήματα είναι ένα πρώτο βήμα προς ένα νέο είδος αλγορίθμου και ότι απαιτείται περισσότερη έρευνα.

Αυτό δεν συμβαίνει με αυτό το ερευνητικό έγγραφο. Οι ερευνητές του ερευνητικού εγγράφου δηλώνουν με αυτοπεποίθηση ότι το SMITH χτυπά την τελευταία λέξη της τεχνολογίας για την κατανόηση περιεχομένου μεγάλης διάρκειας.

Αυτή η εμπιστοσύνη στα αποτελέσματα και η έλλειψη δήλωσης ότι απαιτείται περισσότερη έρευνα καθιστά αυτό το έγγραφο πιο ενδιαφέρον από άλλα και επομένως αξίζει να το μάθετε σε περίπτωση που αναδιπλωθεί στον αλγόριθμο της Google κάποια στιγμή στο μέλλον ή στο παρόν.

Author avatar
Onesmart Promotion
https://1sm.gr
Παρέχουμε υπηρεσίες Branding & Digital Marketing υψηλού επιπέδου. Μειώνουμε τα αρνητικά αποτελέσματα στο brand και δίνουμε λύσεις στην προώθηση και την αύξηση πωλήσεων και τζίρου. Στόχος μας η καινοτομία και η σταθερότητα στην επιχειρηματικότητα.

Post a comment

Η ηλ. διεύθυνση σας δεν δημοσιεύεται. Τα υποχρεωτικά πεδία σημειώνονται με *