Categorizarea interogărilor pe baza rezultatelor imaginii
Publicat: 2022-04-27Google a primit recent un brevet privind categorizarea interogărilor pe baza rezultatelor imaginilor.
Brevetul ne spune că: „motoarele de căutare pe internet oferă informații despre resursele accesibile pe Internet (cum ar fi pagini web, imagini, documente text, conținut multimedia) care răspund la interogarea de căutare a unui utilizator, returnând, atunci când caută imagini, un set de rezultate ale căutării de imagini. ca răspuns la întrebare.”
Un rezultat al căutării include, de exemplu, un URL (Uniform Resource Locator) al unei imagini sau al unui document care conține imaginea și un fragment de informații.
Clasificarea SERP-urilor folosind o funcție de scor
Rezultatele căutării pot fi clasate (cum ar fi în ordine) în funcție de scorurile atribuite de o funcție de punctare.
Funcția de scoring ierarhizează rezultatele căutării în funcție de diferite semnale:
- Unde (și cât de des) apare textul de interogare în textul documentului din jurul unei imagini
- O legendă a unei imagini sau un text alternativ pentru idee
- Cât de standard sunt termenii de interogare în rezultatele căutării indexate de motorul de căutare.
În general, subiectul descris în acest brevet este într-o metodă care include:
- Obținerea de imagini din prima imagine rezultă pentru o primă interogare, unde un număr de imagini achiziționate asociate cu scoruri și date despre comportamentul utilizatorului care declară interacțiunea utilizatorului cu imaginile obținute atunci când imaginile obținute sunt rezultate de căutare pentru interogare
- Selectarea unui număr de imagini dobândite, fiecare având date de comportament respective care satisface un prag
- Asocierea primelor imagini alese cu mai multe adnotări bazate pe analiza conținutului imaginilor selectate
Acestea pot include opțional următoarele caracteristici.
Prima interogare poate fi asociată cu categorii pe baza adnotărilor. Categorizarea interogărilor și asociațiile de adnotări pot fi stocate pentru utilizare ulterioară. A doua imagine răspunde la o a doua interogare care este aceeași sau ca și prima interogare poate fi primită.
Fiecare dintre cele de-a doua imagini este asociată cu un scor, iar a doua imagine poate fi modificată în funcție de categoriile legate de prima interogare.
Una dintre categoriile de interogare poate afirma că prima interogare este o interogare cu o singură persoană și mărește scorurile celei de-a doua imagini, ale cărei adnotări spun că setul de imagini secundare conține o singură față.
O categorizare a unei interogări poate afirma că prima interogare este diversă și poate crește scorurile celor de-a doua imagini, ale căror adnotări spun că setul de imagini secundare este divers.
Una dintre categorii poate afirma că prima interogare este o interogare de text și poate crește scorurile celei de-a doua imagini, ale cărei adnotări spun că setul de imagini secunde conține textul.
Prima interogare poate fi furnizată unui clasificator instruit pentru a determina o clasificare a interogării în categorii.
Analiza conținutului primelor imagini selectate poate include gruparea rezultatelor primei imagini pentru a determina o adnotare în adnotări. Datele despre comportamentul utilizatorului pot fi de câte ori utilizatorii selectează imaginea în rezultatele căutării pentru prima interogare.
Obiectul descris în acest brevet poate fi implementat astfel încât să realizeze următoarele avantaje:
Setul de rezultate de imagine este analizat pentru a obține adnotări de imagine și o clasificare a interogărilor, iar interacțiunea utilizatorului cu rezultatele căutării de imagini poate fi folosită pentru a obține tipuri pentru interogări.
Categorizarea interogărilor
Categoriile de interogări pot, la rândul lor, să îmbunătățească relevanța, calitatea și diversitatea rezultatelor căutării de imagini.
Categorizarea interogărilor poate fi folosită și ca parte a procesării interogărilor sau într-un proces offline.
Categoriile de interogări se pot obișnui pentru a oferi sugestii de interogări automate, cum ar fi „afișați numai imagini cu fețe” sau „afișați numai imagini clipate”.
Clasificarea interogărilor pe baza rezultatelor imaginii
Inventatori: Anna Majkowska și Cristian Tapus
Cesionar: GOOGLE LLC
Brevet SUA: 11.308.149
Acordat: 19 aprilie 2022
Depus: 3 noiembrie 2017
Abstract
Metode, sisteme și aparate, inclusiv programe de calculator codificate pe un mediu de stocare computerizat, pentru clasificarea interogărilor pe baza rezultatelor imaginii.
Într-un aspect, o metodă include primirea de imagini din rezultate de imagine care răspund la o interogare, în care fiecare dintre fotografii este asociată cu o ordine în rezultatele imaginii și datele de comportament ale utilizatorului respective pentru imagine ca rezultat al căutării pentru prima interogare și asocierea dintre primele imagini cu o multitudine de adnotări bazate pe analiza conținutului primelor imagini selectate.
Un sistem care utilizează clasificarea interogărilor pentru a îmbunătăți setul de rezultate returnate pentru o interogare
Un client, cum ar fi un browser web sau alt proces care se execută pe un dispozitiv de calcul, trimite o interogare de intrare unui motor de căutare, iar motorul de căutare returnează clientului rezultatele căutării de imagini. În unele implementări, o interogare cuprinde text, cum ar fi caractere dintr-un set de caractere (de exemplu, „roșie roșie”).
O interogare cuprinde imagini, sunete, videoclipuri sau combinații ale acestora. Sunt posibile alte tipuri de interogări. Motorul de căutare va căuta rezultate pe baza versiunilor alternative de interogare egale, mai ample sau mai specifice decât interogarea de intrare.
Rezultatele căutării de imagini sunt o listă ordonată sau clasificată de documente sau link-uri către astfel de documente, care sunt determinate a răspunde la interogarea de intrare, documentele determinate a fi cele mai relevante având cel mai înalt rang. O copie este o pagină web, o imagine sau un alt fișier electronic.
În cazul căutării de imagini, motorul de căutare determină relevanța unei imagini pe baza, cel puțin parțial, pe următoarele:
- Conținutul imaginii
- Textul care înconjoară imaginea
- Legendă imagine
- Text alternativ pentru imagine
Categorii asociate cu o interogare
În producerea rezultatelor căutării de imagini, motorul de căutare în unele implementări trimite o solicitare pentru categoriile asociate interogării. Motorul de căutare poate folosi categoriile asociate pentru a reordona rezultatele căutării de imagini prin creșterea rangului rezultatelor imaginilor determinate a aparține categoriilor aferente.
În unele cazuri, poate scădea rezultatele imaginilor care nu aparțin categoriilor asociate sau ambelor.
Motorul de căutare poate utiliza, de asemenea, categoriile de rezultate pentru a determina cum ar trebui să fie clasate în setul final de rezultate în combinație cu sau a categoriei de interogare.
Un motor de clasificare sau alt proces folosește rezultatele imaginilor preluate pentru interogare și un depozit de date despre comportamentul utilizatorului pentru a deriva categorii pentru interogare. Depozitul conține date despre comportamentul utilizatorului. Stocarea indică de câte ori populațiile de utilizatori au selectat un rezultat de imagine pentru o anumită interogare.
Selectarea imaginilor poate fi realizată în diferite moduri, inclusiv folosind tastatura, mouse-ul computerului sau un gest cu degetul, o comandă vocală sau alte metode. Datele despre comportamentul utilizatorului includ „date despre clicuri”.
Faceți clic pe Date indică cât timp un utilizator vede sau „stă” pe un rezultat de imagine
Datele de clic indică cât timp un utilizator vede sau „stă” pe un rezultat al unei imagini după ce a selectat-o într-o listă de rezultate pentru interogare. De exemplu, o perioadă lungă de timp pe o imagine (cum ar fi mai mult de 1 minut), numită „clic lung”, poate afirma că un utilizator a găsit imaginea relevantă pentru interogarea utilizatorului.
O perioadă scurtă de vizualizare a unei imagini (de exemplu, mai puțin de 30 de secunde), numită „clic scurt”, poate fi interpretată ca o lipsă de relevanță a imaginii. Sunt posibile alte tipuri de date despre comportamentul utilizatorului.
Spre exemplu, datele despre comportamentul utilizatorului pot fi generate de un proces care creează o înregistrare pentru documentele rezultate selectate de utilizatori ca răspuns la o anumită interogare. Fiecare formular poate fi reprezentat ca un tuplu: <document, interogare, date>) care include:
- O întrebare trimisă de utilizatori
- O referință la interogare care indică interogarea
- Un document face referire la o lucrare selectată de utilizatori ca răspuns la interogare
- Agregarea datelor despre clic (cum ar fi numărul fiecărui tip de clic) pentru toți utilizatorii sau un subset al tuturor utilizatorilor care au selectat referința documentului ca răspuns la interogare.
Sunt posibile extensii ale acestei abordări bazate pe tuplu pentru datele despre comportamentul utilizatorului. De exemplu, datele despre comportamentul utilizatorului pot fi extinse pentru a include identificatori specifici locației (cum ar fi țara sau statul) sau identificatori specifici limbii.
Cu astfel de identificatori incluși, un tuplu specific țării ar fi format din țara de unde a provenit interogarea utilizatorului, iar un tuplu specific limbii ar consta din limba interogării utilizatorului.
Pentru simplitatea prezentării, datele despre comportamentul utilizatorului asociate cu documentele A-CCC pentru interogare sunt descrise în tabel ca fiind fie o cantitate „mare”, „medie” sau „scăzută” de date favorabile despre comportamentul utilizatorului (cum ar fi comportamentul utilizatorului). date care indică relevanța dintre document și interogare).
Date despre comportamentul utilizatorului pentru un document
Datele de comportament favorabil ale utilizatorului pentru un document pot indica că lucrarea este selectată de utilizatori atunci când este vizualizată în rezultatele interogării sau când utilizatorii vizualizează documentul după ce l-au ales din rezultatele interogării, utilizatorii văd documentul pentru o perioadă prelungită (cum ar fi utilizatorul consideră că documentul este relevant pentru întrebare).
Motorul de clasificare funcționează împreună cu motorul de căutare folosind rezultatele returnate și datele despre comportamentul utilizatorului pentru a determina categoriile de interogări și apoi re-clasifică rezultatele înainte ca acestea să fie returnate utilizatorului.
În general, pentru interogarea (cum ar fi o interogare sau o formă alternativă a interogării) specificată în solicitarea categoriei de interogare, motorul de clasificare analizează rezultatele imaginii pentru interogare pentru a determina dacă interogarea aparține unor categorii. Rezultatele imaginilor analizate în unele implementări au fost selectate de utilizatori ca rezultat al căutării pentru interogare de un număr total de ori peste un prag (cum ar fi setat de cel puțin zece ori).
Motorul de clasificare analizează toate rezultatele imaginilor preluate de motorul de căutare pentru o anumită interogare. în alte implementări
Motorul de clasificare analizează rezultatele imaginii pentru interogarea în care o valoare (de exemplu, numărul total de selecții sau o altă măsură) pentru datele clicurilor este peste un prag.
Rezultatele imaginii pot fi analizate online folosind tehnici de viziune computerizată în diverse moduri, fie offline, fie online, în timpul procesului de notare. Imaginile sunt adnotate cu informații extrase din conținutul lor vizual.
Adnotări de imagine
De exemplu, adnotările de imagine pot fi stocate în magazinul de adnotări. Fiecare imagine analizată (de exemplu, imaginea 1, imaginea 2 etc.) este asociată cu adnotări (de exemplu, A1, A2 și așa mai departe) într-o asociere de fotografie cu adnotare.
Adnotările pot include:
- Numărul de fețe din imagine
- Dimensiunea fiecărei fețe
- Culorile dominante ale imaginii
- Dacă o imagine conține text sau un grafic
- Dacă o imagine este o captură de ecran
În plus, fiecare imagine poate fi adnotată cu o amprentă care poate determina apoi dacă două imagini sunt identice sau identice.
Apoi, motorul de clasificare analizează rezultatele imaginii pentru o anumită interogare și adnotările acestora pentru a determina categoriile de interogare. Asociațiile categoriilor de interogări (de exemplu, C1, C2 și așa mai departe) pentru o anumită interogare (cum ar fi interogarea 1, interogarea 2 etc.) pot fi determinate în mai multe moduri, cum ar fi folosind o simplă euristică sau utilizarea unui clasificator automat.
Un simplu clasificator de interogări bazat pe o euristică
De exemplu, un simplu clasificator de interogări bazat pe o euristică poate fi folosit pentru a determina culoarea dominantă dorită pentru interogare (și dacă există una).
Euristica poate fi, de exemplu, că, dacă din primele 20 de imagini pe care se face clic cel mai des pentru interogare, cel puțin 70% au o culoare roșie dominantă, atunci interogarea poate fi clasificată drept „interogare roșie”. Pentru astfel de interogări, motorul de căutare poate reordona rezultatele preluate pentru a crește rangul tuturor imaginilor adnotate cu roșu ca culoare dominantă.
Aceeași clasificare poate fi folosită cu toate celelalte culori standard. Un avantaj al acestei abordări de supraanalizare a textului interogării este că funcționează pentru toate limbile fără a fi nevoie de traducere (cum ar fi va promova imagini cu culoare roșie dominantă pentru întrebarea „măr roșu” în orice limbă). Este mai robust (cum ar fi nu va crește rangul imaginilor roșii pentru interogarea „mare roșie”).
Un exemplu de motor de clasificare
Motorul de clasificare poate funcționa într-un mod online sau offline în care asociațiile de categorii de interogări sunt stocate din timp (de exemplu, în tabel) pentru a fi utilizate de motorul de căutare în timpul procesării interogărilor.
Motorul primește rezultatele imaginii de interogare pentru o anumită interogare și furnizează rezultatele imaginii adnotatorilor de imagine. Fiecare adnotator de imagine analizează rezultatele imaginii și extrage informații despre conținutul vizual al imaginii, care este stocat ca adnotare de imagine (de exemplu, adnotări de imagine) pentru idee.
Un adnotator de imagine a feței
Cu titlu de ilustrație, un adnotator de imagine a feței:
- Determină câte fețe sunt într-o imagine și dimensiunea fiecărei fețe
- un adnotator de imagine cu amprentă extrage caracteristicile vizuale ale imaginii într-o formă condensată (amprentă) care apoi poate fi comparată cu amprenta unei alte imagini pentru a determina dacă cele două imagini sunt similare
- Un adnotator de imagine captură de ecran determină dacă o imagine este o captură de ecran
- Un adnotator de imagine text determină dacă o imagine conține text
- O interogare de imagine grafică/diagramă determină dacă o imagine include grafice sau diagrame (de exemplu, grafice cu bare)
- Un adnotator de culoare dominantă determină dacă o imagine conține o culoare dominantă
Se pot folosi și alți adnotatori de imagine. De exemplu, mai mulți adnotatori de imagine sunt descriși într-o lucrare intitulată „Detecția rapidă a obiectelor folosind o cascadă amplificată de caracteristici simple”, de Viola, P.; Jones, M., Mitsubishi Electric Research Laboratories, TR2004-043 (mai 2004).
Apoi, motorul de clasificare analizează rezultatele imaginii pentru o anumită interogare și adnotările acestora pentru a determina categoriile de interogări (de exemplu, categoriile de interogări). Categoriile de interogări sunt determinate folosind un clasificator, iar un clasificator de interogări poate fi realizat folosind un sistem de învățare automată.
Utilizarea Adaptive Boosting
Cu titlu de ilustrație, AdaBoost, prescurtare pentru Adaptive Boosting, este un sistem de învățare automată care poate fi utilizat cu alți algoritmi de învățare pentru a-și îmbunătăți performanța. AdaBoost se obișnuiește pentru a genera o clasificare a interogărilor. (Sunt posibili mai mulți algoritmi de învățare)
AdaBoost invocă un adnotator de imagine „slab” într-o serie de runde. Cu titlu de ilustrație, clasificatorul de interogări pentru o singură persoană se poate baza pe un algoritm de mașină de învățare antrenat pentru a determina dacă o interogare necesită imagini ale unei singure persoane.
Cu titlu de ilustrație, un astfel de clasificator de interogări poate fi instruit cu seturi de date care cuprind o interogare, un set de vectori de caracteristici reprezentând imagini de rezultat pentru întrebarea cu zero sau mai multe fețe și clasificarea corectă pentru interogare (adică fețe sau nu) . Pentru fiecare apel, clasificatorul de interogări actualizează o distribuție a ponderilor care indică importanța exemplelor în setul de date de antrenament pentru clasificare.
În fiecare rundă, ponderile fiecărui exemplu de antrenament clasificat cresc (sau consecințele fiecărui exemplu de antrenament clasificat sunt reduse), astfel încât noua categorizare a interogărilor se concentrează mai mult pe acele exemple. Categorizarea interogării antrenate rezultată poate lua ca intrare o interogare și poate scoate o probabilitate ca interogarea să solicite imagini care conțin persoane singure.
Un clasificator de interogări divers/omogen ia ca intrare o interogare și emite o probabilitate ca interogarea să fie pentru diferite imagini. Clasificatorul folosește un algoritm de grupare pentru a grupa rezultatele imaginilor în funcție de amprentele lor, pe baza unei măsuri a distanței unul față de celălalt. Fiecare imagine este asociată cu un identificator de cluster.
Identificatorul de cluster de imagini este folosit pentru a determina numărul de clustere, dimensiunea grupurilor și similitudinea dintre clusterele formate de imagini din setul de rezultate. De exemplu, aceste informații sunt folosite pentru a asocia o probabilitate ca interogarea să fie specifică (sau să invite duplicate) sau nu,
Asocierea interogărilor cu semnificații și reprezentări canonice
Categorizarea interogărilor poate fi folosită și pentru a asocia interogări cu semnificații și reprezentări canonice. De exemplu, dacă există un singur cluster mare sau mai multe clustere mari, probabilitatea ca întrebarea să fie legată de rezultatele imaginii duplicate este mare. Dacă există multe grupuri mai mici, atunci probabilitatea ca interogarea să fie asociată cu aceleași rezultate de imagine este scăzută.

Duplicatele imaginilor nu sunt de obicei foarte utile, deoarece nu oferă mai multe informații, așa că ar trebui să fie retrogradate ca rezultate ale interogării. Dar, există și excepții. De exemplu, dacă există multe duplicate în rezultatele inițiale (câteva grupuri mari), interogarea este particulară și duplicatele nu ar trebui să fie retrogradate.
O categorizare a interogării capturi de ecran/non-capturi de ecran ia ca intrare o interogare și emite o probabilitate ca interogarea să solicite imagini care sunt capturi de ecran. Un clasificator de interogare text/non-text acceptă ca intrare o interogare și emite șansa ca interogarea să solicite imagini care conțin text.
O categorizare a unei interogări grafic/non-grafic preia o intrare a unei interogări și emite o probabilitate ca interogarea să solicite imagini care conțin un grafic sau o diagramă. Un clasificator de interogare de culoare 133f preia o interogare de informație și emite o șansă ca interogarea să numească fotografii care sunt dominate de o singură culoare. Sunt posibile și alte clasificatoare de interogări.
Îmbunătățirea relevanței rezultatelor imaginilor pe baza categorizării interogărilor
Un căutător poate interacționa cu sistemul printr-un client sau alt dispozitiv. De exemplu, dispozitivul client poate fi un terminal de computer într-o rețea locală (LAN) sau o rețea vastă (WAN). Dispozitivul client poate fi un dispozitiv mobil (de exemplu, un telefon mobil, un computer mobil, un asistent personal desktop etc.) capabil să comunice printr-o rețea LAN, un WAN sau o altă rețea (de exemplu, o rețea de telefonie mobilă).
Dispozitivul client poate include o memorie cu acces aleatoriu (RAM) (sau altă memorie și un dispozitiv de stocare) și un procesor.
Procesorul este structurat pentru a procesa instrucțiuni și date în sistem. Procesorul este un microprocesor cu un singur sau cu mai multe fire având nuclee de procesare. Procesorul primește structurat pentru a executa instrucțiuni stocate în RAM (sau altă memorie și un dispozitiv de stocare inclus cu dispozitivul client) pentru a reda informații grafice pentru o interfață cu utilizatorul.
Un căutător se poate conecta la motorul de căutare în cadrul unui sistem server pentru a trimite o interogare de intrare. Motorul de căutare este un motor de căutare de imagini sau un motor de căutare generic care poate prelua imagini și alte tipuri de conținut, cum ar fi documente (de exemplu, pagini HTML).
Când utilizatorul trimite interogarea de intrare printr-un dispozitiv de introducere atașat la un dispozitiv client, o întrebare de partea client este trimisă într-o rețea și redirecționată către sistemul server ca interogare pe partea serverului. Sistemul server poate fi dispozitive server în locații. Un dispozitiv server include un dispozitiv de memorie constând din motorul de căutare încărcat în acesta.
Un procesor este structurat pentru a procesa instrucțiunile din dispozitiv. Aceste instrucțiuni pot instala componente ale motorului de căutare. Procesorul poate fi cu un singur thread sau cu mai multe fire și include multe nuclee de procesare. Procesorul poate procesa instrucțiunile stocate în memoria aferente motorului de căutare și poate trimite informații către dispozitivul client prin intermediul rețelei pentru a crea o prezentare grafică în interfața de utilizator a dispozitivului client (de exemplu, rezultatele căutării pe o pagină web afișată într-un web). browser).
Interogarea de pe partea serverului este primită de motorul de căutare. Motorul de căutare utilizează informațiile din interogarea de intrare (cum ar fi termenii de interogare) pentru a găsi documente relevante. Motorul de căutare poate include un motor de indexare care caută într-un corpus (de exemplu, pagini web de pe Internet) pentru a indexa documentele găsite în acel corpus. Informațiile index pentru documentele corpus pot fi stocate într-o bază de date index.
Această bază de date index poate fi accesată pentru a identifica documente legate de utilizator. Rețineți că o copie electronică (care va fi denumită document) nu corespunde unui fișier. O înregistrare poate fi stocată într-o parte a unui fișier care conține alte documente, într-un singur fișier dedicat documentului în cauză sau în mai multe fișiere coordonate. Mai mult, o copie poate fi stocată într-o memorie fără a fi stocată într-un fișier.
Motorul de căutare poate include un motor de clasare pentru a clasifica documentele legate de interogarea de intrare. Clasificarea documentelor poate fi efectuată folosind tehnici tradiționale pentru a determina un scor de regăsire a informațiilor (IR) pentru înregistrările indexate, având în vedere o anumită interogare.
Orice metodă adecvată poate determina relevanța unui anumit document într-un anumit termen de căutare sau pentru alte informații furnizate. De exemplu, nivelul general de back-link către un document care conține potriviri pentru un termen de căutare poate fi folosit pentru a deduce relevanța unui document.
În special, dacă un document este legat de (de exemplu, este ținta unui hyperlink) de multe alte documente relevante (cum ar fi documente care conțin potriviri pentru termenii de căutare), se poate deduce că documentul țintă este deosebit de relevant. Această inferență poate fi făcută deoarece autorii lucrărilor de indicare probabil indică, în cea mai mare parte, alte documente care sunt relevante pentru publicul lor.
Documentele de indicare vizează linkuri din alte documente relevante, care pot fi considerate mai relevante. Primul document este deosebit de adecvat deoarece vizează documente aplicabile (sau chiar foarte relevante).
O astfel de tehnică poate determina relevanța unui document sau unul dintre mulți factori determinanți. De asemenea, pot fi luate metode adecvate pentru a identifica și reduce încercările de a exprima voturi frauduloase pentru a crește relevanța unei pagini.
Pentru a îmbunătăți și mai mult astfel de tehnici tradiționale de clasificare a documentelor, motorul de clasare poate primi mai multe semnale de la un motor de modificare a rangului pentru a ajuta la determinarea unei poziții adecvate pentru documente.
Împreună cu adnotatorii de imagine și clasificarea interogărilor descrise mai sus, motorul de modificare a rangului oferă măsuri de relevanță pentru lucrări. Motorul de clasare poate folosi pentru a îmbunătăți clasarea rezultatelor căutării oferite utilizatorului.
Motorul de modificare a rangului poate efectua operații pentru a genera măsurile de relevanță.
Dacă scorul unui rezultat al unei imagini crește sau scade, depinde dacă conținutul vizual al imaginii (așa cum este reprezentat în adnotările imaginii) se potrivește cu categorizarea interogării, fiecare categorie de imagine este luată în considerare.
De exemplu, dacă clasificarea interogării este „persoană singură”, atunci un rezultat al unei imagini care este clasificat atât ca „captură de ecran” cât și ca „o singură față” ar avea mai întâi scorul scăzut din cauza categoriei „captură de ecran”. Apoi își poate crește scorul datorită categoriei „o singură față”.
Motorul de căutare poate transmite lista finală de rezultate clasate în rezultatele căutării de pe partea serverului prin intermediul rețelei. La ieșirea din rețea, rezultatele căutării pe partea client pot fi primite de dispozitivul client, unde rezultatele pot fi stocate în RAM și utilizate de procesor pentru a afișa rezultatele pe un dispozitiv de ieșire pentru utilizator.
Un sistem de recuperare a informațiilor
Aceste componente includ:
- Motor de indexare
- Motor de scor
- Motor de clasare
- Motor modificator de rang
Motorul de indexare funcționează așa cum este descris mai sus pentru motorul de indexare. Motorul de scoring generează scoruri pentru rezultatele documentelor pe baza mai multor caracteristici, inclusiv caracteristici bazate pe conținut care leagă o interogare la rezultatele documentului și părți independente de interogare care declară în general calitatea rezultatelor documentelor.
Caracteristicile bazate pe conținut pentru imagini includ aspecte ale documentului care conține imaginea, cum ar fi potrivirile de interogare cu titlul documentului sau legenda imaginii.
Caracteristicile independente de interogare includ, de exemplu, aspecte ale referințelor încrucișate ale documentelor ale hârtiei sau dimensiunile domeniului sau imaginii.
Mai mult decât atât, funcțiile particulare utilizate de motorul de scoring pot fi reglate pentru a ajusta diferitele contribuții ale caracteristicilor la scorul final IR, folosind procese automate sau semi-automate.
Motorul de clasare clasifică rezultatele documentelor pentru a fi afișate unui utilizator pe baza scorurilor IR primite de la mașina de punctare și a semnalelor de la motorul de modificare a rangului.
Motorul de modificare a rangului oferă măsuri de relevanță pentru documente, pe care motorul de clasare le poate folosi pentru a îmbunătăți clasarea rezultatelor căutării oferite utilizatorului. O componentă de urmărire înregistrează informații despre comportamentul utilizatorului, cum ar fi selecțiile utilizatorului individual ale rezultatelor prezentate în comandă.
Componenta de urmărire este inclusă în codul JavaScript încorporat într-un clasament al paginii web care identifică selecțiile utilizatorilor de rezultate ale documentelor individuale și identifică momentul în care utilizatorul revine la pagina de rezultate, indicând astfel timpul petrecut de utilizator vizualizând rezultatul documentului selectat.
Componenta de urmărire este un sistem proxy prin care selecțiile utilizatorilor ale rezultatelor documentului sunt direcționate. Componenta de urmărire poate include, de asemenea, software preinstalat pentru client (cum ar fi un plug-in pentru bara de instrumente pentru sistemul de operare al clientului).
Sunt posibile și alte implementări, de exemplu, una care utilizează o caracteristică a unui browser web care permite includerea unei etichete/directive într-o pagină, care solicită browserului să se conecteze înapoi la server cu mesaje despre linkurile pe care le-a făcut clic utilizatorul.
Informațiile înregistrate sunt stocate în jurnalele de selecție a rezultatelor. Informațiile înregistrate includ intrări de jurnal care indică interacțiunea utilizatorului cu fiecare document rezultat prezentat pentru fiecare interogare trimisă.
Pentru fiecare selecție de utilizator a unui document rezultat prezentat pentru o interogare, intrările din jurnal indică interogarea (Q), hârtia (D), timpul de așteptare al utilizatorului (T) pe document, limba (L) folosită de utilizator, și țara (C) în care se află probabil utilizatorul (de exemplu, pe baza serverului utilizat pentru a accesa sistemul IR) și un cod de regiune (R) care identifică zona metropolitană a utilizatorului.
Intrările de jurnal înregistrează, de asemenea, informații negative, cum ar fi că rezultatul unui document este prezentat unui utilizator, dar nu a fost selectat.
Alte informatii precum:
- Pozițiile clicurilor (adică, selecțiile utilizatorului în interfața cu utilizatorul
- Informații despre sesiune (cum ar fi existența și tipul clicurilor anterioare (activitate de sesiune după clic))
- Scorurile R ale rezultatelor făcute clic
- Scorurile IR ale tuturor rezultatelor afișate înainte de a face clic
- Titlurile și fragmentele sunt afișate utilizatorului înainte de clic
- Cookie-ul utilizatorului
- Vârsta cookie-urilor
- Adresă IP (Internet Protocol).
- User-agent al browserului
- Curând
Se înregistrează, de asemenea, timpul (T) dintre clicul inițial către rezultatul documentului și utilizatorii care revin la pagina principală și fac clic pe alt rezultat al documentului (sau trimit o nouă interogare de căutare).
Se face o evaluare cu privire la timpul (T) dacă acest timp indică o vizualizare mai lungă a documentului sau una mai scurtă, deoarece argumentele mai extinse arată, în general, calitate sau relevanță pentru rezultatul accesat. Această evaluare a timpului (T) poate fi făcută împreună cu diferite tehnici de ponderare.
Componentele prezentate pot fi combinate în diferite moduri și configurații multiple de sistem. Motoarele de clasare a punctajului se îmbină într-un singur motor de clasare, cum ar fi motorul de clasare. Motorul de modificare a rangului și motorul de clasare pot fi, de asemenea, fuzionați. În general, un motor de clasare include orice componentă software care generează un clasament al rezultatelor documentelor după o interogare. Mai mult, un motor de clasare se poate potrivi unui sistem client și (sau mai degrabă decât) într-un sistem server.
Un alt exemplu este sistemul de recuperare a informațiilor. Sistemul server include un motor de indexare și un motor de punctare/clasare.
În acest sistem, Un sistem client include:
- O interfață cu utilizatorul pentru prezentarea unui clasament
- O componentă de urmărire
- Jurnalele de selecție a rezultatelor
- Un motor de modificare a clasamentului/rankului.
De exemplu, sistemul client poate include rețeaua de întreprindere a unei companii și computere personale, în care un plug-in de browser încorporează motorul de modificare a clasamentului/rankului.
Atunci când un angajat din companie inițiază o căutare pe sistemul serverului, motorul de scoring/ranking poate returna rezultatele căutării. Un clasament inițial sau scorurile IR reale pentru rezultate. Pluginul de browser re-clasifică apoi rezultatele pe baza selecțiilor de pagini urmărite pentru baza de utilizatori specifică companiei.
O tehnică de clasificare a interogărilor
Această tehnică poate fi efectuată online (ca parte a procesării interogărilor) sau în mod offline.
Primele rezultate ale imaginii răspund la prima interogare primită. Fiecare dintre primele imagini este asociată cu o comandă (cum ar fi un scor IR) și cu datele despre comportamentul utilizatorului respectiv (cum ar fi datele despre clic).
Un număr din primele imagini sunt selectate, unde o măsurătoare pentru datele de comportament respective pentru fiecare imagine selectată satisface un prag.
Primele imagini selectate sunt asociate cu mai multe adnotări pe baza analizei de conținut a primelor imagini alese. Adnotările de imagine pot fi persistente în adnotările de imagine.
Categoriile sunt apoi asociate cu prima interogare pe baza adnotărilor.
Asociațiile de categorizare a interogărilor pot dura în categorii de interogare.
Rezultatele celei de-a doua imagini care răspund la o a doua interogare care este aceeași sau prima interogare este apoi primită.
(Dacă a doua interogare nu este găsită în categorizarea interogării, a doua interogare poate fi transformată sau „rescrisă” pentru a determina dacă o formă alternativă se potrivește cu o interogare din categorizarea interogării.)
În acest exemplu, a doua interogare este aceeași cu prima interogare sau poate fi rescrisă.
Rezultatele celei de-a doua imagini sunt reordonate pe baza categorizării interogării înainte de a fi asociate cu prima interogare.
Căutați știri direct în căsuța dvs. de e-mail
*Necesar