Güncellenen Dil Modelleri İçin İletişim Durumlarını Belirleme

Yayınlanan: 2022-03-16

Dil Modelleri İçin Diyalog Durumlarının Belirlenmesine İlişkin İlk İddialar

Dil Modellerini Kullanarak İletişim Durumlarını Belirleme

Google'ın insandan bilgisayara diyalog patentlerini görmüş olma ihtimaliniz yüksek. Bazılarını daha önce yazmıştım. İşte böyle bir diyalog hakkında birçok ayrıntı sağlayan iki tanesi:

Google'da İnsandan Bilgisayara Diyalog
İnsandan Bilgisayara İletişim Kutusunda İstenmeyen İçerik

İnsandan bilgisayara diyaloğu içeren patentlere dikkatle bakmanın yanı sıra, Doğal Dil İşleme ve insanlar ile bilgisayarlar arasındaki iletişim ile zaman harcamaya değer. Ben de bunlardan birkaçı hakkında yazdım. İşte bunlardan birkaçı:

Google Asistan ve Bağlam Tabanlı Doğal Dil İşleme
Doğal Dil Sorgu Yanıtları

Bu Google Dil Modelleri İçin Diyalog Durumlarını Belirleme patenti iki kez güncellendi ve en son sürüm bu hafta başlarında verildi. En son ilk iddia biraz daha uzun ve ona bazı yeni kelimeler eklendi.

İdeal olarak, bu patentler, istemlerin diline derinlemesine bir bakışla başlamalıdır.

18, 2018'de dosyalanan ve 4 Şubat 2020'de kabul edilen dil modelleri için iletişim durumlarını belirleme iletişim kutusunun ikinci versiyonu, aşağıdaki iddia ile başlar:

İddia edilen şey:
1. Aşağıdakileri içeren, bilgisayarla uygulanan bir yöntem:
Bir bilgisayar cihazı tarafından, bilgisayar cihazına bir ses girişi için ses verilerinin alınması, burada ses girişi, bilgisayar cihazı ile bilgisayar cihazının bir kullanıcısı arasındaki çok aşamalı bir sesli diyaloğun bilinmeyen bir aşamasına karşılık gelir.
Çok aşamalı sesli iletişim kutusunun bilinmeyen aşaması için bir başlangıç tahmininin belirlenmesi
Bilgi işlem cihazı ve sesli iletişim sistemi ile sağlanması,
(i) bilgisayar cihazına ses girişi için ses verileri ve
(ii) çok aşamalı sesli diyaloğun bilinmeyen aşaması için ilk tahminin bir göstergesi
Bilgisayar cihazı ve sesli diyalog sisteminden, ses girişinin bir transkripsiyonunun alınması, burada transkripsiyonun bilinmeyen aşaması için rafine bir tahmine karşılık gelen parametrelere göre önyargılı bir model ile ses verilerinin işlenmesiyle oluşturulmuştur. çok aşamalı sesli iletişim kutusu, burada sesli iletişim sistemi, (i) çok aşamalı sesli iletişim kutusunun bilinmeyen aşaması için ilk tahmine ve
(ii) ses girişinin bağlamını açıklayan ek bilgiler ve burada ses girişinin bağlamını açıklayan ek bilgiler, ses girişinin içeriğinden bağımsızdır.
ses girişi; ve ses girişinin transkripsiyonunun bilgisayar cihazı ile sunulması.

Bu devam patentinin, 16 Mart 2016'da dosyalanan ve 22 Mayıs 2018'de kabul edilen Dil modelleri için diyalog durumlarının belirlenmesi adlı ilk versiyonu şu iddiayla başlar:

İddia edilen şey:
1. Aşağıdakileri içeren, bilgisayarla uygulanan bir yöntem:
Bir bilgisayar sisteminde, bir bilgisayar cihazına sağlanan ilk ses girişini gösteren ses verilerinin alınması
Birinci ses girişinin, belirli bir görevle ilgili bir dizi ses girişini alacak şekilde düzenlenmiş çok sayıda önceden tanımlanmış diyalog durumunu içeren bir sesli diyalogun parçası olduğunun belirlenmesi, burada her diyalog durumu aşağıdakilerle eşlenir: (i) bir dizi diyalog durumu için ses girişleri alındığında görüntülenmek üzere belirlenmiş içeriği karakterize eden verileri görüntüleyin ve
(ii) bir dizi n-gram
Bilgisayar sisteminde, bilgisayar cihazına ilk ses girişi sağlandığında bilgisayar cihazının bir ekranında görüntülenen içeriği karakterize eden ilk görüntüleme verilerinin alınması; bilgisayar sistemi tarafından, birinci ses girişine karşılık gelen önceden tanımlanmış çok sayıda diyalog durumunun belirli bir diyalog durumunun seçilmesi, birinci görüntü verisi ile belirli sese eşlenen karşılık gelen görüntü verisi seti arasında bir eşleşmenin belirlenmesi de dahil olmak üzere diyalog durumu; belirli bir diyalog durumuna eşlenen karşılık gelen n-gram kümesindeki n-gramlar için dil modelinin belirttiği olasılık puanlarını ayarlayarak bir dil modeline yön verme; ve taraflı dil modeli kullanılarak ses girişinin kopyalanması.

Bu patentin en son sürümündeki en son ilk iddia, Dil modelleri için diyalog durumlarının belirlenmesi, 2 Ocak 2020'de dosyalandı ve 1 Mart 2022'de kabul edildi. Bize şunları söylüyor:

İddia edilen şey:
1. Aşağıdakileri içeren, bilgisayarla uygulanan bir yöntem:
Ses girdilerinin eğitim setindeki her ses girdisinin, çok aşamalı bir ses etkinliğinin çok sayıda aşamasından birine yönlendirildiği, bir eğitim ses girdisi setinden ses girdilerinin transkripsiyonlarının elde edilmesi
İlişkili ses girişi alındığında görüntülenmek üzere belirlenmiş içeriği karakterize eden ses girişlerinin eğitim setinden her bir ses girişi ile ilişkili görüntü verilerinin elde edilmesi; çok sayıda transkripsiyon grubu oluşturma, burada her bir transkripsiyon grubu, eğitim ses giriş setinden ses girişlerinin transkripsiyonlarının farklı bir alt kümesini içerir.
Her bir transkripsiyon grubunun, çok sayıda diyalog durumunu içeren bir diyalog durumu modelinin farklı bir diyalog durumuna atanması, burada çok sayıda diyalog durumunun her bir diyalog durumu: çok aşamalı ses aktivitesinin farklı bir aşamasına karşılık gelir; ve diyalog durumuna atanan transkripsiyonlar grubu ile bağlantılı ses girdilerinin eğitim setinden ses girdileri alındığında gösterim için tayin edilen içeriği karakterize eden ilgili gösterim verisi seti ile eşleştirilir; her transkripsiyon grubu için, grup için temsili bir n-gram setinin belirlenmesi ve grup için temsili n-gram setinin, grubun atandığı diyalog durumu modelinin karşılık gelen diyalog durumu ile ilişkilendirilmesi; transkripsiyon grubu için belirlenen temsili n-gram seti n-gram içerir - diyalog durumu modelinin diyalog durumuna atanan transkripsiyon grubundaki bir eşik sayıda meydana gelmeyi sağlar
Bir sonraki ses girişinin alınması ve sonraki ses girişi alındığında bir ekranda görüntülenen içeriği karakterize eden ilk görüntü verilerinin alınması, müteakip ses girişi çok aşamalı ses etkinliğinin belirli bir aşamasına yönlendirilir.
Çoklu sesli aktivitenin belirli aşamasına tekabül eden diyalog durumu modelinde diyalog durumuna eşlenen ilk ekran verileri ile ilgili ekran verisi seti arasında bir eşleşmenin belirlenmesi
Bir konuşma tanıyıcıyla, sonraki ses girişiyle ve konuşma tanıyıcının belirli aşamasına karşılık gelen diyalog durumu modelinde diyalog durumuyla ilişkili temsili n-gramlar kümesini kullanarak konuşma tanıyıcıya saptırma dahil olmak üzere ilk görüntü verilerinin işlenmesi. çok sesli aktivite
\

Dil Modelleri İçin Diyalog Durumlarını Belirleme İddialarının Karşılaştırılması

Bunlar, patentin farklı versiyonlarında gördüğüm bazı farklılıklar:

1. Her üç versiyon da bize bunların bir eğitim setinin parçası olarak hareket eden “ses girdileri” ile ilgili olduğunu söylüyor.

Bu nedenle, diyalog içeriğine odaklanan, insanlar ve bilgisayarlar arasındaki Dialog durumları hakkında önceki patentlerin aksine, bu patent öncelikle sözlü dile ve gerçek ses girdilerine bakar.

2. Patentin ikinci ve üçüncü versiyonları, kullanılan ses girdilerinin oluşumlarıyla ilgili istatistiklerin hesaplanmasında yardımcı olabilecek, ses girdilerinin transkriptlerini ngramlara ayırmayı açıklar.

3. Dil modelleri için Patent sonlandırma iletişim kutusunun en yeni ve üçüncü versiyonunun iddiası, bir hız tanıyıcının kullanımından bahseder.

İddia edilen şey:
1. Bilgisayarla uygulanan bir yöntem olup, aşağıdakileri içerir: bir bilgisayar sisteminde, bir bilgisayar cihazına sağlanan bir birinci ses girişini gösteren ses verilerinin alınması; birinci ses girişinin, belirli bir görevle ilgili bir dizi ses girişini alacak şekilde düzenlenmiş çok sayıda önceden tanımlanmış diyalog durumunu içeren bir sesli diyalogun parçası olduğunun belirlenmesi, burada her diyalog durumu aşağıdakilerle eşlenir:
(i) diyalog durumu için ses girişleri alındığında görüntülenmek üzere belirlenmiş içeriği karakterize eden bir dizi görüntü verisi ve
(ii) bir dizi n-gram; bilgisayar sisteminde, bilgisayar cihazına ilk ses girişi sağlandığında bilgisayar cihazının bir ekranında görüntülenen içeriği karakterize eden ilk görüntüleme verilerinin alınması
Bilgisayar sistemi tarafından, birinci ses girişine karşılık gelen önceden tanımlanmış çok sayıda diyalog durumunun belirli bir diyalog durumunun seçilmesi, birinci görüntü verisi ile belirli sese eşlenen karşılık gelen görüntü verisi seti arasında bir eşleşmenin belirlenmesi. diyalog durumu
Belirli bir diyalog durumuyla eşlenen karşılık gelen n-gram kümesindeki n-gramlar için dil modelinin gösterdiği olasılık puanlarını ayarlayarak bir dil modeline önyargı verme
Önyargılı dil modelini kullanarak ses girişini kopyalama.

Dil modelleri için diyalog durumlarını belirleme

Mucitler: Petar Aleksic ve Pedro J. Moreno Mengibar
Atanan: Google LLC
ABD Patenti: 11.264.028
Verildi: 1 Mart 2022
Dosya: 2 Ocak 2020

Soyut

Sistemler, yöntemler, cihazlar ve diğer teknikler, ses girişlerine karşılık gelen diyalog durumlarının belirlenmesi ve belirlenen diyalog durumlarına dayalı olarak bir dil modelinin polarizasyonu için burada tarif edilmektedir. Bazı uygulamalarda, bir yöntem, bir bilgisayar sisteminde, bir ses girişini belirten ses verilerinin alınmasını ve ses girişine karşılık gelen çok sayıda diyalog durumu arasından belirli bir diyalog durumunun belirlenmesini içerir. Ses girişine karşılık gelen belirli diyalog durumuyla ilişkili bir dizi n-gram tanımlanabilir. Ses girişine karşılık gelen belirli diyalog durumu ile ilişkili n-gram setinin tanımlanmasına yanıt olarak, bir dil modeli, n- setindeki n-gramlar için dil modelinin gösterdiği olasılık puanlarını ayarlayarak önyargılı olabilir. gram. Ses girişi, ayarlanan dil modeli kullanılarak kopyalanabilir.

Güncellenen Dil Modelleri İçin İletişim Durumlarını Belirleme

Dil Modelleri İçin Diyalog Durumlarının Belirlenmesine İlişkin İlk İddialar

Dil Modelleri İçin Diyalog Durumlarını Belirleme İddialarının Karşılaştırılması

Haberleri Doğrudan Gelen Kutunuza Arayın