8 trendów w zakresie treści głosowych na rok 2020

Opublikowany: 2019-08-01

Voice to nowy interfejs, który wkrótce otoczy nas w wielu miejscach i na wiele sposobów. Treści głosowe dla urządzeń Amazon Echo, Google Home i Samsung są opracowywane przez duże i małe marki.

Budujemy strategie treści aktywowanych głosem dla naszych klientów w Convince & Convert — pomagając im wykorzystać tę szybko rozwijającą się możliwość interakcji z konsumentami (aby dowiedzieć się więcej o tym, co robimy w treściach głosowych, zobacz Dlaczego czas jest teraz na głos- Zawartość aktywowana).

Niedawno uczestniczyłem w Voice Summit 2019, który jest największym w branży spotkaniem strategów, programistów, technologów, dostawców i platform sprzętowych zajmujących się treściami głosowymi.

Oto 8 najważniejszych trendów w zakresie treści głosowych, które zsyntetyzowałem podczas mojego pobytu na wydarzeniu i dzięki naszej pracy z klientami nad aplikacjami głosowymi.

Najlepsza treść głosowa zaczyna się od potrzeb użytkownika

Podobnie jak w przypadku pierwszych aplikacji mobilnych, a nawet stron internetowych, stratedzy i programiści mają tendencję do myślenia: „Zróbmy aplikację głosową!” Zamiast tego lepszym podejściem jest uważne rozważenie i zbadanie, w jaki sposób konsumenci wchodzą w interakcję z marką, co faktycznie muszą wiedzieć o tej marce i czy/czy treść głosowa jest odpowiednim sposobem dostarczania. W końcu nie ma prawa, które mówi, że MUSISZ mieć treści aktywowane głosem. Czy to naprawdę Młodzież? Jeśli tak, zbuduj go. Jeśli nie, nie rób tego!

Na przykład umiejętność „Zapytaj Purinę” Alexa Puriny zrodziła się z potrzeby konsumentów, aby zrozumieć, jak zachowują się różne rasy psów i która rasa może być najbardziej odpowiednia jako nowe zwierzę domowe. Rozważali włączenie promocji audio do zakupów karmy dla psów, ale odrzucili tę koncepcję, gdy zdali sobie sprawę, że zaśmieciłoby to zasoby informacyjne, według przedstawicieli Mobiquity, firmy, która opracowała tę umiejętność.

Konwergencja głosu i czatu

Najskuteczniejszymi obecnie aplikacjami głosowymi są zazwyczaj wiadomości, pytania i odpowiedzi związane z wyszukiwaniem informacji lub gry. Na froncie „pytań i odpowiedzi dotyczących marki”, tak jak we wspomnianym powyżej przykładzie Puriny, przepływ interakcji w tych aplikacjach jest bardzo podobny do tego, jak konsumenci korzystają z chatbotów.

Przykład komunikatora — Źródło obrazu: Newsroom KLM – KLM Royal Dutch Airlines

W rzeczywistości umiejętność Alexa z informacją o rasie psów Ask Purina działałaby całkiem dobrze jako chatbot na stronie internetowej i/lub za pośrednictwem Facebook Messenger lub WhatsApp.

Linie lotnicze KLM również dostrzegły tę konwergencję, ale podeszły do niej z przeciwnego kierunku. Wzięli swoją bardzo udaną (i często używaną) aplikację do przesyłania wiadomości i przenieśli ją do umiejętności głosowej Alexa dla urządzeń Amazon Echo.

Niezależnie od tego, czy przechodzisz od głosu do czatu, czy od czatu do głosu, prawdą jest, że wiele przypadków użycia opartych na informacjach będzie działać podobnie w obu scenariuszach.

To tylko jeden z powodów, dla których chętnie współpracujemy z Voicify. Voicify to system zarządzania treścią głosową, który umożliwia również natychmiastowe przeniesienie Alexa Skills i Google Apps do chatbota przy bardzo niewielkiej dodatkowej pracy programistycznej.

Konwergencja głosu i obrazu

Jak wspomniano na scenie podczas wydarzenia Voice Summit 19, interfejsy, które wcześniej były wizualizacjami (takie jak ekran laptopa lub pojazdu), teraz dodają głos. Codziennie używam Siri na moim MacBooku. I odwrotnie, interfejsy, które historycznie były najpierw głosowe (takie jak Amazon Echo), teraz zawierają elementy wizualne.

Wiele nowo zakupionych inteligentnych głośników zawiera ekrany, a urządzenia Amazon Echo Show i Google Home Hub są rutynowo wyceniane poniżej 100 USD.

Ma to kilka konsekwencji.

Po pierwsze, geometrycznie zwiększa złożoność tworzenia aplikacji głosowych.

Po drugie, otwiera znacznie dodatkową użyteczność. Aplikacja Purina byłaby bardziej przydatna, gdyby można było oglądać zdjęcia ras psów na inteligentnym głośniku z ekranem. Nie wspominając o tym, że głos jest szybszy jako wejście, ale wolniej jako wyjście. Według Tobiasa Dengela z Willowtree piszemy średnio 40 słów na minutę (wpm), ale mówimy 130. I odwrotnie, możemy czytać 250 wpm, ale możemy słuchać tylko 130. -modalny i przyjazny dla użytkownika, jeśli możemy mówić, co chcemy i czytać wyniki.

Piszemy średnio 40 słów na minutę (wpm), ale mówimy 130. #voice Kliknij, aby tweetować

Ale po trzecie, jeśli inteligentne głośniki stają się przede wszystkim urządzeniami z ekranami, co odróżnia je od tabletów, małych laptopów czy dużych telefonów?

Chociaż wolę inteligentne głośniki z ekranem (osobiście jestem wielbicielem Google Home Hub), nie jestem pewien, czy zacieranie różnic między inteligentnym głośnikiem a iPadem jest ostatecznie wygraną dla tych urządzeń.

Konflikt formatów staje się problemem

W krótkiej historii ery inteligentnych głośników i treści głosowych Amazon był wielkim szefem. Ich urządzenia Echo zasadniczo stworzyły tę kategorię, a ta przewaga pierwszego gracza oraz ich ogromna moc promocyjna pozwoliły Amazonowi wybić się na czoło w świecie inteligentnych głośników.

Jednak ostatnio Google (i w znacznie mniejszym stopniu Apple) wkroczyło do walki z własnymi urządzeniami sprzętowymi, szukając prześcignięcia Echo the Echo, z różnym powodzeniem. Ostatnie raporty branżowe sugerują, że udział Google w rynku inteligentnych głośników zbliża się obecnie do 25%, a biorąc pod uwagę ich głębokie kieszenie i zainteresowanie dominacją we wszystkim, co dotyczy wyszukiwania (oraz ich własność inteligentnego domu Nest), nigdzie się nie wybierają.

Zapewnia to konsumentom coraz większy wybór inteligentnych głośników po stronie sprzętowej, ale tworzy kłopotliwy i nieefektywny proces dla twórców treści głosowych. Dzisiaj podstawy technologiczne umiejętności Amazon Alexa i aplikacji Google Home są zupełnie inne. Nie wspominając już o zupełnie nowej platformie głosowej Samsung Bixby, która została zaprojektowana prawie w odwrotny sposób niż Amazon/Google.

W ten sposób świat treści głosowych znajduje się w samym środku dylematu standardów, który przypomina Betamax kontra VHS, Internet Explorer kontra Netscape, ios kontra Android i Joe Jonas kontra jakkolwiek mają na imię jego bracia.

Byłoby DUŻO lepiej, gdyby istniała jedna ścieżka rozwoju treści głosowych. Ale nie wstrzymuję oddechu, że zobaczymy coś takiego, dlatego systemy zarządzania treścią głosową, takie jak Voicify, mają dziś kluczowe znaczenie. Wewnątrz Voicify, gdy tworzymy treści głosowe, technologia Voicify automatycznie dostosowuje i przekręca interakcje i skrypty, aby działały zarówno na urządzeniach Amazon, jak i Google, bez konieczności przepisywania aplikacji głosowej. Na pewno wygrana.

Marketing i wdrażanie mają kluczowe znaczenie

Jako największy i najdłużej działający ekosystem Amazon ma oczywiście najwięcej zatwierdzonych i uruchomionych aplikacji głosowych, ponad 60 000 w samych Stanach Zjednoczonych. Każdego dnia dodawanych jest kilkadziesiąt nowych umiejętności. A zdolność konsumentów do odkrywania przydatnych nowych umiejętności nie jest główną atrakcją obecnego systemu Alexa. Zasadniczo jest to internetowy i/lub aktywowany głosem odpowiednik spaceru po bardzo dużej bibliotece z oszałamiającą różnorodnością książek, z których wiele jest gównianych, a bibliotekarz czwartej kategorii bez przekonania odpowiada na pytania między kęsami domowej zapiekanki.

Ujmijmy to w ten sposób: jeśli chcesz, aby ludzie znajdowali i używali Twoich treści aktywowanych głosem, ta odpowiedzialność spada na TWOJE barki. Oczekuj NICZEGO od Amazona i Google w zakresie promocji i odkrywania. W ten sposób nie będziesz zawiedziony, gdy dokładnie to otrzymasz.

Uruchamiając treści głosowe, musisz po prostu aktywować dokładną, wielomodalną kampanię uświadamiającą i próbną, która wykorzystuje kombinację poczty poza domem, poczty e-mail, poczty społecznościowej, poczty bezpośredniej, notatek zakładników i ludzi przebierających się za klaunów i stojących na rogach ulic. Twój przebieg może się różnić.

Obecnie możliwości treści głosowych w rzeczywistości przewyższają zrozumienie tych możliwości przez konsumentów. To interesująca inwersja. Comcast (jeden z naszych ulubionych klientów) przemawiał na panelu podczas Voice Summit 19 i poinformował, że w 2018 r. jego klienci wydali około 9 MILIARDÓW poleceń do swoich aktywowanych głosem pilotów X1. Ale zdecydowana większość tych poleceń głosowych dotyczy tego samego małego zestaw wniosków. Obecnie pracują nad nowymi sposobami nauczenia klientów wszystkich innych możliwości pilota głosowego. Na swój własny sposób musisz zrobić to samo, wprowadzając treści aktywowane głosem.

Celowo ograniczona funkcjonalność

Jeden z moich ulubionych punktów na Voice Summit 19 pochodzi od Martine van der Lee z KLM Airlines, która zauważyła, że gdy aplikacje głosowe mają wiele funkcji, praca z nimi staje się bardziej frustrująca, a nie mniej.

Dokładnie podkreśliła, że treść głosowa z kilkoma opcjami (zasadniczo zbiorem aplikacji w ramach aplikacji parasolowej) wymaga interakcji IVResque między konsumentem a urządzeniem. „Chcesz zrobić to, czy to, czy to, czy to, czy to?” To piekło telefonu, ale przez inteligentny głośnik. Niedobrze.

Na razie najlepszym rozwiązaniem jest znalezienie godnego przypadku użycia i zbudowanie aplikacji do obsługi treści głosowych, aby zrobić tylko kilka rzeczy, bardzo dobrze. Lepiej jest mieć wiele aplikacji lub umiejętności niż umieszczać więcej opcji w istniejącym wykonaniu głosowym. Należy pamiętać, że użycie ekranów w inteligentnych głośnikach (patrz wyżej) może ostatecznie złagodzić ten problem.

Możliwości treści głosowych wewnętrznie obfitują

Chociaż większość umiejętności głosowych i aplikacji została opracowana do użytku konsumenckiego, istnieje wiele interesujących przypadków użycia dla treści aktywowanych głosem zorientowanych na wewnętrzne potrzeby. Zwłaszcza, że korzystanie z aplikacji można zablokować, tak aby dostęp miały tylko zatwierdzone osoby/adres e-mail, potencjał komunikacji wewnętrznej jest znaczny.

Na przykład aplikacja głosowa „Zapytaj HR”, która odpowiada na często zadawane pytania dotyczące płac, ubezpieczeń, polis urlopowych itp. Aplikacja głosowa „Sprawdzanie zapasów”, która natychmiast skanuje bieżące zapasy, aby sprawdzić, czy dana część jest w magazynie. Lub aplikację „zabójca spotkań”, w której każdy z członków zespołu nagrywa krótką aktualizację projektu, a wszystkie aktualizacje są grupowane w jednym pliku audio. Łatwe słuchanie, oszczędność czasu i brak sali konferencyjnej!

Etyka jest na wierzchu

Na Voice Summit 19 dużo mówiło się o etyce. To odświeżające widzieć, jak pionierzy wschodzącej branży od samego początku zastanawiają się nad niektórymi społecznymi konsekwencjami swojej pracy, zamiast próbować manipulować względami etycznymi po tym, jak pociąg już dawno minął. opuścił stację (kaszel, kaszel — media społecznościowe — kaszel, kaszel).

The New York Times przeprowadził dokładne badanie subskrybentów na temat wykonalności i postaw wobec inteligentnych głośników i treści głosowych i stwierdził, że przeważająca większość użytkowników inteligentnych głośników uważa, że domyślny głos używany przez głośniki jest „biały” w ich fleksji i wyglądzie. To samo w sobie ma konsekwencje.

Aby temu zaradzić, KLM Airlines nagrały głosy setek pracowników i zbudowały niestandardowy silnik wielogłosowy, który ma być jak najbardziej neutralny.

Inne kwestie etyczne na tym wczesnym etapie obejmują zdolność (lub jej brak) inteligentnych głośników do słuchania tonów i reagowania w różny sposób w zależności od postrzeganych potrzeb empatii itp.

Oczywiście dużą uwagę należy wziąć pod uwagę, że konsumenci nie ufają ogólnie słuchanej naturze inteligentnych głośników. Mój dobry przyjaciel Tom Webster z Edison Research przedstawił swoje dane, które pokazują, że w ciągu ostatniego roku znacznie wzrosło zainteresowanie konsumentów dotyczące prywatności inteligentnych głośników.

60% ludzi martwi się o prywatność i potencjał hakerów uzyskujących dostęp do ich informacji za pośrednictwem inteligentnych głośników. #voice Kliknij, aby tweetować

Dlaczego to ma znaczenie

Treści aktywowane głosem za pośrednictwem inteligentnych głośników i innych urządzeń to wczesna, rozwijająca się dziedzina. Jednak szybkie przyjęcie tych urządzeń sugeruje, że głos będzie nadal rósł jako ekosystem interakcji. Będziemy Cię informować, gdy zobaczymy, jak te trendy głosowe rozwijają się i zmieniają w czasie. Tymczasem, jeśli możemy pomóc Ci przemyśleć Twoje podejście do głosu, daj nam znać.