자세히보기

Book

📘 [VUI] 음성 사용자 인터페이스 디자인 - 캐시 펄 ★★★

uhee 2021. 4. 7. 08:59

 

VUI (Voice User Interface) 관련 세미나/컨퍼런스도 들어봤지만, 이 책은 상당히 도움이 되는 것 같다.

이 책을 통해서 VUI 관련 개념 정리를 한 후에 세미나/컨퍼런스에서는 최근 트렌드의 레퍼런스들을 주로 소개 받음 좋을 듯 싶다.

★★★★☆

 

[관련 레퍼런스]

· 아마존 에코 오토-차량 안으로 들어온 AI 비서, 알렉사 http://youtube.com/watch?v=tlMGhhioPQE

 

· 아마존 에코 Show vs The Google Nest Hub Max https://www.youtube.com/watch?v=aKcag5JRJrQ

 

· 어펙티바 사 Emotion AI https://www.youtube.com/watch?v=T5EBWE-F2Tg

 

· IP Soft amelia (인공지능 비서 아바타) https://www.youtube.com/watch?v=k31W34IMmB8

 

· MIT 미디어랩 교육로봇 Tega https://www.youtube.com/watch?v=U4srV1Icnb0

 

· SCAD uni. X Ford - Your mobility assistant 'TEERO' https://youtu.be/lHOln6dbsOs

 

 

아래는 이 책에 나온 용어 정리... 하는데까지 해 봄...

No. 네이밍 영문 의미 비고
1 감정 분석 Sentiment Analysis VUI 에서 감정 분석은 자연어 처리를 사용해 사용자의 감정에 대한 정보를 추출하는 것을 의미한다. 긍정, 부정, 중립적 의견을 전산적으로 식별/분류 프로세스
2 감정 탐지 Emotion Detection 얼굴 랜드 마크 및 딥 러닝을 사용한 감정 감지하는 신 기술.
3 기동어 hotword or magic word 기동어 = 핫워드 hotword = 매직 워드 magic word
4 끼어들기 barge-In 사용자가 시스템이 말하는 도중에 끼어드는 것을 허용하는 것을 말한다.
5 Dot

6 대본 리딩


7 대화형


8 대화형 디자인
대화형 디자인이란 VUI 시스템과 한 턴 turn 이상 상호 작용 하는 것을 의미한다고 정의한다.
9 대화형 마커
사용자는 시스템이 기본 예의를 지킬 때 좀 더 참여하게 되고 친절하게 대답한다. 시스템 페르소나 => 정중한 시스템
10 대화형 사용자 인터페이스 conversational user interfaces

11 동일 지시어 coreference 동일 한 것을 나타낼 때 두 가지 다른 용어를 사용하는 것을 동일 지시어 라고 하며, 이는 의사소통에서 필수적인 요소다. 이것이 없으면 대화는 빨리 끝나 버린다.
12 라틴 스퀘어 디자인 Latin Square Design 라틴 스퀘어 디자인은 각 과제를 모든 단계마다 돌아가면서 제시하고 동일한 순서로 과제가 수행되지 않도록 하는 것이다.
13 래빗


14 랜드마킹 Landmarking 교통 메뉴 진입 시 짧은 경적 신호음. / 랜드마킹 Landmarking 으로 사용자가 올바른 장소로 이동했다는 것을 신속하게 파악하는 데 도움을 준다.
15 리커트 척도 Likert scale 리커트 설문지
- 시스템이 사용하기 쉽다
- 나는 영상의 흐름이 좋다
- 내가 어떤 말을 하는지 시스템이 이해했다
- 나는 시스템을 갖고 노는 것이 재미있다
- 시스템이 복잡하다
- 영상이 너무 끊긴다
- 대화가 매우 만족스러웠다
- 시스템이 제공하는 조언에 만족한다
- 향후 이 시스템을 사용하지 않을 것이다.
- 이런 식으로 상호 작용하는 것이 좋다


답지
- 매우 동의하지 않음(1)
- 동의하지 않음(2)
- 다소 동의하지 않음 (3)
- 중립 (4)
- 다소 동의함 (5)
- 동의함(6)
- 매우 동의함 (7)

16 멀티모달리티 Multimodality 어떤 정보는 듣고 싶어 하고 어떤 정보는 보고 싶어 한다.
'멀티모달리티'는 모든 양식이 항상 사용될 수 있도록 해야 하며,
디자이너는 모든 사용자가 이러한 시스템을 사용하는 것을 선호할 것이라고 가정하지 않아야 한다.
멀티모달은 사용자의 선택 사항이지 요구 사항이 돼서는 안 된다.
17 멀티모달 인터페이스 multimodal interface 사용자가 음성과 스크린을 함께 사용할 수 있도록 하는 것
18 명령 제어형
사용자가 말하는 시점을 명시해야 함 ( 시리, 구글 나우, 아마존 에코, 하운드 등 기동어를 불러야 함) 기동어 등을 필요로 함
19 명시적 확인
알리고 확인하도록 요구한다.
20 명확화


21 목소리 선택
목소리도 디자인의 중요한 고려 요소이다.
적용될 캐릭터나 에이전트의 행동, 태도 사용 언어에 따른 목소리의 일관성에 유의해야 한다.

22 목업 mockup 모바일 디자인의 유형과 마찬가지로 목업은 초기 단계에서 앱의 룩앤필을 테스트하는 좋은 방법이다.
목업은 아바타 등 외관에 대한 사용자의 첫 반응을 얻는데 유용한 방법이다.

23 발견 가능성


24 발화 종료 시간 초과 end-of-speech timeout 시스템이 사용자가 말하는 것을 멈춘 시간의 길이로 사용자가 말하는 것을 끝냈는지 판단하는 기능이다.
대부분의 VUI 응답 유형에는 1.5초의 멈춤이 가장 잘 적용된다.
1.5초
25 부정


26 불쾌한 골짜기 Uncanny Valley 인간과 매우 비슷하지만 인간이 아닌 뭔가를 볼 때 느끼는, 공포로 인한 전율을 말한다. 얼굴 표정은 말과 일치돼야 한다. 그렇지 않으면 사람들은 속이려 한다고 느낀다. 예시) 좀비
27 사생활 보호


28 사용성 테스트
사용성 전문가 제이콥 닐슨은 일반적으로 사용성 테스트에 5명을 권장한다.
- 5명 이상 동일한 연구를 진행해도 추가적인 이점이 거의 없다.
- 실험 대상자 수가 늘어날수록 투자 수익 ROI도 빠른 속도로 떨어진다.
- 정성 조사 : 디자인의 방향성을 이끄는 통찰력 수집
- 5명 정도의 실험자가 투자 수익 ROI 적합
- 참가자들에게 반드시 보상하라.
- 직접 테스트 하기 위해 방문 참가자에게 더 많이 지불
- 특정 사용자 그룹 대표 피실험자에게도 더 높은 비용 지불
5명이 적합
29 사이드 스피치


30 샘플 대화


31 시각적 피드백
VUI 는 이미지를 사용하지 않고도 공감이나 중요한 시각적 피드백을 제공할 수 있다.
32 신뢰 임곗값
음성 인식 엔진이 사용자에게 그 엔진이 어느 정도 이해하고 수행하고 있는지 나타내는 것을 말한다.
33 아마존 에코
홈 어시스턴트
기동어 '알렉사'
종류 : 아마존 에코, 아마존 탭, 아마존 닷
아마존 에코에게 ("알렉사") 말하려고 할 때는 상단 가장자리에 파란색 불이 들어오는데 이를 통해 이 기기가 당신의 명령을 듣고 있다는 것을 알 수 있다.
34 아마존 탭


35 아바타 사용하기
모든 VUI 는 아바타와 같은 시각적인 요소의 보유 여부를 떠나 페르소나가 존재한다.
36 아바타의 장단점
사용자가 원하는 것을 쉽게 가정하지 말라.
예를 들어 모두가 남성 아바타보다 여성 아바타를 원한다고 가정하지 말라.
항상 아바타 선택 및 프롬프트를 위해 최대한 많은 사용자 테스트를 수행하라.
아바타가 너무 특이한 경우 (속어를 많이 사용한다던지)에는 사용자가 대답할 내용을 예측하기가 더 어려워질 것이다.

37 안드로이드 오토
안드로이드의 자동차 내부를 위한 디자인
38 암시적 확인
알리되 확인하도록 요구하지 않는다. 
39 에스컬레이팅 오류
죄송합니다. 잘 듣지 못했습니다. 다시 말씀해 주시겠습니까?
죄송합니다. 정보를 찾을 수 없습니다. 항공편명은 알파벳 UA와 3개의 숫자로 구성돼 있습니다.
감사합니다. 예약 정보를 확인하고 있습니다.

40 오즈의 마법사 테스트


41 오케이 구글

"오케이 구글"로 모두의 안드로이드 휴대폰을 활성화시킬 수 있다는 것을 알았습니다.
42 와이어프레임 wireframe

43 유니버설 세트


44 유저밥


45 유저 테스팅


46 음성 입력 기반 분류


47 이어콘 earcon 음성을 사용하지 않지만, 오디오를 사용하는 방법인 '이어콘'도 있다.
이어콘은 간단하면서도 매우 독특한 소리를 말한다.
짧은 오디오 클립 재생 (버스카드 타고 내릴 때...등 )

48 인식의 환상


49 입력의 범주화


50 제한된 응답
예시)
예yes, 예에yeah, 그럼요sure, 당연하죠of Course, 옙yep, 넵, 넹, 넹넹,
아니요no, 아니nope, 아니not, 아뇨naw, 아니야nah, 놉 nop,


짧은 단어는 긴 구절보다 해석과 음성 인식 면에서 처리하기 어렵다.
그래서 Fine 보다 I'm fine이 좀더 정확하게 인식될 가능성이 높다.

51 종점 탐지
사용자가 말하기를 중단한 시점을 식별하는 것을 '종점 탐지' 라고 한다.
52 챗봇
대화형 애플리케이션(챗봇) 많은 가상 비서와 챗봇들이 대화형 UI 를 사용할 때 어려움을 겪는 이유는 맥락이 부족하기 때문이다.
맥락이란 대화상에서 어떤 일이 발생하고 있는지 또는 과거에 어떤 일이 있었는지를 아는 것을 의미한다.
53 처리


54 카플레이 애플의 카플레이 자동차 내부를 위한 디자인
55 태스크 래빗


56 tap

57 터치-톤/보이스 하이브리드 방식 touch-tone/voice hybrid 이상적인 접근 방식은 새로운 대화를 시작할 때는 푸시 투 토크를 사용하지만, 대화 중에는 버튼을 누르지 않아도 되는 하이브리드 방식일 것이다.
58 turn

59 페르소나 persona 페르소나가 없는 VUI 는 존재하지 않는다.
페르소나는 사용자가 애플리케이션의 목소리와 언어 선택 등으로부터 유추할 수 있는 표준화된 성격이나 특성이다.
페르소나는 음성을 이용해 특정 회사의 서비스를 브랜드화하거나 회사의 이미지를 보여주는 수단으로 사용된다.
페르소나를 디자인할 때는 일관성이 매우 중요하다.
다양한 사용자를 대상으로 디자인한다면 더욱 신중해야 한다. 이 경우에는 사랑을 받지고 미움을 받지도 않는 미묘한 성격을 갖게 될 수도 있다.
(주의) 다른 모든 것은 그대로 두고 아바타나 음성만 바꾸게 해서는 안 된다./ 다른 외모와 목소리를 가진 다른 페르소나를 제안하는 것이 이상적이다.

60 푸시 투 토크 Push to Talk (적어도 화면에 손가락을 대고 있게 하는 것은) 앱이 사용자가 말하기를 기다리고 있다는 것을 상기시킨다.
또한 대화의 종점을 감지하는 것에 대한 의존도를 낮춘다.

61 프라이밍 priming 프라이밍은 누군가를 특정 자극(예: 단어 또는 이미지)에 노출하는 것이 이후의 자극에 대한 반응에 영향일 미치는 것을 말한다.
62 프롬프트 prompt 여기서 '프롬프트'란 시스템이 사용자에게 하는 말이다.
완전한 문장 또는 여러 문장이 될 수도 있고, 숫자/날짜/제품과 같은 작은 단위의 정보가 될 수도 있다.

63 하이브리드 방식


64 홈 어시스턴트


65 흐름


66 ASR Auto-mated Speech Recognition 자동 음성 인식
67 ASR 시스템


68
confidence thresholds

69 NLU Natural-Language Understanding 자연어 이해
70
Flow

71 IVR
음성 자동 응답 시스템
72 IVR 시스템


73 NSP 시간 초과


74 N-베스트 목록


75 table read


76 TMS 시간 초과


77 TTS


78 부트스트랩 Bootstrap 웹 사이트나 웹 응용 프로그램을 작성하기 위해 사용하는 무료 소프트웨어 도구 모음이다. 부트스트랩은 동적인 웹 사이트 및 웹 응용 개발을 위한 프론트엔드 프레임워크로, 입력 창, 버튼, 네비게이션 및 기타 구성물, 각종 레이아웃 등을 HTML 및 CSS 기반의 디자인 템플릿으로 제공하며 추가적인 자바스크립트 확장들도 포함한다.