Guidelines for Human-AI Interaction (CHI 2019)

원문: Guidelines for Human-AI Interaction

KIXLAB 인턴 면접 전 읽어본 논문으로 못해도 10번은 정독한 것 같다.

Guidelines for Human-AI Interaction 논문은 AI-Interaction에서 가장 많이 쓰이고 유명한 논문이다. Microsoft가 지난 20년간 human-AI interaction에 대한 고민과 연구결과를 담았다. 해당 논문에서는 구체적이고 실행가능한 18가지의 가이드라인으로 제시한다. 한국어로 풀어서 설명하자니 표현이 조금 어색한데 AI 시스템과 1) 초기 상호 작용시, 2) 상호 작용 중에, 3) 잘못되었을 때, 4) 시간이 지남에 따라 인터랙션 하는 방식에 대한 권고를 18가지로 압축해서 설명해둔 것이다.


  • AI의 발전으로 user interface design에 새로운 기회와 과제가 주어졌다.
  • 그간 Computer과의 인터랙션을 다루어왔던 전통적인 HCI(Human-Computer Interaction)에서 AI와 인터랙션을 다루어왔지만, AI의 발전과 그 활용성을 고려했을 때 더 많은 연구가 필요하다.
  • 본 논문에서는 범용적으로 적용가능한 18가지 인간-AI 인터랙션 디자인 가이드라인(18 generally applicable design guidelines for human-AI interaciton)을 제시한다.
  • 가이드라인들은 49명의 디자인 관련자들 여러 round에 걸친 evaluation을 통해 검증되었다.
  • AI의 발전으로 개발자들은 AI의 능력을 사용자가 접할 수 있는 시스템에 적용할 수 있게 되었다.
  • AI-infused system은 기존의 사용자 인터페이스 디자인의 사용성 가이드라인을 훼손할 수 있다.

  MS가 지난 20년동안 AI 디자인에 대한 고민을 정리해서 일반적으로 적용가능한
    • 150가지의 AI관련 디자인 규칙들을 일반적인 18개 가이드라인으로 집대성하고, 이 가이드라인들을 여러 단계에 걸친 iteration과 testing을 통해 시스템적 검증을 거쳤다.
Table1. 18개의 human-AI interaction design guidelines

Phase1: Consolidating Guidelines

Phase2: Modified Heuristic Evaluation

  • Phase1에서 나온 초기 20개의 AI 디자인 가이드라인을 test하고 iterate함
  • modified heuristic evalutaion으로 study를 진행
    • 11명의 팀원들이 각자 AI-infused product나 기능들을 골라서 각각 한시간동안 가이드라인과 위배되는 요소들을 찾게 함
    • 13 AI-infused products : email product, navigation system, social network news feed 등등
  • 그 후, heuristic evaluation으로 나온 찾은 점들을 바탕으로 상충되는 해석이나 모호함이 있는지 논의를 함
  • 불필요하거나 서로 관련있는 가이드라인들을 합침
  • 활용도가 없는 가이드라인들은 삭제
  • 가이드라인에서 지켜야 할 3가지 사항들은 다음과 같다
    • 행위에 대한 규칙으로 작성되어야 하며, 동사로 시작하는 3-10개의 단어로 구성된 문장이어야 한다.
    • 해석의 모호함을 명확히 해줄 수 있는 한 문장의 설명이 동반되어야 한다.
    • 디자이너가 가이드라인의 준수 여부를 파악하기 쉽도록 접속사를 포함하면 안된다
  • Phase2에서 18개의 가이드라인이 나왔는데, 이는 Table1에서 보여준 최종 가이드라인과 아주 유사하다.

Phase3: User Study

  • 49명의 HCI 전문가들을 상대로 User Study를 진행함
  • 두가지 목적을 달성하고자 했다.
    1. 다양한 기기들에서 가이드라인의 활용성을 보기
    2. 가이드라인의 명료성에 대한 피드백을 받고자


      Products & Participants

  • Products
    • 연구 목적 중 하나가 다양한 AI-infused product에 가이드라인이 적용될 수 있는지 보는 것이기 때문에 최대한 다양한 제품들을 선택해야 했다.
    • 온라인으로 top apps, software, website를 검색 -> 10개의 categories로 그룹화 -> 각 제품별로 prominent AI-driven feature을 뽑았다.
    • 20개의 product가 선정되었음
  • Participants : 대형 소프트웨어 기업에서 1년 이상의 HCI 분야 직무 경력이 있는 사람을 모집 -> 49명의 참여자



가이드라인 항목별로 (a)활용성, (b)위반, (c)미적용, (d)모든 응답을 시각화 한 것. 가로엔 가이드라인, 세로는 테스트한 제품을 나타냈다. (source: MS)

Phase 4: Expert Evaluation of Revisions

  • Phase 3에서 가이드라인이 발전되었는지 확인하기 위해 전문가 리뷰(expert review)를 수행했다.
  • Expert reivew는 워딩과 명료성과 관련된 문제에 도움이 되는 것으로 알려져있다.
  • 무엇보다 경험있는 전문가들을 선정한 이유는 가이드라인이 실제로 그들이 일을 할 때 사용할 수 있을만큼 이해하기 쉬운지 평가하기 위해서이다.
  • 11명의 전문가 - 6 UX desingers, 3 UX researchers, 2 research and product planning -
대부분의 전문가들은 9개의 수정된 가이드라인에서 수정된 버전을 선호했다. (source: MS)

Discussion & Future Work


  • 18개의 가이드라인을 제시했다.
  • 150개의 AI 관련 디자인 권고사항들을 세 라운드의 평가를 거쳤다.
  • 이 가이드라인들이 더 나은 인간 중심적인 AI 시스템을 만드는데
  • 점점 더 많은 제품과 어플리케이션들에 AI가 적용되는 만큼 human-AI interaction 가이드라인을 더 발전시키고 다듬는 것이 매우 큰 가치있으리라 생각한다.
가독성이 좋게 다듬은 표 (source: MS)


CS492F 수업 때에도 이 논문에 대해 다루었었는데, 그 때 과제로 작성한 Paper Review 내용이다.

  • Summarize main ideas and discuss why they matter.
  • What have you learned? What did you like about the material?
  • Any methodological / logical / technical issues? How would you improve the work?

This paper proposes 18 generally applicable design guidelines for human-AI interaction. They first distilled the existing 150 AI-related design recommendations and validated them through three rounds of evaluation. 18 design guidelines are devided into four top-level categories in AI interaction, and they get these guidelines with four phases - consolidating, heuristic evaluation, user study, and expert evaluation. The authors validated these guidelines through conducting a user study with 49 HCI practitioners to 1) understand the guideline’s applicability across a variety of products and 2) get feedback about the guidelines’ clarity. The results verify the relevance of the guidelines for various interaction scenarios, highlighting opportunities for further research.

Usually, I have a lot of interest in UI and design guidelines, so I enjoyed looking them up. The design guideline mentioned here was to present assets, properties, color values, etc. on how designers and developers should design, such as google material design and Microsoft fluent design system. But looking at artificial intelligence’s interaction guidelines, I found that it is a bit vaguer and the general side was strong. I liked the way that categorizes the interaction steps into ‘initial’, it ‘During interaction’, ‘when wrong’ and ‘overtime’, and the most important part is the ‘overtime’ part I think. This part contains AI design that should remember recent interactions, learn from it, update or notify changes. These are the things that real AI can do unlike the products that some Electronics company only names their devices or products that carry out simple ‘automation functions’ with ‘artificial intelligence’. I thought that this guideline could be used to set our AI level and be criteria for a qualification that can be called “AI”. Conducting Four phases that contain consolidate, heuristic evaluation is impressive because it was good to see how the guidelines were revised and supplemented at each stage. Interactions often involve more qualitative evaluation than quantitative evaluation, but I knew how to extract objective information and present guidelines through this paper.

Despite the paper’s clarity, I want to point out some weaknesses. The first one is that the guidelines in this paper focused on generality, not detail constraints about the devices. The products they used are popular AI-infused products that covered a wide range of scenarios but usually the service-based like apps, software, or websites. It says to use multiple platforms and devices, but I think the same AI-service feature can be changed by its implemented device form and it must be considered as well. For example, there are lots of devices contain voice assistants, but it is different when it is in a smartphone, Bluetooth speaker, TV, car and all can be interact differently according to what conditions or what devices it uses. The second weakness is the subjects of user study were for researchers, designers, engineers who were good at using the digital device or UX design. Perhaps, in order to focus on the interaction of AI, people who are familiar with UX and know how to handle devices well may have been selected, but the guidelines of building an AI interaction system should be able to communicate with various types of people, I think it is also important to proceed with children or elderly people who are unfamiliar with handling AI devices.

