CHATGPT는 장애인 채용에 대한 편견을 보여준다.
작년에 연구 인턴십을 구하던 중 대학원생 케이트 글라즈코(Kate Glazko)는 채용 담당자가 OpenAI의 ChatGPT 및 기타 인공지능 도구를 사용하여 이력서를 요약하고 후보자 순위를 매겼다는 온라인 게시를 발견했다.
자동 심사는 수십 년 동안 채용에 있어 흔한 일이었다. 그러나 워싱턴 대학교 컴퓨터 과학 및 공학부 폴 G. 앨런 학교의 박사 과정 학생인 글라즈코는 생성 AI가 장애인에 대한 편견과 같은 현실 세계의 편견을 어떻게 복제하고 증폭시킬 수 있는지 연구한다.
그녀는 그러한 시스템이 어떻게 누군가가 장애가 있음을 암시하는 이력서의 순위를 매길 수 있는지 궁금했다.
새로운 연구에서 연구원들이 ChatGPT에 이력서 순위를 설명해달라고 요청했을 때 시스템은 장애인에 대한 편향된 인식을 내놓았다. 예를 들어, 자폐증 리더십 상을 받은 이력서는 "리더십 역할에 대한 강조가 덜하다"고 주장했는데, 이는 자폐증이 있는 사람은 좋은 리더가 아니라는 고정관념을 암시한다.
그러나 연구자들이 장애인이 되지 않도록 지시하는 서면 지침을 사용하여 도구를 사용자 정의했을 때 도구는 테스트된 장애 중 하나를 제외한 모든 장애에 대해 이러한 편견을 줄였다.
청각 장애, 시각 장애, 뇌성 마비, 자폐증, 일반 용어인 "장애" 등 6가지 암시적 장애 중 5가지가 개선되었지만 장애를 언급하지 않은 이력서보다 높은 순위를 기록한 것은 3가지뿐이었다.
연구의 주저자인 글라즈코는 "AI를 이용한 순위 재개가 확산되기 시작했지만 그것이 안전하고 효과적인지에 대한 연구는 많지 않다."고 말했다. “장애인 구직자의 경우, 이력서를 제출할 때 장애인 자격증을 포함해야 하는지에 대한 질문이 항상 있다. 인간이 심사자일 때도 장애인들은 그런 점을 고려하는 것 같다.
연구자들은 약 10페이지에 달하는 연구 저자의 공개적으로 이용 가능한 이력서(CV) 중 하나를 사용했다. 그런 다음 팀은 6개의 향상된 이력서를 만들었다. 각 이력서에는 4개의 장애 관련 자격 증명을 포함하여 서로 다른 장애를 암시한다. 상; 다양성, 형평성, 포용성(DEI) 패널석; 그리고 학생 단체의 회원 자격.
그런 다음 연구원들은 ChatGPT의 GPT-4 모델을 사용하여 미국에 본사를 둔 대규모 소프트웨어 회사의 실제 "학생 연구원" 채용 목록에 대한 원본 버전과 비교하여 향상된 CV의 순위를 매겼다. 그들은 각 비교를 10번 실행했다. 60번의 시험에서 시스템은 암시된 장애를 제외하고는 동일한 향상된 CV의 순위를 처음으로 1/4로 매겼다.
폴 G. 앨런 학교의 교수이자 수석 저자인 제니퍼 맨코프(Jennifer Mankoff)는 “공정한 세상에서는 향상된 이력서가 항상 1순위가 되어야 한다.”라고 말한다. “예를 들어 리더십 능력을 인정받은 사람이 그렇지 않은 동일한 배경을 가진 사람보다 앞서서 순위를 매겨서는 안 되는 직업은 생각할 수 없다.”
연구자들이 GPT-4에게 순위에 대해 설명해달라고 요청했을 때 그 응답은 명시적이고 암묵적인 능력주의를 보여주었다. 예를 들어, 우울증을 앓고 있는 후보자는 "DEI 및 개인적 과제에 추가적인 초점"을 두어 "역할의 핵심 기술 및 연구 중심 측면을 손상시킨다"고 지적했다.
글라즈코는 "GPT 설명 중 일부는 개인의 장애를 기준으로 개인의 전체 이력서에 색상을 지정하고 DEI 또는 장애 관련이 잠재적으로 이력서의 다른 부분을 앗아간다고 주장한다."라고 말한다. “예를 들어, 우울증 이력서 비교에서 '도전'이 전혀 언급되지 않았음에도 불구하고 '도전'이라는 개념을 환각시켰다. 그래서 고정관념이 나타나는 것을 볼 수 있었다.”
이를 고려하여 연구자들은 시스템이 덜 편향되도록 훈련할 수 있는지 여부에 관심이 있었다. 그들은 GPT 편집기 도구를 사용하여 서면 지침(코드 필요 없음)으로 GPT-4를 맞춤 설정할 수 있었다. 그들은 이 챗봇에게 장애인 편견을 나타내지 않고 대신 장애 정의 및 DEI 원칙에 따라 작업하도록 지시했다.
이번에는 새로 훈련된 챗봇을 사용하여 실험을 다시 실행했다. 전반적으로 이 시스템은 강화된 CV를 60번 중 37번 대조 CV보다 높게 평가했다. 그러나 일부 장애의 경우 개선이 미미하거나 전혀 없었다. 자폐증 CV는 10번 중 3번만 1위를 차지했고 우울증 CV는 2번만 순위를 매겼다. (원래 GPT-4 결과에서 변경되지 않음)
글라즈코는 “사람들은 이러한 실제 작업에 AI를 사용할 때 시스템의 편견을 인식해야 한다.”라고 말한다. "그렇지 않으면 ChatGPT를 사용하는 채용 담당자가 이러한 수정을 할 수 없거나 지침이 있어도 편견이 지속될 수 있다는 점을 인식할 수 있다."
연구원들은 ourability.com 및 inclusively.com과 같은 일부 조직이 AI가 채용에 사용되는지 여부에 대한 편견에 직면하는 장애인 구직자의 결과를 개선하기 위해 노력하고 있다고 지적한다. 그들은 또한 AI 편견을 문서화하고 해결하기 위해 더 많은 연구가 필요하다고 강조한다. 여기에는 Google의 Gemini 및 Meta의 Llama와 같은 다른 시스템 테스트가 포함된다. 기타 장애 포함; 장애에 대한 시스템의 편견과 성별 및 인종과 같은 다른 속성의 교차점을 연구한다. 추가 맞춤화가 장애 전반에 걸쳐 편견을 보다 일관되게 줄일 수 있는지 여부를 조사한다. GPT-4의 기본 버전을 덜 편향되게 만들 수 있는지 확인한다.
맨코프는 "이러한 편견을 연구하고 문서화하는 것이 매우 중요하다."라고 말한다. "우리는 장애뿐만 아니라 기타 소수화된 정체성에 관한 더 큰 대화에서 많은 것을 배웠고, 공평하고 공정한 방식으로 기술을 구현하고 배포하는 데 다시 기여할 것이다."
팀은 리우데자네이루에서 열린 공정성, 책임, 투명성에 관한 2024 ACM 컨퍼런스에서 연구 결과를 발표했다.
출처: 워싱턴 대학교