AutoAlt
2024
·
스크린 리더 사용자에게 신발 이미지를 설명해 주는 브라우저 확장 프로그램. LG AI 청소년 캠프에서 만들었습니다.
AI 번역
이 글은 AI의 도움을 받아 번역되었습니다. 일부 내용에 오류가 있을 수 있습니다.
문제
시각장애인이 온라인 쇼핑을 하다 보면 상품 이미지에서 막히는 경우가 많다. 스크린 리더가 화면에 뭐가 있는지 읽어주려면 대체 텍스트(alt text)가 필요한데, 정작 대부분의 쇼핑몰엔 그게 없다. 페이지가 그냥 “이미지”만 열두 번 읽어주면 신발 두 켤레를 구분할 방법이 없는 거다.
우리 팀은 2024년 LG AI 청소년 캠프에 참여하다가 이 문제를 발견했다. LG 디스커버리랩이랑 서울대학교가 같이 운영하는 프로그램인데, 여기에 약 세 달 동안 매달렸다.
우리가 만든 것
AutoAlt은 상품 이미지를 받아서 직접 학습시킨 객체 탐지 모델에 한 번 통과시키고, 그 결과를 GPT-4에 넘겨서 자연스러운 문장으로 바꾼다. 그렇게 나온 게 스크린 리더가 실제로 읽어줄 수 있는 텍스트다.
진행하면서 범위를 엄청 좁혔다. 처음엔 “쇼핑몰의 모든 의류”로 시작했는데, 주어진 시간 안에 제대로 학습시킬 수 있는 게 결국 신발밖에 없었다.
스택
- YOLOv8: 내 맥북 프로로 학습시켰다 (MPS 가속. 컴퓨터 사고 처음으로 팬 소리가 비행기 이륙 소리처럼 났다)
- FastAPI 백엔드: 이미지를 받아서 모델 JSON을 돌려준다
- GPT-4 Turbo:
{type: "sneaker", laces: true}같은 걸 완성된 문장으로 바꿔준다 - 프론트엔드는 HTML 파일 하나. 이미지 우클릭하면 뜨는 컨텍스트 메뉴로 실행된다
팀에서 프로그래밍 할 줄 아는 사람이 나밖에 없어서, 나머지 3명이 기획이랑 디자인, 발표를 맡았다.
결과
최종 시상식에서 상을 3개 받았다. LG 인재상, 성장상, 탐구상. 그리고 개인 자격으로 미국 실리콘밸리 연수 대상자로도 뽑혔다.

미국 캠프 때 스탠포드에서는 가벼운 교통 위반 변호에 쓰는 AI 법률 상담 챗봇도 만들어 봤다. 다른 프로젝트긴 한데 결은 비슷했다.
더 보기
지원 마감 직전 패닉이라든지 서울대 기숙사 밤샘, 노트북으로 YOLO 돌린 거까지 전체 이야기는 LG AI 청소년 캠프 후기에 적어놨다. 실리콘밸리 쪽은 미국 캠프 후기에서 다룬다.