이 글은 IDG의 아티클을 전재하여 제공함을 알려 드립니다.
[원문보기] : https://www.ciokorea.com/news/299689#csidx8e62485552af1568227cc106f989825
성공적인 생성형 AI를 위해 맞춤형 키보드를 구입하거나, 새로운 최고 AI 책임자를 채용해야 할까요? 생성형 AI에 대한 큰 기대와 투자 관점에서 성과를 어떻게 바라보고 있을까요?
생성형 AI는 머신러닝(ML) 모델에서부터 다양한 영역에서 사용할 수 있는 플랫폼이 될 가능성을 제시합니다. 그러나 생성형 AI 자체가 문제 해결에 적합한지, 사용자들이 생성형 AI를 효과적으로 활용하는 방법을 알고 있는지 검증해야 합니다.
최근 PageDuty의 연구에 따르면, 많은 사람들이 생성형 AI 툴을 개인 및 업무용으로 특정 업무나 부서 단위에서 정기적으로 사용하고 있으며, Fortune 1000대 기업 중 98%가 생성형 AI를 실험하고 있는 것으로 나타났습니다. 그러나 이제 많은 기업이 배포에 앞서 신중한 접근 방식을 취하고 있는 것으로 보입니다. 예를 들어, Foundry의 ‘2023 AI Priorities Study’에서 IT 의사결정권자의 4분의 1이 생성형 AI 기술을 시험하고 있지만, 배포까지 이어진 비율은 20%에 불과했습니다. CCS Insight의 ‘Employee Technology and Workplace Transformation Survey’에 참여한 고위급 리더들은 2023년 말까지 18%가 전체 직원에 생성형 AI를 배포했으며, 22%는 배포할 준비가 되어 있다고 응답했습니다. Intel의 ‘2023 ML Insider’ 설문조사에서 AI 전문가와 같은 IT 팀들의 응답에 따르면, 기업의 10%만이 2023년에 생성형 AI 솔루션을 프로덕션에 도입한 것으로 나타났습니다.
파일럿 단계
생성형 AI에 대한 투자나 파일럿, 계획을 가진 기업은 많지만, 생산성 향상이나 ROI의 구체적인 내용에 대해 이야기하는 기업은 상대적으로 적습니다. 예를 들어, 골드만삭스, IHG, 메르세데스 벤츠와 같은 구글 고객들이 최근 ‘Google Cloud Next’ 컨퍼런스에서 Gemini 생성형 AI 툴을 사용한 사례에 대해 발표했지만, 대개 배포가 아닌 파일럿 단계에 있는 것으로 나타났습니다. 물론 단순한 실험 수준을 넘어선 파일럿일 수 있습니다.
McKinsey는 산업디자인팀이 LLM 기반의 리서치 요약 기능과 AI 이미지 생성 기능을 사용하는 경우, 제품 개발 주기를 70% 이상 단축할 수 있다고 보고합니다. 그러나 이러한 디자인팀이 현실적이고 실제로 생산할 수 있는 제품을 만들기 위해서는 생성형 AI 결과물에 대한 평가와 조작을 수행해야 하며, 다시 생성형 AI 정책을 수립하고 직원을 교육하며 파일럿 계획을 실행하는 것이 좋습니다.
화장품 기업 Estée Lauder는 고객 인사이트, 행동 연구 및 시장 동향에 대해 훈련을 받은 내부 챗봇과 같은 파일럿 프로젝트의 가치를 확인하고 이를 통해 비즈니스에 보다 광범위하게 사용할 수 있도록 하면서, 실제로는 이 가치를 제공하는 방법을 계속 연구하고 있습니다.
Microsoft는 직원들이 Microsoft 365 Copilot 기반의 생성형 AI 툴을 통해 상당한 가치를 얻고 있다고 강조합니다. 현대 업무 및 비즈니스 애플리케이션 부문 CVP인 Jared Spataro는 최고의 사용자들은 한 달에 10시간 이상 절약하고 있다면서, Microsoft 응용 프로그램 및 Copilot 사용자의 70%는 이를 통해 생산성이 향상하고 작업 속도가 최대 1/3 더 빨라졌다고 전했습니다. Forrester의 수석 애널리스트 JP Gownder는 Microsoft 365 Copilot에 대해 한 달에 5시간 정도의 절약이 일반적이라고 분석합니다. 일본의 대형광고 대행사인 Dentsu는 Microsoft 365 Copilot에 매우 열광하며 직원들이 하루에 최대 30분의 작업 시간을 절약할 수 있다고 주장합니다. 지금까지 Copilot 도입은 ‘포켓’이라고 부르는 경향이 있는데, 이는 McKinsey가 대부분의 생성형 AI 배포가 마케팅 및 영업, 서비스 및 지원, 제품 개발 등 특정 부서에서 발생하고 있다고 보고한 방식과 일치합니다.
McKinsey 보고서에 따르면, 설문조사에 참여한 통신업체들은 다른 업계와 마찬가지로 낙관적인 가운데에서도 효과 범위가 제한되어 있었습니다. 대다수는 생성형 AI를 통해 비용을 절감했다고 응답했으며, 콜센터 상담원의 생산성이 증가하고 개인화된 콘텐츠를 통해 마케팅 전환율이 개선된 것으로 나타났습니다.
유기적 성장
Microsoft의 초기 테스트 고객 중 일부는 이미 파일럿 단계에서 광범위한 배포 단계로 전환했습니다. 글로벌 로펌 Clifford Chance는 초기 Microsoft 365 Copilot 체험판을 진행했으며, 현재 Azure OpenAI를 기반으로 구축한 맞춤형 AI 툴인 ‘Clifford Chance Assist’와 함께 이를 전체 직원에게 배포하고 있습니다. 이 회사는 자격을 갖춘 변호사가 생성형 AI의 모든 법적 결과물에 명확하게 라벨링하고 확인한다는 점에 주의를 기울이고 있지만, 주요 이점은 실시간 기록, 회의 요약, 암묵적인 약속 및 합의 등 지식 근로자의 생산성 향상입니다.
생성형 AI는 생산성을 높이고, 시간을 절약하며, 훌륭한 인간 비서가 될 수 있는 놀라운 기술입니다. 하지만, 이는 지난 40년 동안 컴퓨팅 분야에서 출시해 온 툴과는 다릅니다. 진정한 성공을 거두려면 배워야 할 특성이 있습니다. 기업의 AI 지수를 평가하기 위해 다음과 같은 일련의 질문을 제시합니다.
- AI와 프롬프트 엔지니어링의 작동 방식에 대한 기본적인 이해가 있는가?
- 교육을 받은 적이 있는가?
- 이러한 것들을 배울 수 있다는 것에 대해 자신감이 있는가?
- 참여하고자 하는 의욕이 있는가?
- 무엇이 잘못될 수 있는지, 그리고 어떻게 하면 이러한 것들을 윤리적으로 사용할 수 있는지 알고 있는가?
또 다른 문제로, Microsoft 365 Copilot을 검토하는 거의 모든 주요 기업은 직원 교육에 10시간이 아닌, 1시간만 계획하고 있습니다. 이것은 핵심 기술로, 교육에 투자하지 않으면 손해를 볼 수 있기 때문에 교육에 투자해야 합니다. 이는 생성형 AI 배포가 성공하고 Photoshop에서 Zoom에 이르기까지 상용 소프트웨어에서 일반적으로 사용하는 생성형 AI 기능과 자연어 인터페이스를 최대한 활용하는 데 핵심입니다.
매우 구체적인 성공
문서 엔지니어링과 같은 업종에는 이미 생성형 AI 성공 사례가 있습니다. Docugami는 고객의 복잡한 문서에서 지식 그래프를 구축하고 문서 생성과 데이터 추출에 모두 사용할 수 있는 맞춤형 소형 언어 모델을 제공합니다. 그리고 Docugami의 CEO Jean Paoli는 보험회사들이 가치 명세서, 보험 증서는 물론 갱신 날짜, 위약금 및 책임이 명시된 계약 문서를 위해 Docugami의 솔루션을 도입했다고 전했습니다. 이는 개별 고객과 전체 포트폴리오의 위험을 설명하는 중요한 정보로, 이전에는 새로운 견적을 생성하거나 재보험사에 포트폴리오를 제시하는 데 사용하기 위해 수작업으로 추출하고 통합하기가 어려웠습니다. 이러한 시나리오는 수백 달러가 아니라 수백만 달러를 절약할 수 있는 실제 시나리오입니다.
Docugami의 대규모 고객은 2023년에 생성형 AI 위원회를 만들고 파일럿을 시작했습니다. 많은 고객이 발견 단계에서 구현 단계에서 전환하고 최소 6개월 전에 프로덕션 배포를 시작했으며 실질적인 수익을 거두었습니다. 생명과학 분야의 한 고객은 임상 시험 문서화, 규정 준수 및 데이터 탐색을 위해 플랫폼을 사용하는데, 이전에는 이 작업을 하는 데 6개월이 걸렸지만 이제는 일주일이면 된다고 강조합니다.
코딩은 생성형 AI를 본격적으로 활용하는 또 다른 분야입니다. 그러나 처음에는 생산성 향상이 훨씬 낮을 수 있습니다. Cisco가 6,000명의 개발자에게 GitHub Copilot을 처음 배포했을 때, 개발자들은 생성된 코드를 19%만 허용했습니다. 이제는 코드 제안의 거의 절반이 수락됩니다. Redfin에 따르면, 개발자 시간을 한 달에 6분만 절약해도 비용을 충당할 수 있지만, 기업에서 추적하고 싶은 코드 품질과 같은 다른 지표도 있습니다.
그러나 생성형 AI의 이점은 전문 지식이 부족한 시민 개발자가 로우코드 플랫폼을 사용하는 경우 훨씬 더 높을 수 있습니다. 디지털 보험 에이전시 Nsure.com은 이미 Power Automate를 광범위하게 사용하고 있었지만, 자연어로 자동화 흐름을 설명하는 것이 드래그 앤 드롭 인터페이스보다 훨씬 빠릅니다. 생성 및 구성에 4시간이 걸렸던 워크플로우가 Copilot for Power Automate를 사용하면 80% 이상 개선되어 40분가량이면 충분합니다.
PG&E는 Power Platform의 로우코드 Copilot Studio 생성형 AI 툴로 Peggy라는 IT 헬프데스크 챗봇을 구축해 직원 요청의 25~40%를 처리함으로써 연간 110만 달러 이상을 절감했다고 합니다. 간단한 예로 Peggy가 직원들에게 SAP에 대한 액세스 권한을 잠금 해제하는 방법을 안내하게 함으로써 헬프데스크팀에서만 연간 840시간을 절약할 수 있었습니다.
비용 계산
온디맨드 생성형 AI 툴의 비용을 정확하게 추정하기는 어렵기 때문에 일부 배포가 제한될 수 있습니다. 개별 생성형 AI 작업에 대한 비용은 아주 저렴할 수 있지만, 전사적 배포에는 이 작은 비용도 포함됩니다.
LinkedIn의 수석 소프트웨어 엔지니어 Juan Bottaro는 외부 공급업체를 이용하든 내부에서 개발하든, 생성형 AI에서 가장 먼저 고려해야 할 사항은 비용이라고 강조합니다. LinkedIn은 최근 프리미엄 사용자를 위한 새로운 생성형 AI 기능을 출시했는데, 이 기능은 프로필을 사용하여 채용 공고에 적합한지, 어떤 기술이나 자격이 채용 기회를 향상할 수 있는지 제안합니다. 새로운 워크플로우에 대한 비용을 예측하는 것은 어렵고, 사람들이 이와 상호작용하는 방식이 매우 다르기 때문에 사용량에 대한 모든 가정이 틀릴 수 있습니다. 대신, 소수의 사용자에게 배포하고 그들의 행동을 통해 추정할 수 있습니다. 처음에는 프로토타이핑 속도가 놀라울 정도로 빠르기 때문에 비용 절감 효과를 볼 수 있습니다. 의도를 이해하기 위해 분류기를 훈련하고 테스트하는 데 일반적으로는 1~2개월이 걸리지만, 단 며칠 만에 전달하고자 하는 프로토타입을 얻을 수 있었습니다. 현재의 프리미엄 경험에서 한두 달 만에 볼 수 있는 것과 매우 유사한 완제품 형태를 불과 일주일 만에 얻을 수 있었습니다. 그러나 문제는 이러한 상태에서, 원하는 것의 80%에서 배포에 필요한 품질 수준까지 도달하는 데 훨씬 더 오랜 시간이 걸리는 경우가 많습니다. 이 경우에는 4개월이 더 걸립니다.
측정 지표
생성형 AI 결과물의 품질과 정확성을 측정하는 것은 까다롭고 어렵습니다. 동일한 입력을 해도 매번 다른 결과가 나올 가능성이 높기 때문에 더 어렵습니다. 자체 보고된 생산성은 생성형 AI의 성공을 측정하는 최선의 방법이 아닐 수 있습니다. 성공적인 배포를 위해 중요한 지표를 바꾸어야 할 수도 있습니다.
생성형 AI 툴을 평가하기 위해 좋은 응답이 어떤 모습인지에 대한 공유 지침을 만듭니다. 예를 들면, Microsoft는 Azure Copilot을 구동하는 Ask Learn API에 대해 답변 품질에 대해 테스트할 실측 자료와 메트릭에 대한 참조 데이터가 포함된 대표적이고 주석이 달린 질문 및 답변의 '골든 데이터 세트'를 구축했습니다.
기업은 종종 생성형 AI를 배포하여 비용을 절감하는 것보다 돈을 벌 수 있는지에 더 관심이 있습니다. 이는 직원들의 생산성 능력 및 효율성 향상과 관련이 있습니다. 그러나, 많은 기업이 ROI를 입증해야 한다는 압박감이 있지만, 아직 그 단계에는 도달하지 않았습니다. Copilot for Sales와 같은 역할별 도구를 전환율, 거래 흐름 또는 통화 해결까지의 평균 시간 개선에 연결하는 것이 더 쉬울 수 있지만, 변수가 너무 많을 때에는 직접적인 인과 관계를 가정하지 않아야 합니다.
정량화할 수 없는 이점은 TCO 측면에서 여전히 가치가 있을 수 있습니다. 사람들에게 Copilot을 제공하면 시간을 절약할 수 있을 뿐만 아니라 지루한 작업을 줄일 수 있습니다. 이를 통해 직원 경험을 개선할 수 있습니다. 직원 경험 복리후생이 이직률을 낮추고, 직원들의 동기 부여와 참여도를 높이는 경향이 있다는 것을 알고 있습니다. 심리적 측면에서도 긍정적인 생산성이 많이 있습니다.
때로는 생성형 AI와 LLM에 대한 순수한 열정이 상황을 복잡하게 만들 수 있습니다. ‘생성형 AI에 대한 확실한 가치를 만들고 싶어서 가치를 측정하는 새로운 방법을 찾아야 한다'는 문제에 직면해 있습니다. 그건 잘못된 시각으로 보는 것입니다. 모든 제품에 동일하게 사용할 수 있는 성공 지표로 접근해 볼 수도 있으며, 일부 사례에서는 기존 AI만으로도 충분히 유용할 수 있습니다.
생성형 AI가 실패할 것 같다면…
생성형 AI를 도입하는 것이 적절한지, 부정확한 답변을 사용자가 반박할 수 없는 사실로 받아들이는 것을 막는 방법은 무엇인지, 학습 세트에 저작권과 부적절한 자료가 포함되지 않았는지 같은 질문을 진지하게 검토해야 합니다.
보고된 생성형 AI 실패 사례는 종종 경계를 테스트하는 사용자의 무책임한 행동이나 충분한 가드레일을 마련하기 위한 AI 기반 툴을 출시하지 못한 경우가 많습니다. 2023년 한때 OpenAI의 자체 1억 7,500만 달러 규모의 VC 펀드가 가짜 신원의 통제를 받았지만, 이는 누군가가 AI 기반 툴을 사용하여 구식 비즈니스 사기를 도운 사례로 보입니다.
생성형 AI에 대한 다른 우려 사항으로는 딥페이크, 단순한 디지털 위조, 학습에 사용된 데이터의 저작권과 관련된 잠재적인 법적 위험, 민감한 데이터나 기밀 데이터에 생성형 AI를 사용할 때 규정 준수 문제입니다.
모든 클라우드 모델과 마찬가지로 공동 책임의 개념이 관건입니다. AI 제공업체는 사용하기에 안전한 모델과 서비스를 제공해야 하지만, AI 서비스를 도입하는 기업은 사용 방식을 적절하게 제한하고 있는지 테스트해야 합니다.
생성형 AI에 대한 기업의 성숙도는 일반적으로 기존 AI의 성숙도를 추적하는 경향이 있습니다. 이를 도입하는 대부분의 기업은 예측 AI, 컴퓨터 비전, 머신러닝 등에 더 많은 투자를 하고 있습니다. 반면, 자체 AI 도구를 구축하는 기업은 여러 기술을 사용하고 생성형 AI를 솔루션이 아닌 하나의 구성 요소로 취급하고 있습니다.
출처: Samsung SDS 인사이드 리포트, https://www.samsungsds.com/kr/insights/expections-and-reality-in-generative-ai.html