수락 기준 및 ML 시스템 문서화

수락 기준 및 ML 시스템 문서화 위험, 목표 및 수락 기준 🞈 가장 중요한(가장 위험이 높은) 시스템 특성은 생성에 사용됩니다. 다음을 포함한 AI 기반 시스템에 대한 테스트 목표 및 승인 기준: • 유연성, 적응성 및 진화 • 자율성 • 확률론적 및 비결정론적 시스템 • 부작용 및 보상 해킹 • 윤리 및 안전 • 부적절한 편견 • 투명성, 해석 가능성 및 설명 가능성<div class="figure-img" data-ke-type="image" data-ke-style="alignCenter" data-ke-mobilestyle="widthOrigin"><img src="https://t1.daumcdn.net/cafeattach/1PqNJ/fa6c1c882cda029b69b97ff8886791bb4d89a5b9" class="txc-image" data-img-src="https://t1.daumcdn.net/cafeattach/1PqNJ/fa6c1c882cda029b69b97ff8886791bb4d89a5b9" data-origin-width="707" data-origin-height="180"></div> 허용 기준 - 유연성, 적응성 및 진화 🞈 유연성 • 초기 사양 이외의 컨텍스트에서 시스템 동작은 허용됩니다. - 이것은 자동화된 회귀 테스트의 형태로 구현될 수 있습니다. • 시스템이 새로운 컨텍스트를 관리하기 위해 자체적으로 변경하는 데 걸리는 시간과 사용된 리소스가 허용 가능합니다. 🞈 적응성 • 시스템이 환경 변화에 맞게 조정된 후의 기능적 및 비기능적 동작은 허용됩니다. - 이것은 자동화된 회귀 테스트의 형태로 구현될 수 있습니다. • 시스템을 적응하는 데 걸리는 시간이 수용 가능합니다. • 시스템을 적응시키는 데 사용되는 자원이 수용 가능합니다. 🞈 진화 • 시스템은 자체 경험에서 학습합니다(효율적이고 효과적으로). • 개념 드리프트에 직면했을 때 시스템이 관련 기준을 충족합니다. 수락 기준 - 자율성 🞈 시스템이 (완전히 자율적인) 작동 범위를 벗어나면 예상대로 응답합니다. • 예. 심각하게 비정상적인 일이 발생하면 제어권을 다시 인간 컨트롤러로 넘깁니다. 🞈 시스템이 완전히 자율적이어야 할 때 사람의 개입을 요청하도록 "설득"할 수 없습니다. • 예. 시스템은 실제로 제어를 다시 전달해야 할 때까지 자율적으로 유지됩니다. 수락 기준 – 확률론적 및 비결정론적 시스템 🞈 확률론적 및 비결정론적 시스템에 대한 수락 기준은 정의하기 어려울 수 있습니다. • 승인 기준을 정확하게 문서화해야 합니다. 🞈 이러한 시스템이 올바르게 작동하는 경우에도 허용 기준은 시스템이 실행될 때마다 약간 다른 결과를 반환하는 것을 고려해야 합니다. • 이로 인해 회귀 테스트가 실패할 수 있습니다. • 허용 기준에 허용 오차를 포함해야 할 수 있습니다. 수락 기준 – 부작용 및 보상 해킹 🞈 부작용 • 시스템이 테스트 케이스로 잠재적으로 유해한 부작용을 일으키도록 시도하면 성공하지 못합니다. 🞈 보상 해킹 • 테스트 중인 지능형 에이전트에 대해 성공을 측정하는 다른 수단을 사용하는 독립적인 테스트는 보상 해킹을 식별할 수 없습니다. - 예를 들어 성공의 테스트 척도는 에이전트의 보상 기능과 다릅니다. 수락 기준 – 윤리 및 안전 🞈 윤리 • 시스템이 윤리 체크리스트에 대한 모든 검사를 통과합니다. - 예를 들어 신뢰할 수 있는 인공 지능에 대한 윤리 지침에 설명된 주요 요구 사항을 지원하는 신뢰할 수 있는 인공 지능에 대한 EC 평가 목록 🞈 안전 • 시스템이 잠재적인 피해를 유발하도록 강제하는 테스트는 성공하지 못합니다. - 이러한 테스트는 종종 가상 테스트 환경에서 실행됩니다. 수락 기준 – 부적절한 편향 🞈 편향이 없는 독립적인 테스트 스위트를 사용한 테스트에서 편향이 없음을 보여줍니다. 🞈 테스트 결과는 결과를 인구 조사 데이터와 같은 외부 데이터와 비교할 때 추론된 변수로부터 편향이 없음을 나타냅니다(이를 외부 유효성 테스트라고도 함). 🞈 해당 분야 전문가의 리뷰는 편견이 없음을 확인합니다. 수락 기준 – 투명성, 해석 가능성 및 설명 가능성 🞈 해석 가능성 • 사용자(또는 유사한 배경을 가진 사람)는 기본 기술을 이해하고 있음에 동의합니다. 🞈 설명 가능성 • 사용자(또는 유사한 배경을 가진 사람들)는 입력 변경이 시스템 출력에 어떤 영향을 미치는지 명확하다는 데 동의합니다. 🞈 투명성 • 리뷰는 알고리즘 및 데이터 세트에 대한 전체 문서에 쉽게 액세스할 수 있음을 나타냅니다(문서가 구현과 일치함). ML 시스템 문서화 🞈 ML 시스템을 문서화하기 위한 표준이 없습니다. • 각 시스템에 대해 이상적으로 유사한(그리고 포괄적인) 정보를 기록하고 제공해야 합니다. 🞈 ML 문서화 이니셔티브 • 데이터세트용 Microsoft 데이터시트 • Google 모델 카드 • IBM 자료표 • ML 소개 - 기계 학습 수명주기의 이해 및 투명성에 대한 주석 및 벤치마킹 - Partnership on AI에서(전 세계 94개 파트너) ML 시스템에 대한 일반적인 문서 🞈 일반 • 식별자, 설명, 개발자 세부 정보, 하드웨어 요구 사항, 라이센스 세부 정보, 버전, 날짜 및 연락처 🞈 디자인 • 가정 및 기술적 결정 🞈 사용법 • 1차 사용 사례, 일반 사용자, 2차 사용 사례, 자가 학습에 대한 접근 방식, 알려진 편견, 윤리적 문제, 안전 문제, 투명성, 결정 임계값, 플랫폼 및 개념 드리프트 🞈 데이터 세트 • 기능, 수집, 가용성, 사전 처리 요구 사항, 사용, 콘텐츠, 레이블 지정, 크기, 개인 정보 보호, 보안, 편향/공정성 및 제한/제약 🞈 테스트 • 테스트 데이터 세트(설명 및 가용성), 테스트의 독립성, 테스트 결과, 테스트에서 견고성, 설명 가능성, 개념 드리프트 및 이식성을 해결한 방법 🞈 교육 및 ML 기능적 성능 • ML 알고리즘, 가중치, 유효성 검사 데이터 세트, ML 기능 성능 메트릭 선택, ML 기능 성능 메트릭에 대한 임계값 및 실제 ML 기능 성능 메트릭 AI 기반 시스템 테스트를 위한 주요 문서 영역 🞈 시스템의 목적 🞈 기능 및 비기능 요구사항 🞈 아키텍쳐 및 디자인 정보 • AI 및 비 AI 구성 요소의 통합 테스트 지원 • 시스템의 화이트 박스 테스트를 위한 기반 제공 🞈 운영 환경 사양 테스트 기반 제공 • 시스템 자율성, 유연성 및 적응성 테스트 지원 🞈 입력 데이터 – 소스 및 메타데이터 • 테스트 기능 정확성 지원 • 부적절한 편견에 대한 테스트 지원 • 시스템 유연성 테스트 지원 🞈 운영 환경 변화에 대한 적응 프로세스 • 시스템 적응성 테스트 지원 🞈 예상 사용자 • 대표적인 테스트를 보장하기 위해