수락 기준 및 ML 시스템 문서화
위험, 목표 및 수락 기준
🞈 가장 중요한(가장 위험이 높은) 시스템 특성은 생성에 사용됩니다.
다음을 포함한 AI 기반 시스템에 대한 테스트 목표 및 승인 기준:
• 유연성, 적응성 및 진화
• 자율성
• 확률론적 및 비결정론적 시스템
• 부작용 및 보상 해킹
• 윤리 및 안전
• 부적절한 편견
• 투명성, 해석 가능성 및 설명 가능성
허용 기준 - 유연성, 적응성 및 진화
🞈 유연성
• 초기 사양 이외의 컨텍스트에서 시스템 동작은 허용됩니다.
- 이것은 자동화된 회귀 테스트의 형태로 구현될 수 있습니다.
• 시스템이 새로운 컨텍스트를 관리하기 위해 자체적으로 변경하는 데 걸리는 시간과 사용된 리소스가 허용 가능합니다.
🞈 적응성
• 시스템이 환경 변화에 맞게 조정된 후의 기능적 및 비기능적 동작은 허용됩니다.
- 이것은 자동화된 회귀 테스트의 형태로 구현될 수 있습니다.
• 시스템을 적응하는 데 걸리는 시간이 수용 가능합니다.
• 시스템을 적응시키는 데 사용되는 자원이 수용 가능합니다.
🞈 진화
• 시스템은 자체 경험에서 학습합니다(효율적이고 효과적으로).
• 개념 드리프트에 직면했을 때 시스템이 관련 기준을 충족합니다.
수락 기준 - 자율성
🞈 시스템이 (완전히 자율적인) 작동 범위를 벗어나면 예상대로 응답합니다.
• 예. 심각하게 비정상적인 일이 발생하면 제어권을 다시 인간 컨트롤러로 넘깁니다.
🞈 시스템이 완전히 자율적이어야 할 때 사람의 개입을 요청하도록 "설득"할 수 없습니다.
• 예. 시스템은 실제로 제어를 다시 전달해야 할 때까지 자율적으로 유지됩니다.
수락 기준 – 확률론적 및 비결정론적 시스템
🞈 확률론적 및 비결정론적 시스템에 대한 수락 기준은 정의하기 어려울 수 있습니다.
• 승인 기준을 정확하게 문서화해야 합니다.
🞈 이러한 시스템이 올바르게 작동하는 경우에도 허용 기준은 시스템이 실행될 때마다 약간 다른 결과를 반환하는 것을 고려해야 합니다.
• 이로 인해 회귀 테스트가 실패할 수 있습니다.
• 허용 기준에 허용 오차를 포함해야 할 수 있습니다.
수락 기준 – 부작용 및 보상 해킹
🞈 부작용
• 시스템이 테스트 케이스로 잠재적으로 유해한 부작용을 일으키도록 시도하면 성공하지 못합니다.
🞈 보상 해킹
• 테스트 중인 지능형 에이전트에 대해 성공을 측정하는 다른 수단을 사용하는 독립적인 테스트는 보상 해킹을 식별할 수 없습니다.
- 예를 들어 성공의 테스트 척도는 에이전트의 보상 기능과 다릅니다.
수락 기준 – 윤리 및 안전
🞈 윤리
• 시스템이 윤리 체크리스트에 대한 모든 검사를 통과합니다.
- 예를 들어 신뢰할 수 있는 인공 지능에 대한 윤리 지침에 설명된 주요 요구 사항을 지원하는 신뢰할 수 있는 인공 지능에 대한 EC 평가 목록
🞈 안전
• 시스템이 잠재적인 피해를 유발하도록 강제하는 테스트는 성공하지 못합니다.
- 이러한 테스트는 종종 가상 테스트 환경에서 실행됩니다.
수락 기준 – 부적절한 편향
🞈 편향이 없는 독립적인 테스트 스위트를 사용한 테스트에서 편향이 없음을 보여줍니다.
🞈 테스트 결과는 결과를 인구 조사 데이터와 같은 외부 데이터와 비교할 때 추론된 변수로부터 편향이 없음을 나타냅니다(이를 외부 유효성 테스트라고도 함).
🞈 해당 분야 전문가의 리뷰는 편견이 없음을 확인합니다.
수락 기준 – 투명성, 해석 가능성 및 설명 가능성
🞈 해석 가능성
• 사용자(또는 유사한 배경을 가진 사람)는 기본 기술을 이해하고 있음에 동의합니다.
🞈 설명 가능성
• 사용자(또는 유사한 배경을 가진 사람들)는 입력 변경이 시스템 출력에 어떤 영향을 미치는지 명확하다는 데 동의합니다.
🞈 투명성
• 리뷰는 알고리즘 및 데이터 세트에 대한 전체 문서에 쉽게 액세스할 수 있음을 나타냅니다(문서가 구현과 일치함).
ML 시스템 문서화
🞈 ML 시스템을 문서화하기 위한 표준이 없습니다.
• 각 시스템에 대해 이상적으로 유사한(그리고 포괄적인) 정보를 기록하고 제공해야 합니다.
🞈 ML 문서화 이니셔티브
• 데이터세트용 Microsoft 데이터시트
• Google 모델 카드
• IBM 자료표
• ML 소개
- 기계 학습 수명주기의 이해 및 투명성에 대한 주석 및 벤치마킹
- Partnership on AI에서(전 세계 94개 파트너)
ML 시스템에 대한 일반적인 문서
🞈 일반
• 식별자, 설명, 개발자 세부 정보, 하드웨어 요구 사항, 라이센스 세부 정보, 버전, 날짜 및 연락처
🞈 디자인
• 가정 및 기술적 결정
🞈 사용법
• 1차 사용 사례, 일반 사용자, 2차 사용 사례, 자가 학습에 대한 접근 방식, 알려진 편견, 윤리적 문제, 안전 문제, 투명성, 결정 임계값, 플랫폼 및 개념 드리프트
🞈 데이터 세트
• 기능, 수집, 가용성, 사전 처리 요구 사항, 사용, 콘텐츠, 레이블 지정, 크기, 개인 정보 보호, 보안, 편향/공정성 및 제한/제약
🞈 테스트
• 테스트 데이터 세트(설명 및 가용성), 테스트의 독립성, 테스트 결과, 테스트에서 견고성, 설명 가능성, 개념 드리프트 및 이식성을 해결한 방법
🞈 교육 및 ML 기능적 성능
• ML 알고리즘, 가중치, 유효성 검사 데이터 세트, ML 기능 성능 메트릭 선택, ML 기능 성능 메트릭에 대한 임계값 및 실제 ML 기능 성능 메트릭
AI 기반 시스템 테스트를 위한 주요 문서 영역
🞈 시스템의 목적
🞈 기능 및 비기능 요구사항
🞈 아키텍쳐 및 디자인 정보
• AI 및 비 AI 구성 요소의 통합 테스트 지원
• 시스템의 화이트 박스 테스트를 위한 기반 제공
🞈 운영 환경 사양
테스트 기반 제공
• 시스템 자율성, 유연성 및 적응성 테스트 지원
🞈 입력 데이터 – 소스 및 메타데이터
• 테스트 기능 정확성 지원
• 부적절한 편견에 대한 테스트 지원
• 시스템 유연성 테스트 지원
🞈 운영 환경 변화에 대한 적응 프로세스
• 시스템 적응성 테스트 지원
🞈 예상 사용자
• 대표적인 테스트를 보장하기 위해