기사 전문: https://www.hankyung.com/society/article/202101125514i
나는 개발자가 아니어서 정확히 깃허브가 어떤 곳인지 잘 몰라서, 기사 공유하신 트위터리안(개발자 추정)의 코멘트도 같이 첨부할게! 어떤 상황인지 파악하는데 도움이 될 것 같아서..
개인적으로 이름, 학교명, 지명같은 정보까지 확인할 수 있는 모델을(토크나이즈 해놓은 거에서 확인 가능) 오픈소스로 공개했다는게 정말 이해가 안 돼.
연애의 과학은 아니지만 텍스트앳 어플을 애용하던 사람으로서 내가 상대와 한 개인적인 대화에 포함되어있던 민감한 정보를 타인이 확인할 수 있다고 생각하면 너무 불안해져ㅠㅠ
유저 본인의 동의 뿐 아니라 대화에 포함되어있던 제3자인 상대방의 동의도 없이 이렇게 제대로 필터링도 안 된 내 데이터로 학습한 모델을 막 공개하는 게 맞나 싶네..
문제시 부드럽게 알려줘! 바로 수정할게(막이슈에 글쓰는거 처음이라 떨린다ㅠ)
+) 추가
1. 오픈소스로 공개된 모델이 있으면 개인이 이루다와 유사한 챗봇을 다시 만드는 것도 어렵지 않나봐. 실제로 루다를 되살리겠다는 사람도 있었고.
공개된 지 이미 4개월이나 지나서 상당수 사람들이 소스를 받았을 것으로 추정된대.
2. 관련 기사나 정보 찾아보니까, 데이터셋(카톡 대화 원본)을 공개한 게 아니라 그 데이터로 만들어낸 모델을 공유한 것 같아. 데이터셋이 아니라 모델만 공유했다고 해도 개인정보 필터링이 안 된 상태로 학습된 모델이니까 충분히 문제의 소지가 있어!
예를 들어,
데이터로 사용한 대화에 있던 정보가 충분히 필터링 되지 않은 상태니까 이런 식으로 이름, 주소, 계좌 등 민감한 개인정보가 유출된다는 문제가 있어..
첫댓글 연애 자체를 이제못할듯
진짜 미친놈들이네
언어처리 분야에서 일하는데, 보통 깃허브는 프리 라이센스 소스코드를 올리는 곳임.
소스코드 올리면 사용자가 직접 실행해보거나 응용할 수 있는거지
근데 소스코드도 아니고 완성된 결과물인 데이터셋+모델파일을 올렸다? 그러면 웬만큼 관심있는 사람들은 저거 가지고 놀 수 있는 거임
진짜 아무리 생각해도 화나네 누구는 매일매일 눈빠지게 데이터 정제하고 하는데 저런 놈들은 대충 데이터셋 대량으로 때려박고 언플해서 돈 벌 생각하고...
@연어거슬러올라가 어떤 부분.....?
미쳤냐 텍스트앳 데이터도 다 포함됐겠지 진짜ㅋㅋ몇년전 데이터를 사용자한테 알리지도 않고 공개하냐?
저 대표란 사람은 앞으로 일반인 데이터 모으는거 안해야됨 남의 사생활 도둑질 하는게 보통 상식이냐
소스만 올린게 아니라 데이터셋까지 올렸다고...?? 진짜 미쳤나
쉴드쩌네
삭제된 댓글 입니다.
@연어거슬러올라가 엉 저 모델만 있으면 살리는 게 어렵지 않아 하루면 살릴걸 ㅋㅋ
나 ㄱㅆ인데 이거 본문에 추가해도 될까??? 완전 알못이라 오픈소스로 이런 게 가능할지 몰랐네
@연어거슬러올라가 그냥 이루다 챗봇 자체를 되살릴 수 있지... 데이터셋 전량 공개면 개인특정화 될 수 있는 데이터를 서치하면 바로 털리는 거 ㅇㅇ
아니 왜 저러는 거야????? 대체 뭔 사고회로로 남의 사생활 데이터를
미친거아님?
진짜 사고 제대로 쳤는데 지들만 모르나봐 사과하면 끝임? 다들 고소해서 제대로 처벌 받길 그냥 넘어가면 또 슬금슬금 다시 기어나오겠지
보통 깃헙에 데이터셋은 안올리는데..
ㄱㅆ 내용 추가했는데 데이터셋(카톡대화 원본)이 아니라 그 데이터로 학습한 모델을 올린거래! 근데 그 모델도 필터링되지 않은 데이터로 학습해서 대화 과정에서 이름, 주소, 계좌 등 개인정보가 유출되는 문제가 있어
깃헙에 그걸 왜올려?? 진짜 소송감인데
집단소송감임
나 연과 카톡대화 제출한적있음...
나도...ㅅㅂ...어케되는 거야...
진짜 장난하나 얘네?
와 나 7년전에 텍스트앳 쓴적 있는데....오밤제
ㅁㅊ
시발 나 좆됐다 ..
삭제된 댓글 입니다.
비밀글 해당 댓글은 작성자와 운영자만 볼 수 있습니다.21.04.27 17:37