요즘 미국유학에 대해서 질문하시는 분들이 있고해서 제가 "통계 분석 연구회" 카페에 올린것을 혹시 도움이 될까해서 이곳에도 올립니다. 자세한 질문이 있으시면 연락주시기 바랍니다.
---------------------------------------------------------------------------------------------------
한 5-10년전부터 R이 대세가 되고 SAS는 많은 대학에서 쓰지도 않는 경향이 생기면서SAS를 더이상 쓰지않는 회사들이 많이 생긴것은 사실인것 같습니다. 그렇다고 지금 대세를 따라서 R만 배운다고 좋은 직장에 취직한다는것이 보장이 될수있는지는 모르겠습니다.
한국사정은 잘 모르겠고 우선 미국취업시장을 제가 아는데로 써보면 이렇습니다. 그래서 미국시장에 관심이 전혀없는 분들은 제 이글을 읽으실 필요는 없겠습니다.
우선 경제학의 제일 기본이 되는것이 수요와 공급의 원칙이겠죠. 1980년대에 PC 컴퓨터가 많이 발달이 안되었을때는 새로운 Software를 만들기 위해서 C
Programmer가 아주 많이 필요했고, Computer Science 전공자들은 졸업과 동시에, 아니 졸업도 하기전에 좋은 직장을 아주 쉽게 얻을수 있었습니다. 그러다가 1990년대 중반에 와서는 왠만한 Software들이 만들어지고 그 많은 CS 전공자들이 취직이 힘들어 졌습니다. 그렇다고 Software개발을 하는 회사가 없어지고 전혀 C Programmer가 필요없었던 것은 아니지만, 각 대학마다 부리나케 만든 CS과에서 매년 수없이 많이 졸업하는 CS 전공자들을 다 수용할만한 시장이라고 보기에는 너무나도 시장이 작아진것이죠. 결국 공급은 많이 늘었는데 수요는 오히려 적어진것이죠.
SAS 시장은 어떤가요? 1980년대 컴퓨터 PC가 발달하면서 SAS가 진가를 발휘하시 시작했죠. IBM Mainframe에서 PL1으로 만든 SAS를 80년대 PC-SAS를 만들면서 C
Language로 다시 코드를 만들다가 6.12부터는 아에 모든 SAS platform에서 PL1은 없어졌습니다. 1990년초까지만해도 제약회사들이 SAS 회사의 주 고객이었고, 결국 거의 100%의 제약회사에서 Production work은 SAS로 하게되었습니다. 그이후에 SAS회사에서 좀더 시장을 넓히려고 많은 SAS
module들을 만들기 시작하고 제약회사뿐이 아니라 다른 분야에서도 쓰게 되었습니다. Finance 분야에서 아에 SAS로 만든 reporting system을 쓰게 되었고,
HighTech 회사들도 쓰곤했습니다. R이 처음 나왔을때도 사실 SAS회사는 별로 걱정을 하지 않았던것 같습니다. 우선 Open Source code이고 Tech Support가 거의 없는 R을 제약회사에서 쓴다는것은 거의 불가능했으니까요. 그렇지만 그렇게 많이 새로만든 Module들을 팔려고 했지만 제대로 손님을 찾지 못하고 돈과 시간 낭비를 한것같습니다. 하지만 큰 문제는 제약회사이외의 회사들이, 특히 Internet관련 회사들이 R을 쓰기 시작하고 가뜩이나 교육예산이 줄어드는 상황에서 대학들이 비싼(?) SAS를 쓰기보다는 공짜인 R만 쓰게 되면서 많은 회사들이 젊은사원들을 채용할때 R user들에만 관심을 갖게 된것같습니다.
그러면 SAS Programmer들의 미래는 어떨까요? 네, 수요자체가 거의 몇 Finance 회사와 제약회사로 국한되어가고 있는것은 사실인것 같습니다. 하지만 공급을 보지요. 회사에서는 Senior programmer도 필요하지만 Junior Programmer도 똑같이 필요합니다. 그러면 어디서 Junior Programmer을 찾을수있을까요? 더이상 SAS를 쓰는 학교가 많지않습니다. 설상 있다고 하더라도 갓좋업한 학생들이 R을 쓰는 인기있는회사에 갈려고 하고 SAS를 쓰는 회사에 안갈려고합니다. 그러다보니 요즘 제가 제 Network를 통해서 들은 얘기로는 젊은 Junior Programmer를 더이상 찾기 힘들다는 것입니다. 제가 SAS가 더 좋다, R이 더좋다…얘기 하는것이 아니라 어떻하면 젊은이들이 좋은 직장을 찾을수있느냐는 것이 저의 관점입니다.
제가 말씀드리고 싶은것은 인기와 대세를 따라 가는것도 좋지만 오히려 잠깐 다시한번 생각해보는것도 좋을것 같습니다. R User들이 요즘 기하급수적으로 늘어나지만 잘 생각해보면 공급이 너무 늘어나는것이 아닌가 생각해봅니다. 오히려 SAS user로서 남는것이 틈새공략하는 방법이 아닐까요? R이나 SAS나 앞으로는 그저
Programmer title로만은 버티기 힘들고 자기분야를 잘이해하면서 R이던 SAS던 한두가지의 tool을 잘 쓰는것이 최선이라고 생각같습니다. 사실 SAS Programmer라고 부르지만 coding만 하는
Programmer는 아니지요. R도 R user라고 하지 R
programmer라고는 하지않죠?
어쨋던 혹시라도 제약회사에서 주로 SAS를 쓰면서 (앞으로 R로 안바꾼다는 보장없으니 R도 알면 좋겠죠) 신약개발프로잭트로 평생직을 선택하실분들을 위해서 제가 조언을 아래와 같이 드립니다. Statistical Programmer를 위한것이고 Biostatistician은 조금 틀립니다.
1. SAS – 초보자를 뽑으면서 SAS 전문가를 원하지 않습니다. Hiring manager가 SAS를 처음부터 가르치지 않아도 되는 정도면 다른 사람들의 코드를 보고 배울수있읍니다. SAS Base와 SAS Advance certification정도를 가지고 계시면 충분할것같습니다.
Clinical Trial programmer를 위한것도 있던데 시간이 있으면 받으면 도움이 되겠죠. 하지만
certification 자체가 취업을 보장하는것은 절대로 아닙니다.
2. 통계 – Biostatistician이 되는것이 아니라면 박사는 절대필요없고, 최소한 석사를 가져야 미국에서 working
visa를 받을수있으니 석사를 추천합니다. 필요한 통계지식은 아주 보편화된것만을 써야하기 때문에 절대로 너무 어려운 학교에 가서 회사에서 쓰지도 않을 필요없는(?) 이론만 배우느라고 시간과 돈낭비할필요가 전혀 없습니다. 석사정도의 지식이면
SP(Statistical Programmer)로서 일을 하기에 전혀 문제가 없습니다. 가장 등록금과 생활비가 싸고 쉽게 학위를 받을수있는 학교면 좋습니다. 어떤곳은 1년만에 끝날수있는곳도 있고 대개 2년이상 걸리지 않습니다.
3. CDISC – CDISC (Clinical Data Interchange Standards Consortium) 는 SDTM과 ADaM으로 크게 두가지가 있는데 SDTM은 FDA에 보낼때 raw data
로 취급하는데 각 다른 회사에서 어떻게 raw data를 만들던지 FDA에 보낼때는 SDTM format으로 만들어서 보내야합니다. 아주 전문가가 될것이 아니면 그저 어떻게 생겼고 대충 어떻게 쓰느냐를 알기만 하면 됩니다. ADaM은 SDTM으로 만든 analysis data인데 또한 FDA에 원하는 format으로 만들어야 합니다. Internet어디에선가 download를 하실수도 있지만 원하시는분한테는 제가 기본적인것을 보내드릴수도 있습니다. 매일 쓰는 데이타의 이름과 format들이 이런것이니 전혀모르는것 보다는 기초라도 알면 좋을것 같습니다.
4. Medical background – 사실 저도 medical terminology에 대해서는 전혀 문외한이라서 보통 간호과 과목인 Medical Terminology class를 한학기 들었습니다. 전문가가 될필요는 없지만 가장 기본적인 Oncology, Cardiac even, Lymphoma, 등등의 단어정도는 알면 참 도움이 됩니다.
5. 영어 – 영어를 쓰는 영업사원을 뽑는것이 아닙니다. 하지만 의사소통을 잘해야합니다. 사실 하루 8시간동안에 SAS를 쓰는시간보다 대화 (이메일, chat, 전화, 미팅, 등등)를 해야 할시간이 더 길수도 있습니다. 한가지 좋은것은 SP 분야는 거의 미국태생 백인들이 더이상 없고 유학생출신이나 이민자들이 많아서, 대부분 영어가 모국어가 아니라서 사실 영어자체에 부담감을 느끼는 사람들이 많습니다. 그러니 기죽지말고 얘기하는 버릇을 가지는것이 중요합니다.
6. 성격 – 워낙 Control Data 를 다뤄야 하기에 꼼꼼한 성격이 좋습니다. 우선 Sampling Data라는 관념이 없고 100% 데이타를 control해야합니다. 데이타 자체는 크지 않지만 모든 data point가 중요합니다. 우리가 자주 쓰는 단어 “대충” 이란것은 없습니다.
만약에 신약개발에 관심이 있고 Statistical Programmer로서 일하고 싶은분은 위의 6가지를 잘 읽어보시고 더 자세한것을 알고 싶으시면 연락주시기 바랍니다. 연봉과 Benefit이 다른직종보다 절대로 나쁘지않고 전문가로서 앞으로 아무리 못해도 20년이상 일할수있으리라 생각합니다.
첫댓글 잘 보고 갑니다. 2000년대 초반에 이 글을 봤었다면 목표의식이 강했을텐데 하는 생각이 듭니다.
2000년대 초에는 저도 사실 이런글을 쓸만한 지식과 경험이 없었겠죠. ㅎㅎ
전문분야에서 조언을 해주셔서 많은 이들에게 도움이 되었으리라 생각됩니다. 어느 분야든 '틈새시장'을 공략하는 것이 중요한데...그런면에서 자극이 되는 좋은 글 감사드립니다^^
지나가다가 질문한가지만 드리고 싶습니다!위에 쓰신 이야기가 biostatistician과는 관련이 없고 이분야는 박사까지 해야한다는 말씀이신것 같은데 그 이유에 대해서 간단히라도 들을수 있을까요?!
미국에서는 SP와 Biostat의 job description이 많이 틀립니다. 제 경험으로는 석사학위 biostat들도 아주 잘하는사람이 많은데, 박사를 추천하는것은 몇가지 이유가 있습니다. 우선은 20-30년전보다 석사가 흔해지면서 석사로서는 통계학적 전문가의 입김(?)이 약해졌다고 볼수있죠. 사실 회사로서는 FDA의 counterpart의 respect가 필요한데 석사면 우선 무시하는경우가 있습니다. 하지만 사실 연구원도 아니고 임상시험할때 biostat으로서는 그리 깊이있는 통계를 안씁니다. 아주 특별한경우빼고는. 그래도 회사 경영진으로서는 박사만 고집하는경우가 많죠. 그러니 석사로 biostat으로 성공하기는 훨씬 어렵다고 보시면 됩니다.
선생님, 오래 전 글이지만 최근에서야 SDTM을 접하게 되어 위 게시글도 읽게 되었습니다.
조언 3번 관련해서 SDTM 관련 자료를 요청 드리고 싶은데 가능할까요? IG만 읽고 서는 이해가 잘 안되는 것이 많아서.. 결과물을 보고 매칭하면서 보는게 이해하기 더 쉬울 것 같다는 생각이 듭니다.
아! 벌써 4년이 넘은 글을 읽으셨군요. 대단 하시네요. SDTM을 쓰시기 시작했다고 하셨으니 임상시험프로젝트에서 일하실 가능성이 많다고 보는데요. 그런가요? SDTM자료가 사실 많은 자료가 그렇듯이 각회사의 임상시험 자료를 보관하는 상태라서 실지로 일을하지 않으면 접하기가 쉽지않습니다. 제가 올려놓은 예가 있을텐데 찾아보세요. 그리고 요즘은 글을 잘 올리지 않지만 다른 카페 (통계분석연구회 (SAS-Statistics Analysis Study) "통계 진로정보"난에 2018년에 쓴글들이 꽤 있으니 읽어보시고요. https://cafe.daum.net/statsas/KqTP/546 에는 제가 첨부자료도 올려놨습니다. 그런데 준회원으로는 글을 다 읽을수 없을테니 정회원으로 신청을 하시면 좀더 자세한 글들을 읽으실수 있을겁니다.
@SASMaster 로컬 CRO에서 DM/STAT을 하고 있어요. 최근에 SDTM과 ADaM도 내부적으로 업무 개발해보려고 한창 진행중이랍니다. "CDISC ADaM을 위한 SDTM example" 게시글에 첨부자료가 있었네요! 참고해 보겠습니다. 답변 감사드립니다.
그리고 이전에 게시해주신 CDISC 관련 글 최근에 반복해서 읽어보고 있는데, 말씀해 주신 내용들 정말 와닿아서 최근 이 업무 하면서 힘들었는데... 다시 마음 다 잡았네요. 위로가 되었습니다..ㅠㅠ
@통계병아리 어? 준회원이신데 글을 다 읽을수가 있어요? 정회원이 되시면 더 많은 계시판을 이용하실수있을겁니다
참고로 하실것은 미국에서도 모든 회사가 CDISC를 언제나 쓰지는 않는다는것인데 P1 P2같이 확실치 않은 임상시험들은 돈과 시간을 많이 써서 CDISC로 완전히 바꾸지않고 CDISC-alike 정도의 수준으로 우선 하다가 결과가 좋게나오면 완전히 CDISC로 바꿔서 FDA에 submission합니다.
@SASMaster 선생님 재밌는 말씀 감사합니다. 돈과 시간의 효율성을 고려해서 P3까지 좋은 결과가 나오는게 중요한걸 생각하지 못했네요. 이런 흐름?을 아는게 정말 재밌는 것 같아요!
앗 그리고 궁금한게 SDTM은 EDC dataset을 SDTM으로 transformation하고 ADaM은 SDTM dataset을 transformation하나요? 단순히 생각했을 때, ADaM도 EDC dataset에서 생성하는 것이라 생각했는데 맞는지 궁금합니다.
@통계병아리 ADaM data를 EDC data 에서 직접 만들수는 있지만 잘 정리되어있는 SDTM을 하는것이 백배 좋은 생각이죠. P1 P2 에서 SDTM 없이 만드는것은 그냥 analysis data라고 하면서 주로 회사 안에서만 씁니다. 하지만 보통 validation 은 하지요.
그렇죠, 필요없는것에 돈을 다 쓰면 결국 P3를 통과 시킬려는 돈이 없을수 있겠죠, 아무리 결과가 좋아도
@SASMaster 선생님 답변 감사드립니다. 답변 주신 내용 중 validation은 어떤 의미인가요? rawdata-analysis data 간의 일치성을 확인하는 것으로 이해하는 것이 맞을까요?
@통계병아리 제가 Validation에 대해서 글을 곧 쓰겠습니다. 그런데 아직도 준회원이신가요?
@SASMaster 게시글 기다리겠습니다!! 네 아직 준회원입니다.. 카페지기님께 등업을 요청해야겠어요 ㅎㅎ