|
데이터레이블러라는 직업이있습니다.
인공지능에게 현실세계를 학습시키기위한 일입니다.
인공지능이 개와 고양이를 구분하고 승용차와 버스를 구분하게 할 수 있는 데이터베이스를 만드는 일입니다.
인형에 눈달기, 피자상자 접기와 같이 디지털 시대의 '노가다' 랍니다.
[Weekender] The mundane job of teaching AI about the real world
(주말판) 인공지능에게 현실 세계를 가르치는 평범한 일
AI era gives rise to part-time workers helping machine learning algorithms become smart
AI 시대에 머신러닝 알고리즘이 현명해지도록 도와주는 시간제 일자리가 증가
By Choi Jae-hee 최재희 기자
Published : Aug 20, 2022 - 16:01 Updated : Aug 20, 2022 - 16:01
Korea Herald
Tech evangelists say artificial intelligence and robots will one day liberate humans from simple and repetitive physical or cognitive tasks.
테크 전도사들은 인공지능과 로봇이 언젠가는 인간을 단순하고 반복적이거나 인지적인 업무에서 해방시킬 것이라고 말한다.
But before we are all freed from the tedium of such chores, AI first needs an army of patient workers to teach it the subtleties of the real world, such as how to differentiate between a cat and a dog.
그러나 우리 모두가 그런 잡일의 지루함에서 벗어나기 전에 인공지능은 먼저 개와 고양이를 구분하는 것과 같은 현실 세계의 미묘함을 가르쳐줄 인내심 있는 많은 노동자들을 필요로 한다.
Known as data labelers or data annotators, these workers handle large amounts of raw data, made up of images, videos or audio recordings, and label them to be fed into machine learning algorithms.
데이터 레이블 또는 데이터 주석자로 알려진 이 작업자들은 이미지, 비디오, 음성녹음으로 구성된 대량의 원시 데이터를 처리해서 기계 학습 알고리즘에 입력되도록 라벨을 붙인다.
Only after it is trained by a sufficient amount of labeled data -- think thousands of images of felines of different breeds, colors and sizes, each tagged as a cat -- can the AI distinguish a cat on its own.
충분한 양의 레이블된 데이터에 의해 교육을 받은 후 각각 고양이로 태그된 다양한 품종, 색상, 크기의 고양이 수천 개의 이미지를 생각해 본 후 인공지능은 자체적으로 고양이를 구분할 수 있다.
Since January, 45-year-old homemaker Yang Jung-yeon has worked as a part-time data labeler, spending hours at home marking images for the AI using her smartphone or computer.
1월이후 45세의 가정주부 양정연씨는 집에서 스마트폰이나 컴퓨터를 사용해서 이미지에 마킹을 하는 시간제 데이터 레이블러로 일하고 있다.
“It‘s similar to when we read kids a picture book. We usually point out specific things and add explanations to help children understand,” Yang told The Korea Herald.
“이것은 아기들이 그림책을 보는 것과 비슷하다. 우리는 특정한 물건을 지적하고 아이들이 이해할 수 있도록 설명을 덧붙인다.” 고 양씨는 코리아헤럴드에 말했다.
For example, on a picture of a road, she marks every car she sees and adds a tag to denote that they are vehicles. For each image, she gets paid up to 1,000 won ($0.76).
예를 들면 길사진에서 모든 차량을 차량이라고 주석을 달고 있다. 각 이미지마다 그녀는 1,000원(0.76달러)을 받는다.
As simple as it sounds, the job is tedious and repetitive. While it does not require any special training, data labelers need to be attentive and able to sit in front of a screen for long periods.
단순하게 들리지만 그 일은 지루하고 반복적이다. 특별한 교육이 필요하지 않지만 데이터 레이블러는 주의를 기울여야 하며 장시간 동안 화면 앞에 앉아 있을 수 있어야 한다.
“Data labeling is a part-time job without special requirements, a perfect match for homemakers like me. I can work from my house with my smartphone or laptop. Also, the online platform for the labeling process isn’t that difficult to use,” said Yang, who previously worked as a hotelier until becoming a homemaker 10 years ago.
“데이터 레이블링은 특별한 자격요건이 필요없는 시간제 일자리이고 나 같은 주부에게 잘 맞는다. 나는 스마트폰이나 랩탑으로 집에서 일할 수 있다. 레이블링을 위한 온라인 플랫폼도 사용하기 어렵지 않다.” 고 10년전에 주부가되기전에 호텔리어로 일했던 양씨는 말했다.
Data labeling is critical for the development of any AI project. The process is applied not only to images but also to video and audio, according to AIMMO, a data labeling outsourcing agency.
데이터 레이블링은 인공지는 프로젝트를 개발하는 데 중요하다. 데이터 레이블링 아웃소싱 회사인 AIMMO에의하면 이 과정은 이미지는 물론 비디오와 오디오에도 적용된다.
Data labeling is what powers now-ubiquitous AI-based voice assistant services like Samsung Electronics‘ Bixby and Apple’s Siri and allows them to understand a variety of intonations and accents. To train voice-activated AI technology, data labelers add verbal explanations to every sentence spoken, AIMMO explains on its website.
데이터 라벨링은 현재 어디서나 볼 수 있는 삼성전자의 빅스비, 애플의 시리 같은 AI 기반 음성 비서 서비스에 힘을 실어주고 다양한 액센트와 억양을 이해할 수 있게 한다. AIMMO가 웹사이트에 설명한바에 의하면 인공지능을 활용한 소리를 교육시키기 위해 데이터 레이블러는 이야기하는 모든 문장에 구두설명을 첨가한다.
‘Nogada’ of the AI era
인공지능시대의 ‘노가다’
As of 2021, there were 1,481 data labelers across the nation, according to data from Statistics Korea, and 1.07 million people who said they were interested in working in the field, up from 650,000 in 2020.
통계청에 의하면 2021년 현재 국내에 1,481명의 데이터 레이블러가 있고, 2020년에는 650,000명, 현재는 17만명이 이 분야에서 일하고 싶다고 말했다.
According to a 2019 report by AI crowdsourcing platform CrowdWorks, more than half of data labelers in the country had taken the job as a way to make a supplementary income. More than 80 percent were salaried workers.
인공지능 클라우드 소싱 플랫폼인 클라우드 웍스의 2019년 보고서에 의하면 우리나라 데이터 레이블러의 반이상이 부수입원으로 이 일을 하고 있다. 80% 이상이 봉급생활자였다.
This is why data labelers are called the “nogada” of the digital era. Nogada, meaning manual laborers, usually refers to casual labor at construction sites but can also be used for homemakers earning extra cash by attaching plastic eyes to stuffed dolls or folding pizza boxes.
이것이 데이터 레이블러들이 이 디지털시대의 “노가다”로 부르는 이유이다. 노가다는 건설현장의 육체노동자를 의미하지만 피자상자를 접거나 봉재인형에 플라스틱 눈을 달아서 과외 현금수입을 버는 주부들을 말하기도 한다.
According to Altovision, a company specializing in creating training datasets for AI, data labelers, who mostly work as freelancers or contract workers, earn a median hourly wage of 17,000 won, in a country where the current minimum wage is 9,160 won.
인공지능을 위한 교육용 데이터세트를 만드는 전문회사인 알토비존에 의하면 프리랜서 또는 계약직으로 일하고 있는 데이터 레이블러는 우리나라의 최저임금이 9,160원인데 시간당 평균 17,000원의 보수를 받는다.
Demand for data labeling work will increase as the application of AI in business and everyday life continues to grow, said Oh Joo-yang, a director at Altovision.
비즈니스목적의 인공지능을 위한 데이터 레이블링은 증가할 것이고 일상생활도 증가할 것이라고 오주양 알토비존 이사는 말했다.
“Despite increased workplace automation, some jobs are still better performed by humans. It is humans who can teach machines how to think and behave. Data processed and labeled by humans is the lifeblood of AI,” said Oh.
“증가하고 있는 사업장 자동화에도 불구하고 일부 업무는 아직도 사람이 수행한다. 기계에게 생각하고 행동하는 것을 가르칠 수 있는 것은 인간이다. 인간이 처리하고 라벨을 붙인 데이터는 AI의 생명줄이다.” 라고 오이사는 말했다.
Korea‘s Science and ICT Ministry has created the “Data Dam,” an initiative that is fueling the growth of related industries.
과학기술정보통신부가 성장을 촉진하는 “데이터 댐”을 만들었다.
Launched in 2020 as part of the country’s Digital New Deal, the project made data collected from public and private networks available to train AI models across eight key business areas, including self-driving vehicles and healthcare.
2020년 우리나라의 디지털 뉴딜의 일환으로 자율주행, 보건 등을 포함한 8개 핵심분야의 인공지능모델을 교육시키는 공적/사적 네트워크로부터 자료를 수집하고 있다.
To help utilize the data for AI development, the National Information Society under the ministry has launched a financial support program for local tech startups to collect and label data.
인공지능 개발을 위한 데이터 활용을 돕기 위해 정통부 산하 국가정보학회는 국내 기술 창업자들이 데이터를 수집하고 라벨을 붙일 수 있도록 재정 지원 프로그램을 시작했다.
The government assistance for each participating company ranges from 1.3 billion won to 5.2 billion won, depending on the size and type of the data. The refined datasets for AI are provided on the government agency‘s open data portal AI Hub.
개별 참여회사에 대한 정부의 지원은 데이터의 크기와 형태에 따라 13억원에서 52억원 사이였다. 인공지능을 위해 가공된 자료는 정부 기관의 오픈 데이터 포털 AI 허브에서 제공된다.
The Data Dam initiative also provides government funding to small- and medium-sized enterprises and venture startups developing AI-based products, such as virtual fitting programs.
데이터 댐 이니셔티브는 또한 가상 피팅 프로그램과 같은 AI 기반 제품을 개발하는 벤처 스타트 업과 중소기업에 자금을 지원한다.
Altovision’s Oh said data labeling is typical of a new form of employment that mobilizes a large pool of online workers for a certain project.
알토비전의 오이사는 데이터 레이블링은 일정한 프로젝트를 위한 온라인 노동자의 큰 풀을 가동하는 전형적인 새로운 고용형태이다.
Dubbed “crowd employment,” workers are asked to handle simple tasks that can be done independently through online platforms. The combined efforts of people scattered all over the world result in a specific output, like a wide pool of training datasets for AI.
“크라우드 고용”이라고 부르는 노동자들은 온라인 플랫폼에서 독립적으로 수행할 수 있는 단순작업을 수행한다. 전세계에 흩어져 있는 사람들의 통합된 노력은 거대한 인공지능의 교육 데이터세트 같은 특별한 경과물을 만든다.
Currently, most crowd workers are part-timers who want side jobs to earn extra money. But this could change in the future, according to Oh.
현재 대부분의 크라우드 노동자는 부수입을 얻기 위한 임시계약직원이다. 그러나 오이사에 따르면 미래에는 이것이 바뀔 수 있다.
“I‘ve seen a crowd worker whose main job is a data labeler. He has worked at different tech startups for more than three years. Crowd work could become a main occupation in the near future, especially among digital-savvy, young people,” he said.
“나는 자신의 직업이 데이터 레이블러인 크라우드 근로자를 보았다. 그는 다른 테크 스타트 업에서 3년이상 일했다. 크라우드 업무는 미래에 디지털에 능한 젊은이들 사이에서 주 직업이 될 수 있다.” 고 그는 말했다.
#데이터레이블러 #크라우드근로자 #인공지능교육 #데이터댐 #디지털뉴딜