디지털 광고에 활용되는 데이터 유형을 살펴보기 전에 우리는 데이터의 종류부터 알고 넘어갈 필요가 있다. 그래야만 다음 절에서 다룰 데이터 수집의 원리와 구조 부분을 쉽게 이해할 수 있기 때문이다. 또한 데이터의 종류를 구분하는데 있어 데이터의 구조와 제약조건을 정의한 스카마의 개념에 대해서도 알아 둘 필요가 있다.
가. 정형 데이터
형식(대상)에 따라 구분되는 데이터 종류는 정형 데이터와 비정형 데이터가 있다. 정형 데이터(structured data)는 미리 정의된 형식이 있는 데이터를 의미한다. 따라서 정형 데이터는 스프레드시트(구글 시트, 엑셀)에서 형식을 지정하여 사용할 수 있다. 쉽게 설명하면, “데이터를 가져올 때 이런 형태로 가져와. 이런 형태 아니면 안 받아준다?”처럼 스키마를 철저히 따르는 데이터를 의미하며 명확한 구조와 제약 조건을 지켜야 하므로 데이터의 자유도가 낮을 수밖에 없다. 대표적으로 RDBMS에 들어가는 형태의 데이터가 여기에 속해 있다. 정형 데이터의 간단한 예시로는 주민등록번호를 생각할 수 있다. 주민등록번호는 생년월일, 성별 등의 자료를 종합하여 13자리 번호를 만들어 낸 것이고 우리는 이런 형태를 엄격하게 지켜야 한다. 12자리나 14자리 주민등록번호는 우리나라에서 존재할 수 없기 때문이다.
나. 비정형 데이터
비정형 데이터(unstructured data)는 미리 정의된 형식이 없고, 연산(calculation)이 가능하지 않은 데이터를 말한다. 비정형 데이터는 일반적으로 텍스트 중심으로 되어 있으나 “날짜에 따른 사건일지”와 같이 숫자 데이터도 포함될 수 있다. 인터넷, 페이스북, 카카오톡, 트위터 등의 사용자들이 상호 교류하는 과정에서 생산되는 대량의 정보, 즉 디지털 데이터가 여기에 속하는데 대개 텍스트, 영상, 음성 등의 형태로 나타난다. 참고로, 웹에 존재하는 데이터의 경우 html 형태로 존재하여 반정형 데이터로 구분할 수도 있지만, 특정한 경우 텍스트 마이닝을 통해 데이터를 수집하는 경우도 존재하므로 명확한 구분은 어렵다. 그래서 요즘은 이런 비정형 데이터를 정형 데이터처럼 처리하고자 하는 기술의 개발이 이슈이다. 예를 들어 이미지를 통한 검색, 라임을 통한 힙합 음악 검색 등의 기술들을 말하는 것이다.
다. 반정형 데이터
반정형 데이터 (Semi-Structured Data)는 명확한 스키마가 없다. 아예 스키마 자체가 없는 것은 아니지만 정형 데이터에 비해 데이터의 자유도가 높다고 볼 수 있다. 다시 말해서 정형 데이터와 대체로 비슷하지만, 모든 데이터가 완전히 동일한 구조를 할 필요는 없다는 것이다. 반정형 데이터의 대표적인 예시가 코딩해보신 분이라면 무조건 써보셨을 JSON 이다. json-> key-value 형태의 자료형이다. 예시를 보면, [ {"name":"jeong", "age":25}, {"name":"kim", "age":30, "email":"kim@0000.com"} ] 하나의 JSON 배열에 json object가 두 개 들어있는데, 두 개의 형태가 조금 다르다는 것을 알 수 있다. 이런 반정형 데이터는 때에 따라 정형이 될 수도, 비정형이 될 수도, 둘 다를 포함하는 경우 등 명확히 정의하기 애매한 경우가 많아서 현업에서는 데이터를 주고받을 때 변경된 포맷 정도로 생각하는 경우가 많다.
라. 양적 데이터 & 질적 데이터
척도에 따라 구분되는 데이터 종류는 양적 데이터와 질적 데이터가 있다. 질적 데이터에서 명목척도는 남자, 여자와 같은 질적 정의를 “남자=1”, “여자=2”처럼 수치화 시킨 것이다. 질적 데이터에서 순서 척도는 “일 인당 국민소득이 높은 나라 순위”처럼 순서를 수치화한 것이다. 양적 데이터에서 간격척도는 “온도”와 “시각”처럼 간격을 수치화한 것이다. 양적 데이터에서 비례 척도는 “비만도”처럼 기준에 대한 비례를 수치로 표현한 것이다.
마. 연속형 데이터 & 범주형 데이터
속성에 따라 구분되는 데이터 종류는 연속형 데이터(continuous data)와 범주형 데이터(categorical data)가 있다. 연속형 데이터는 키, 몸무게, 시간, 혈압, 경제성장률과 같이 연속적인 수치로 표현된 데이터이다. 정확한 값이 있는데 어떻게 연속형 데이터로 명명할 수 있는가 하고 의문을 가질 수 있지만 연속형 데이터는 아날로그라고 할 수 있다. 즉, 유한개의 숫자로는 표현이 안 되고 무한한 숫자로 표현해야 하는 데이터를 의미한다. 따라서 연속형 데이터는 구간(계급, bin, bucket)을 두어 범주형 데이터로 바꾸어 사용한다. 연속형 데이터를 측정한 값은 엄밀히 말하면 범주형 데이터로 바뀐 것이다. 범주형 데이터는 “나이”, “시험점수” 등과 같이 명확한 자릿수를 가지는 수치로 표현된 데이터이다. 범주형 데이터는 디지털이라고 할 수 있다. 즉 유한개의 숫자로 표현할 수 있다는 말이다.
바. 원시 데이터 & 가공 데이터
마지막으로 수집에 따른 데이터 종류도 있다. 원시데이터는 처음 수집한 데이터이다. 가공데이터는 1개 또는 다수개의 원시데이터에서 선택과 분리를 한 데이터를 말한다. 그리고 원시데이터나 가공데이터를 가지고 연산하여 나온 데이터도 가공데이터로 볼 수 있다. 정리하자면 원시 데이터들에서 많은 가공데이터가 만들어진다.
앞서 우리는 데이터의 종류에 대해 알아보았다면 이번에는 광고에 활용되는 데이터의 유형에 대해 알아보고자 한다. 최근 들어서는 데이터가 디지털 광고에서만이 아니라 CTV, DooH, 오디오라고 불리는 전통 광고에도 활용되기 시작했으므로 디지털 광고라고 국한할 수 없다. 우리가 사용하는 데이터는 인터넷 환경에서 넘쳐나고 있으며 DMP, CDP와 같은 플랫폼과 데이터 제공자(Data Provider)의 시스템에서는 수십억 개의 데이터를 수집하고 있다. 이후 다양한 규칙과 특정 활동을 통해 데이터를 통합하고 분석한 후 마케팅에 활용할 수 있도록 세그먼트화 한 뒤 플랫폼을 통해 광고에 이용하거나 비즈니스 개선에 사용하고 있다. 우리는 이때 사용하는 1자, 2자, 3자(1st party data vs 2nd party data vs 3rd party data)라고 불리는 데이터의 유형의 차이점을 살펴보고 이를 광고 전략에서 효과적으로 활용하는 알아보고자 한다.
가. 1자 데이터(first party data)
1. 1자(자사) 데이터는 광고주가 자체 소스에서 수집할 수 있는 모든 정보라고 보면 된다. 즉, 회사 웹사이트, 앱, CRM, 소셜 미디어, 설문조사 등 온라인 및 오프라인 소스에서 얻은 고객에 대한 모든 정보는 당사자 데이터이다. 1자 데이터에는 다음과 같은 정보가 포함될 수 있다.
반면, 광고주 브랜드가 잘 알려지지 않았고, 마케팅 활동을 비롯한 자사 데이터 수집 활동에 소극적인 광고주일 경우 자사 데이터만으로 잠재고객에 도달하는 것에는 한계가 있을 수 있다.
2. 자사 데이터를 사용 시 중요한 것은 광고주는 자사 데이터를 무료로 수집할 수 있지만 데이터를 소유한 회사(광고주)가 필요한 모든 고객의 동의를 받아야 한다는 것이다. GDPR 시대에는 이것이 매우 중요하다. 자사 데이터를 사용하면 사용자에게 개인화된 경험을 제공하고 관련 광고를 표시할 수 있으며 데이터 관리 플랫폼(DMP)을 사용하면 자사 데이터를 쉽게 분류하고 리타게팅(Retargeting) 광고 기법에 적용하여 다른 마케팅 활동 보다도 쉽게 수익을 창출할 수 있다. 추가로 광고주가 자사 데이터를 사용하면 얻을 수 있는 두 가지 이점은 아래와 같다.
자사 데이터를 수집하면 잠재 고객을 쉽게 파악하고 특정 그룹으로 나눌 수 있다. 웹 트래픽을 분석하고 특정 제품을 찾거나 스포츠나 자동차와 같은 특정 주제에 관심이 있는 잠재 고객을 만들 수 있다는 말이다. 이를 통해 고도로 개인화된 메시지를 작성하고 DSP와 같은 마케팅 솔루션에 만들어 진 잠재고객 데이터를 업로드 후 타겟 고객을 대상으로 광고를 집행한다면 쉽게 ROI를 높일 수 있다.
자사 데이터를 수집하면 데이터를 저장할 수 있을 뿐만 아니라 고객 프로필을 심층적으로 살펴볼 수 있는 기회도 얻을 수 있다. DMP와 같은 플랫폼을 사용하면 다양한 소스(웹사이트, 설문조사, 앱, 게임)에서 사용자에 대한 데이터를 통합하여 고객에 대한 전체적인 시각을 만들 수 있기 때문이다. 그 또는 그녀가 좋아하는 것, 싫어하는 것은 무엇인지, 사용자가 구매하고 싶어하는 제품은 무엇인지, 광고주의 페이지를 떠난 후 어떤 웹사이트를 방문하는지도 알 수 있다.
나. 2자 데이터(2nd party data)
2자 데이터는 종종 다른 사람의 1자(자사) 데이터로 정의된다. 이는 나의 잠재적인 비즈니스 파트너가 데이터를 수집하여 양사 간에 공유하기를 원할 경우 해당 데이터가 나의 제2자 데이터가 되어 공유받은 잠재 고객을 타겟팅하여 광고하거나 나의 데이터베이스를 강화하여 비즈니스에 사용될 수 있음을 의미한다. 내가 다른 회사로부터 받고 싶은 데이터는 다른 사람의 자사 데이터가 대부분이므로 웹사이트, 앱, CRM, E-mail과 같은 온라인 데이터일 수도 있고 설문조사와 같은 오프라인 데이터가 될 수 있다.
광고 담당자는 2자 데이터를 수집하여 잠재적으로 자사 제품에 관심이 있는 소비자에 대한 정보에 더 빠르고 쉽게 접근할 수 있다는 장점이 있다. 이는 1자 데이터처럼 내가 100% 의도한 대로 잠재 고객을 세그멘트 할 수는 없지만 나의 잠재적인 비즈니스 파트너( 데이터 제휴 전에 우리는 파트너의 비즈니스에 대해 다양한 방면에서 분석하고 파트너의 잠재 고객의 데이터가 나의 잠재 고객과 일치 또는 비슷하다는 판단을 할 수 있음)의 특정 관심이나 행동(예: 지난 2주 동안 자신이 가장 좋아하는 팀 경기장에 있었던 수제 맥주 애호가 또는 축구 팬)이 있는 세그멘트를 전달받아 해당 그룹에게 광고 및 비즈니스 활동에 활용할 수 있다는 것이다.
이런 좋은 장점에도 불구하고 글로벌에서는 2자 데이터의 교류가 종종 있지만 국내에서는 지금까지 실제 사례를 찾아보기 어렵다. 이는 고객 데이터에 대한 중요성에 대한 인지가 최근에서야 이뤄졌고 데이터 축적과 보안, 외부 파트너사와 데이터를 교환할 때 내부 규정이 국내 회사는 거의 없는 상황이며, 안정적으로 데이터를 교환(스프레드쉬트로 데이터를 교환할 수는 없지 않은가)하기 위한 플랫폼의 소유와 이를 주도적으로 추진하고 관리해야 할 전문가팀이 부재하기 때문이다.
다. 3자 데이터(3rd party data)
3자 데이터는 1, 2자 데이터를 제외한 모든 사용자에 대한 데이터라고 생각하면 간단하다. 쉽게 여기에는 관심 분야, 인구 통계, 구매 의도가 포함된다. 이렇듯 데이터 공급자로부터 다양한 3자 데이터를 사용하면 타겟하고자 하는 잠재 고객 그룹을 만들 수 있는데, 예를 들어, 최근 자동차 쇼룸을 한달이내 방문한 데이터를 공급받아 원하는 잠재 고객을 만든다면, 이번에 출시한 새 자동차에 대한 광고를 타겟 그룹에게 노출할 수 있게 되는 것이다.
3자 데이터를 제공하는 회사들은 기업의 영리 추구를 목적으로 타 회사에 데이터를 제공하고 있다. 그래서 국내에서는 대부분 대기업이 자회사 또는 그들이 시장에서 오랫동안 제공한 서비스를 통해 막대한 데이터를 축적해 온 업체가 대부분이다. 또 다른 3자 데이터 공급사는 오랫동안 데이터 관리 솔루션을 구축하고 파트너 쉽을 통해 디지털화된 데이터를 축적한 회사들로 국내에는 TG360이 대표적이다. 국내 대표적인 3자 데이터 공급자로는 롯데 멤버스, SK플래닛이 있으며, 해당 회사는 OK캐쉬백, T-map, 11번가, 옥수수(지금은 중단된 서비스), 통신, 편의점, 카드사, 백화점 등의 서비스를 제공하고 이용하는 고객(서비스를 이용하는 과정에서 정보 제공에 동의 또는 데이터 활용에 동의를 사전에 구함)들의 데이터를 비식별화하여 마케팅에 활용할 수 있도록 비즈니스화하였다. 즉 마치 쇼핑몰에서 내가 필요로 한 제품을 구매하듯 3자 데이터를 제공하는 데이터 공급자의 솔루션에 접속하여 내가 필요로 한 데이터를 검색하고 조합하여 나의 잠재 고객 그룹을 만들면 되는 것이다. 그러므로 마케터는 내가 그룹화한 잠재 고객이 어떤 서비스를 이용한 고객인지, 웹에서 어떤 웹사이트를 방문하는지, 어떤 브랜드의 제품을 보았는지 알 수 있으며, 특정 목적지를 기간 내 몇 번 방문했는지도 알 수 있다.
3자 데이터를 제공하는 회사는 회사마다 별도의 기준을 가지고 데이터를 축적하거나 분류해서는 안 된다. 만약 회사마다 별도의 기준을 가지고 데이터를 분류한다면 해당 데이터는 다른 데이터 공급회사와 같이 사용될 수 없으며, 객관적으로 데이터의 검증, 효과 분석이 불가능할 것이다. 그러므로 데이터 공급자가 되기 위해서는 국제 데이터 표준 규격을 반드시 따라야 하는데, 빅 데이터 표준은 국제적으로 ITU-T SG 13과 JTC 1SC 42와 같은 공적 표준화 기구, W3C와 같은 사실 표준화 기구를 통해 개발되고 있다. 우리가 이 책에서 다루고자 하는 것이 기술적인 접근보다는 마케팅 적인 접근과 활용적인 측면이기 때문에 각각의 기술의 차이에 대해서는 더 이상 언급하지는 않겠다.
3자 데이터는 주로 프로그래매틱 광고에서 다양하게 사용된다. 3자 데이터 공급자는 DSP와 연동된 DMP에 3자 데이터를 공급하고, 마케터는 DMP를 통해 1자, 2자, 3자 데이터를 조합하여 타겟 그룹을 생성하는 것이다. 3자 데이터를 활용하면 다음의 이점이 있다.
라. 1st + 2nd + 3rd party data의 통합 활용(360도 customer view)
우리가 여성 신발 생산, 판매 업체라고 가정해 보자. 우리는 현재 고객의 정보와 프로필에 대한 자세한 분석이 포함된 대규모 데이터베이스를 보유하고 있다. 이 데이터는 웹사이트에서 수집되어 CRM에 저장되어 있을 것이다. 최고 품질의 신뢰할 수 있는 무료 데이터이고 가장 가치가 높은 데이터이다. 이것이 바로 우리의 1자 데이터이다.
우리의 사업이 이제 시장 범위를 확장하고 남성용 신발도 생산하기로 했다고 가정해 보자. 그러나 우리는 타겟 남성 오디언스에게 속하는 특성을 아직 잘 모른다. 따라서 우리는 남성 신발 고객의 특성을 실제로 알고 이를 우리와 공유할 수 있는 파트너(그들도 우리의 데이터가 있어야 하는 경우 물물교환)를 찾을 수 있다. 다행히 우리와 사업의 방향성이 비슷한 파트너를 만났고 이 회사를 통해 남성 고객을 타겟팅하는 데 사용하게 될 중요한 2자 데이터를 받았다.
이제 두 성별 범위의 고객에 대한 전체 데이터를 갖기 위해 3자 데이터 범위까지 확대하기로 했다. 이는 우리의 제품 구매 고객이 정확히 무엇에 관심을 두고 있는지, 우리의 웹사이트를 방문하기 전에 고객이 어떤 경로를 밟았는지, 어디에 있는지, 아니면 그냥 둘러보고 있는지 또는 구매를 원하는지와 같은 정보들이다. 우리의 1자 데이터와 2자 데이터 모두 국제표준을 준수하고 있고, 우리가 구매하려는 데이터 공급사의 데이터 소스에 큰 오픈 마켓의 데이터가 포함되어 있어서 우리는 1+2+3자의 데이터를 손쉽게 통합하여 잠재 고객 목록을 만들고 이를 광고에 활용할 수 있었다.
DMP 기술은 웹사이트, 앱, 설문조사, 데이터 플랫폼 등 다양한 소스에서 받는 모든 유형의 디지털 데이터(1자, 2자, 3자 데이터)를 저장, 분류, 분석, 세그멘트, 광고 활용을 도와준다. DMP를 활용하면 수집된 데이터를 언제든지 타겟팅 가능하게 만들 수 있으며, 단지 버튼 한 번으로 DMP와 연동된 DSP로 데이터를 온보딩하여 정확하게 타겟된 청중에게 광고 형태(배너, 영상, 네이트브 애드, 오디오 등), 디바이스, 온라인/오프라인 매체 구분 없이 원하는 광고를 송출할 수 있다. 이 과정은 복잡해 보이지만 간단한 교육과 실무적인 훈련을 통해 비전문가라고 하더라도 빠르고 쉬게 다룰 수 있다.