URL 함수를 이용하여 요소를 추출하는 방법을 알아보고자 한다.
다음과 같은 샘플 데이터를 사용해 URL과 관련된 함수를 추출해 보겠다.
#레퍼러로 어떤 웹 페이지를 거쳐 넘어왔는지 판별하기
어떤 웹 페이지를 거쳐 넘어왔는지 판별할 때는 레퍼러를 집계한다. 하지만 샘플 데이터에서 보듯이 페이지 단위로 집계하면 너무 복잡해지므로, 호스트 단위로 집계하는 것이 일반적이다.
※ URL에서 호스트 단위란?
빅쿼리에서는 URL을 다루는 함수가 있다.
net.host() 함수를 이용하면 호스트 이름 부분을 추출할 수 있다.
SELECT stamp, net.host(referrer) AS referrer_host
FROM `data.access_log`;
다음과 같이 호스트 단위로 집계된 결과를 확인할 수 있다.
#어떤 웹 페이지에서 몇 번 접속이 발생했는지 확인하기
위 결과를 이용해 어떤 웹 페이지에서 몇번 접속이 발생했는지 알아보려고 한다.
referrer_host를 기준으로 그룹화하여 쿼리를 작성하였다.
SELECT count(stamp) AS count, net.host(referrer) AS referrer_host
FROM `data.access_log`
GROUP BY net.host(referrer);
위 결과에서는 www.other.com 호스트 단위에서 더 많은 접속이 있었다는 것을 확인할 수 있다.
지금까지 BigQuery(빅쿼리)의 net.host 함수에 대해 알아보았다.
감사합니다.
<데이터 분석을 위한 SQL 레시피> 5강 부분을 참고하여 작성하였습니다.
'SQL' 카테고리의 다른 글
[SQL - Bigquery/빅쿼리] 웹사이트 전체의 특징/경향 찾기 (0) | 2023.03.09 |
---|---|
[SQL - Bigquery/빅쿼리] 연령별 사용자 특징 추출하기 (0) | 2023.02.16 |
[SQL - Bigquery/빅쿼리] 문자열을 배열로 분해하기(split함수) (0) | 2023.01.25 |
댓글