Hive 설정

Apache Hive는 방대한 규모에서 분석할 수 있는 내결함성을 갖춘 분산 데이터 웨어하우스 시스템이다. 데이터 웨어하우스는 정보에 입각한 데이터 중심 의사 결정을 내릴 수 있도록 쉽게 분석할 수 있는 정보의 중앙 스토어를 제공하며, 사용자가 SQL를 사용하여 페타바이트 데이터를 읽고 쓰고 관리할 수 있도록 한다.

JDBC, ODBC 연결 및 SQL을 처리해주는 hiveserver2와
테이블 정보 등 메타데이터를 관리해주는 metastore 두 기능을 제공한다.

Trino(PrestoDB) 설치

Trino(PrestoDB)는 분산 SQL 쿼리 엔진으로, 하나 이상의 혼성 데이터 소스에 분산된 대규모 데이터 세트를 쿼리하기 위해 설계된 오픈 소스 소프트웨어이다. Trino는 Hive 및 Iceberg 테이블 형식을 사용하여 HDFS, AWS S3, Google Cloud Storage 또는 Azure Blob Storage 같은 다양한 스토리지 시스템에 존재하는 ORC 또는 Parquet 와 같은 개방형 열 지향 데이터 파일 형식을 포함하는 데이터레이크를 쿼리할 수 있다. 또한 Trino는 MySQL, PostgreSQL, Cassandra, Kafka, MongoDB, 그리고 Elasticsearch 와 같은 다양한 데이터 소스의 테이블을 쿼리하는 페더레이션 쿼리를 실행할 수 있다. Trino는 Apache 라이선스 에 따라 배포된다.

AWS의 Athena가 Presto 기반, NHN cloud의 DataQuery의 경우 Trino 기반이다.

 

Trino 바이너리 다운로드 및 설치, 기본 설정

  • RPM, DEB 등 패키지 설치가 아닌 바이너리 다운로드 및 구동 기준 변수 설정 등.

 

Trino 구동을 위한 설정, (LDAP 인증, TLS 적용 설정)

  • LDAP을 통한 인증 설정이 된 Trino 클러스터 설정.
  • 인증 기능을 활성화 하기 위해서는 TLS설정이 필요하므로, TLS 설정을 포함한다.
    자체 서명 인증서 생성과 관련된 내용은 “사설 인증서 생성” 에서 확인할 수 있다.

 

Trino FileDB 기반 인증 설정

  • LDAP이 아닌 FileDB를 통한 인증 설정.

 

Trino Data Catalog 설정

  • Trino를 통해 접근할 타겟 데이터 베이스 카탈로그 설정.
  • Iceberg 활용을 위한 메타스토어 등록 등.
  • HDFS(Hadoop Distributed File system), 오브젝트 스토리지(minio) 등.

Grafana 설치

Grafana는 데이터를 시각화하고 모니터링하기 위한 오픈소스 플랫폼이다. 주로 실시간 데이터 분석 및 대시보드 생성에 사용되며, IT 인프라 모니터링, DevOps, IoT 데이터 분석 등 다양한 분야에서 활용된다. Grafana는 데이터를 다양한 형태의 그래프로 표현하고, 여러 데이터 소스와 통합하여 유용한 통찰을 제공한다.

https://wiki.haedongg.net/ko/knowledge/application/monitoring/grafana