목록데이터 (40)
🐥
처음엔 그냥 파이썬으로 파일을 읽어서 카프카 메시지를 보내려 했는데 생각보다 느렸다.. 카프카로 보내야하는 파일을 생성하는 코드가 c/c++로 되어있기도 하고 메시지 생성 즉시 바로 보내면 더 빨라질 것 같아 C로 작성해봤다. 1. librdkafka 패키지 다운로드 나는 centos 써서 아래와 같이 설치했다. yum install librdkafka-devel 다른 운영체제는 아래 github 페이지 참고 https://github.com/confluentinc/librdkafka#installation 2. librdkafka 설치 위치 확인 설치 위치 확인하는 방법 참고: https://quackstudy.tistory.com/entry/CentOS-yum%EC%9C%BC%EB%A1%9C-%EC%..
정확히 어떤 오류 문구였는지는 db 옵션값을 이미 수정해버려서 재현은 어렵지만 airflow 스케쥴러에서 db를 쿼리할 때 syntax error가 난다는 오류였다. (대충 아래 오류 느낌..) db init을 하는데 select 절에 있는 컬럼들이 group by 절에 없는 오류 "table.column" doesn't exist. airflow에서는 공식적으로 mariadb를 지원하지 않는다. (참고: https://airflow.apache.org/docs/apache-airflow/stable/howto/set-up-database.html) Despite big similarities between MariaDB and MySQL, we DO NOT support MariaDB as a back..
from trino.dbapi import connect from trino.auth import BasicAuthentication PORT = my_trino_port CATALOG = "my_trino_catalog" HOST = "my_trino_host" SCHEMA = "my_trino_database" conn = connect( user="my_trino_username", port=PORT, host=HOST, catalog=CATALOG, schema=SCHEMA, auth=BasicAuthentication("my_trino_username", "my_trino_password"), http_scheme="https", verify = False ) cur=conn.cursor() c..
간단하게 hue-desktop-site를 수정하면 된다. (ambari로 설정) 클라우데라도 크게 다르지는 않은 것 같다. 참조: https://docs.cloudera.com/documentation/enterprise/6/6.3/topics/cm_sg_ssl_hue.html#concept_cxx_mmd_s4 1. SSL enabled default값 false 에서 true로 변경 2. ssl_certificate pem 파일 인증서 경로 설정 3. SSL carcerts 최상위 CA 인증서 pem파일 경로 설정 4. SSL Password 인증서의 비밀번호 이부분은 비밀번호로 설정파일에 박혀있지 않게 하려면 SSL password script로 스크립트 파일 설정을 하면 된다. 5. SSL Priv..
sparksession을 사용하여 가져올 수 있다. (Spark 2.0 이상) import pyspark from pyspark.sql import SparkSession spark = SparkSession.builder.appName("s3test").config("spark.some.config.option", True).getOrCreate() df = spark.read.parquet("s3a://my-bucket/my/s3/path") schema, option등 HiveContext를 이용하여 hdfs 파일을 로드할 때와 동일하게 옵션도 줄 수 있음 참고: https://stackoverflow.com/questions/44629156/how-to-read-parquet-data-from-s..