목록분류 전체보기 (59)
🐥
2.4.4 이하와 2.4.5 이상 버전에서 하둡 configuration 설정하는게 좀 다른 듯 하다. Spark 버전 2.4.4 이하 spark = SparkSession.builder.appName("myapp") \ .config("some.config", "some.value") \ .getOrCreate() # signature V4 를 사용하는 리전일 경우 아래 property 설정 spark.sparkContext.setSystemProperty("com.amazonaws.services.s3.enableV4", "true") # s3 정보 설정 spark.sparkContext._jsc.hadoopConfiguration().set(f"fs.s3a.bucket.{mybucket}.endpo..
ls --time-style='+%Y%m%d %H:%M:%S' -l
처음엔 그냥 파이썬으로 파일을 읽어서 카프카 메시지를 보내려 했는데 생각보다 느렸다.. 카프카로 보내야하는 파일을 생성하는 코드가 c/c++로 되어있기도 하고 메시지 생성 즉시 바로 보내면 더 빨라질 것 같아 C로 작성해봤다. 1. librdkafka 패키지 다운로드 나는 centos 써서 아래와 같이 설치했다. yum install librdkafka-devel 다른 운영체제는 아래 github 페이지 참고 https://github.com/confluentinc/librdkafka#installation 2. librdkafka 설치 위치 확인 설치 위치 확인하는 방법 참고: https://quackstudy.tistory.com/entry/CentOS-yum%EC%9C%BC%EB%A1%9C-%EC%..
yum 패키지 설치 리스트 확인 yum install list rpm 으로 경로 찾기 경로를 찾으려면 yum만으로는 안되고 rpm을 사용해야 한다. # 전체 설치 리스트 확인 rpm -qa # 특정 문자열이 들어간 패키지 이름 확인 rpm -qa | grep $문자열 # 패키지 이름으로 위치 찾기 rpm -ql $패키지명 예시 아래와 같이 설치 경로를 확인할 수 있다. [root@testserver ~]# rpm -ql librdkafka-devel-0.11.4-1.el7.x86_64 /usr/include/librdkafka /usr/include/librdkafka/rdkafka.h /usr/include/librdkafka/rdkafkacpp.h /usr/lib64/librdkafka++.so /u..
정확히 어떤 오류 문구였는지는 db 옵션값을 이미 수정해버려서 재현은 어렵지만 airflow 스케쥴러에서 db를 쿼리할 때 syntax error가 난다는 오류였다. (대충 아래 오류 느낌..) db init을 하는데 select 절에 있는 컬럼들이 group by 절에 없는 오류 "table.column" doesn't exist. airflow에서는 공식적으로 mariadb를 지원하지 않는다. (참고: https://airflow.apache.org/docs/apache-airflow/stable/howto/set-up-database.html) Despite big similarities between MariaDB and MySQL, we DO NOT support MariaDB as a back..