데이터 엔지니어 3

[Airflow] Airflow 2.4.0에선 무엇이 달라졌을까?

본 글은 Ash Berlin-Taylor가 작성한 ‘Apache Airflow 2.4.0: That Data Aware Release’ 글을 읽고 번역한 글입니다. 중간 중간에 필요한 제 사견이나 첨언도 들어가 있으니 참고 부탁드립니다. Apache Airflow 2.4.0에는 650개 이상의 유저 커밋, 그리고 총 870개 이상의 커밋이 포함되어 있습니다. 이번 버전에는 46개의 새로운 기능, 39개의 개선 사항 그리고 52개의 버그 픽스가 포함됩니다. Data-aware scheduling (AIP-48) 정말 대단한 기능입니다. 이제 Airflow는 데이터셋을 업데이트하는 다른 task를 기반으로 DAG을 스케줄링할 수 있게 되었습니다. 이게 정확히 무슨 뜻일까요? 이 기능으로 인해 DAG 작성자들..

IT/Airflow 2022.10.15

[Hadoop] WebHDFS와 HttpFS는 무엇이 다른걸까?

Intro 얼마전, 회사에서 MLE 분이 HDFS에서 뭔가 다운로드 받고 싶으시다고 WebHDFS 경로를 문의주셨습니다. 그런데 저희 시니어 팀원 분께서 WebHDFS가 아닌 HttpFS를 쓰시도록 권고를 해주시길래, 어떤 차이가 있는걸까.. 생각해보게 되었습니다. 단순한 궁금증이긴 하지만, 이번 기회에 정리해보고자 합니다. WebHDFS와 HttpFS. 과연 무엇이 다른걸까요? WebHDFS WebHDFS는 HDFS 클라이언트가 Hadoop 바이너리를 설치하지 않더라도, 다양한 언어에서 HDFS에 접근할 수 있도록 REST 형태로 개발된 API입니다. Hortonworks에서 개발했으며, Hadoop 에코시스템 외부에서 동작하는 애플리케이션이 HDFS에 무언가 생성하고 쓰고, 변경하는 작업을 허용해줍니..

IT/Hadoop 2022.08.07

[wookiist] 프로그래머스 Data Engineering 스터디 후기

시작에 앞서, 본 스터디는 모두 제 사비로 구매하여 수강한 것임을 먼저 밝힙니다! 데이터 엔지니어..?! 이번에 데이터 엔지니어로 합류하게 된 후, 여러 고민을 많이 했습니다. 특히, 지금까지 해오던 분야와 전혀 다른 Data라는 분야에 어떻게 적응하고 익혀가야할까 하는 고민이 정말 컸던 것 같아요. 더구나 저는 SQL도 정식으로 강의를 들어본 적이 없다보니, 무엇부터 해야하는지조차도 여러 소스에 의존할 수밖에 없었습니다. 그래서 여러 인터넷 강의(패X트캠퍼스, 인X런)를 구매하고, 하나하나 들어가기 시작했어요. 헌데, 문제는 강사님들의 강의 스타일도 저와 잘 맞지 않았고, 강의 내용이 기대했던 것보다 훨씬 낮은 수준인 경우가 종종 있었습니다. 강사님 음성보다 배경 음악이 더 큰 경우도 있었고, 전달력이..

욱이야기/욱이 2022.01.01