📚 데이터베이스/빅데이터
-
[Hive] overview: distributed data warehouse📚 데이터베이스/빅데이터 2022. 8. 1. 22:24
Apache Hive is a fault-tolerant distributed data warehouse that allows for massive-scale analytics. - Hive is built on top of Apache Hadoop, an open-source platform for storing and processing large amounts of data. -As a result, Hive is inextricably linked to Hadoop and is designed to process petabytes of data quickly. - Using SQL, Hive allows users to read, write, and manage petabytes of data. ..
-
[concept] batch processing vs parallelism📚 데이터베이스/빅데이터 2022. 7. 29. 22:38
batch processing : sequential & doing at once instead of one by one 어떠한 작업을 매번 실행하는게 아니라, 한번에 모아서 실행해서 latency를 줄이는 방법 ! parallelsim : 주로 resouce의 capacity에 비해 throughput이 부족할때 여러개의 프로세스나 머신등을 이용해 paralle하게 처리하여 대용량 처리를 가능하게 하는 방법. 즉 batch processing과 헷갈릴수있지만 parallel과 sequential은 완전히 상반되는 처리 방식 !