-
API 개발 고급 - 컬렉션 조회 최적화김영한(인프런 강의)/실전! 스프링 부트와 JPA 활용2 - API 개발과 성능 최적화 2021. 2. 7. 15:48반응형
코드
github.com/rlawls1991/Study_JPA_API
페치 조인 최적화
2021/02/06 - [김영한(인프런 강의)/실전! 스프링 부트와 JPA 활용 2 - API 개발과 성능 최적화] - API 개발과 성능 최적화
위 글을 보게 되면 엔티티가 직접 노출 되면 안 좋은지에 대해서 나오게 된다. LIst를 조회하게 되면 하위 엔티티까지 같이 조회하게 되어서 쿼리가 1+ N이 나오게된다. 이를 방지하기 위해서 페치 조인과 JPQL문을 사용해야 한다는 것을 알게 되었다. 그리고 파라미터가 나오게 된다면 criteria과 JPQL을 사용해야 되는 것까지 알게 되었다.
그렇다면 페치 조인의 장점과 문제점을 알아보자
패치조인 예제
public List<Order> findAllWithItem() { return em.createQuery( "select distinct o from Order o" + " join fetch o.member m" + " join fetch o.delivery d" + " join fetch o.orderItems oi" + " join fetch oi.item i", Order.class) .getResultList(); }
나온 쿼리 예제
select distinct order0_.order_id as order_id1_6_0_, member1_.member_id as member_i1_4_1_, delivery2_.delivery_id as delivery1_2_2_, orderitems3_.order_item_id as order_it1_5_3_, item4_.item_id as item_id2_3_4_, order0_.delivery_id as delivery4_6_0_, order0_.member_id as member_i5_6_0_, order0_.order_date as order_da2_6_0_, order0_.status as status3_6_0_, member1_.city as city2_4_1_, member1_.street as street3_4_1_, member1_.zipcode as zipcode4_4_1_, member1_.name as name5_4_1_, delivery2_.city as city2_2_2_, delivery2_.street as street3_2_2_, delivery2_.zipcode as zipcode4_2_2_, delivery2_.status as status5_2_2_, orderitems3_.count as count2_5_3_, orderitems3_.item_id as item_id4_5_3_, orderitems3_.order_id as order_id5_5_3_, orderitems3_.order_price as order_pr3_5_3_, orderitems3_.order_id as order_id5_5_0__, orderitems3_.order_item_id as order_it1_5_0__, item4_.name as name3_3_4_, item4_.price as price4_3_4_, item4_.stock_quantity as stock_qu5_3_4_, item4_.artist as artist6_3_4_, item4_.etc as etc7_3_4_, item4_.author as author8_3_4_, item4_.isbn as isbn9_3_4_, item4_.actor as actor10_3_4_, item4_.director as directo11_3_4_, item4_.dtype as dtype1_3_4_ from orders order0_ inner join member member1_ on order0_.member_id=member1_.member_id inner join delivery delivery2_ on order0_.delivery_id=delivery2_.delivery_id inner join order_item orderitems3_ on order0_.order_id=orderitems3_.order_id inner join item item4_ on orderitems3_.item_id=item4_.item_id
장점
- 페치 조인으로 SQL이 1번만 실행됨
- distinct 를 사용한 이유는 1대다 조인이 있으므로 데이터베이스 row가 증가한다. 그 결과 같은 order 엔티티의 조회 수도 증가하게 된다. JPA의 distinct는 SQL에 distinct를 추가하고, 더해서 같은 엔티티가 조회되면, 애플리케이션에서 중복을 걸러준다. 위 예제에서 order가 컬렉션 페치 조인 때문에 중복 조회 되는 것을 막아준다.
단점
- 일대다인 경우에 쿼리가 중복되기 때문에 distanct를 사용
- 일대다인 경우에 페이징 처리를 할 수 없음
페이징 처리시도(안되겠지만 해보는겨.. 심심해서)
public List<Order> findAllWithItem() { return em.createQuery( "select distinct o from Order o" + " join fetch o.member m" + " join fetch o.delivery d" + " join fetch o.orderItems oi" + " join fetch oi.item i", Order.class) .setFirstResult(1) .setMaxResults(100) .getResultList(); }
참고
컬렉션 페치 조인을 사용하면 페이징이 불가능하다. 하이버네이트는 경고 로그를 남기면서 모든 데이터를 DB에서 읽어오고, 메모리에서 페이징 해버린다(매우 위험하다).
컬렉션 페치 조인은 1개만 사용할 수 있다. 컬렉션 둘 이상에 페치 조인을 사용하면 안된다. 데이터가 부정합하게 조회될 수 있다
그렇다면 페치조인으로 페이징을 처리 할 수 없는걸까?
아니다 할 수 있다. 한번 알아보자.
페이징 한계 돌파
1. ToOne(OneToOne, ManyToOne) 관계를 모두 페치조인 한다.
2. ToOne 관계는 row수를 증가시키지 않으므로 페이징 쿼리에 영향을 주지 않는다.
3. 컬렉션은 지연 로딩으로 조회한다. 지연 로딩 성능 최적화를 위해 hibernate.default_batch_fetch_size , @BatchSize 를 적용한다.
- hibernate.default_batch_fetch_size: 글로벌 설정
- @BatchSize: 개별 최적화
- 이 옵션을 사용하면 컬렉션이나, 프록시 객체를 한꺼번에 설정한 size 만큼 IN 쿼리로 조회한다.
최적화 옵션
application.properties
spring.jpa.properties.hibernate.default_batch_fetch_size=1000
개별로 설정하려면 @BatchSize 를 적용하면 된다. (컬렉션은 컬렉션 필드에, 엔티티는 엔티티 클래스에 적용)
장점
- 쿼리 호출 수가 1 + N -> 1 + 1 로 최적화 된다.
- 조인보다 DB 데이터 전송량이 최적화 된다. (Order와 OrderItem을 조인하면 Order가 OrderItem 만큼 중복해서 조회된다.이 방법은 각각 조회하므로 전송해야할 중복 데이터가 없다.)
- 페치 조인 방식과 비교해서 쿼리 호출 수가 약간 증가하지만, DB 데이터 전송량이 감소한다.
- 컬렉션 페치 조인은 페이징이 불가능 하지만 이 방법은 페이징이 가능하다
단점
- ToOne 관계는 페치 조인해도 페이징에 영향을 주지 않는다. 따라서 ToOne 관계는 페치조인으로 쿼리 수를 줄이고 해결하고, 나머지는 hibernate.default_batch_fetch_size 로 최적화 하자.
참고
default_batch_fetch_size 의 크기는 적당한 사이즈를 골라야 하는데, 100~1000 사이를 선택하는 것을 권장한다. 이 전략을 SQL IN 절을 사용하는데, 데이터베이스에 따라 IN 절 파라미터를 1000으로 제한하기도 한다. 1000으로 잡으면 한번에 1000개를 DB에서 애플리케이션에 불러오므로 DB 에 순간 부하가 증가할 수 있다. 하지만 애플리케이션은 100이든 1000이든 결국 전체 데이터를 로딩해야 하므로 메모리 사용량이 같다. 1000으로 설정하는 것이 성능상 가장 좋지만, 결국 DB든 애플리케이션이든 순간 부하를 어디까지 견딜 수 있는지로 결정하면 된다.
컬렉션 조회 최적화
com.study.domain.repository.order.query.OrderQueryRepository
/** * 최적화 * Query: 루트 1번, 컬렉션 1번 * 데이터를 한꺼번에 처리할 때 많이 사용하는 방식 * */ public List<OrderQueryDto> findAllByDto_optimization() { //루트 조회(toOne 코드를 모두 한번에 조회) List<OrderQueryDto> result = findOrders(); //orderItem 컬렉션을 MAP 한방에 조회 Map<Long, List<OrderItemQueryDto>> orderItemMap = findOrderItemMap(toOrderIds(result)); //루프를 돌면서 컬렉션 추가(추가 쿼리 실행X) result.forEach(o -> o.setOrderItems(orderItemMap.get(o.getOrderId()))); return result; } private List<Long> toOrderIds(List<OrderQueryDto> result) { return result.stream() .map(o -> o.getOrderId()) .collect(Collectors.toList()); } private Map<Long, List<OrderItemQueryDto>> findOrderItemMap(List<Long> orderIds) { List<OrderItemQueryDto> orderItems = em.createQuery( "select new com.study.domain.repository.order.query.OrderItemQueryDto(oi.order.id, i.name, oi.orderPrice, oi.count)" + " from OrderItem oi" + " join oi.item i" + " where oi.order.id in :orderIds", OrderItemQueryDto.class) .setParameter("orderIds", orderIds) .getResultList(); return orderItems.stream() .collect(Collectors.groupingBy(OrderItemQueryDto::getOrderId)); }
위의 코드들을 보게 된다면 생각보다 사람이 해야될 작업이 매우 많다는 것을 알 수 있다. 하지만 이렇게 함으로써 아래와같은 장점들을 가진다.
- Query: 루트 1번, 컬렉션 1번
- ToOne 관계들을 먼저 조회하고, 여기서 얻은 식별자 orderId로 ToMany 관계인 OrderItem 을 한꺼번에 조회
- MAP을 사용해서 매칭 성능 향상(O(1))
위의 방법으로 데이터를 가져올라면 루트1번, 컬렉션1번이 필요하다. 그렇다면 이 부분을 한번에 가져올 방법이 있을까? 존재한다. 그 방법은 아래에서 설명하겠다.
플랫 데이터 최적화
@GetMapping("/api/v6/orders") public List<OrderQueryDto> ordersV6() { List<OrderFlatDto> flats = orderQueryRepository.findAllByDto_flat(); return flats.stream() .collect(groupingBy(o -> new OrderQueryDto(o.getOrderId(), o.getName(), o.getOrderDate(), o.getOrderStatus(), o.getAddress()), mapping(o -> new OrderItemQueryDto(o.getOrderId(), o.getItemName(), o.getOrderPrice(), o.getCount()), toList()) )).entrySet().stream() .map(e -> new OrderQueryDto(e.getKey().getOrderId(), e.getKey().getName(), e.getKey().getOrderDate(), e.getKey().getOrderStatus(), e.getKey().getAddress(), e.getValue())) .collect(toList()); }
public List<OrderFlatDto> findAllByDto_flat() { return em.createQuery( "select" + " new com.study.domain.repository.order.query.OrderFlatDto(o.id, m.name, o.orderDate, o.status, d.address, i.name, oi.orderPrice, oi.count)" + " from Order o" + " join o.member m" + " join o.delivery d" + " join o.orderItems oi" + " join oi.item i", OrderFlatDto.class) .getResultList(); }
select order0_.order_id as col_0_0_, member1_.name as col_1_0_, order0_.order_date as col_2_0_, order0_.status as col_3_0_, delivery2_.city as col_4_0_, delivery2_.street as col_4_1_, delivery2_.zipcode as col_4_2_, item4_.name as col_5_0_, orderitems3_.order_price as col_6_0_, orderitems3_.count as col_7_0_ from orders order0_ inner join member member1_ on order0_.member_id=member1_.member_id inner join delivery delivery2_ on order0_.delivery_id=delivery2_.delivery_id inner join order_item orderitems3_ on order0_.order_id=orderitems3_.order_id inner join item item4_ on orderitems3_.item_id=item4_.item_id
위의 코드들을 사용하게 된다면 위와같이 한번에 조회를 할 수 있다. 하지만 한번에 원하는 데이터를 가져오지만 이에따른 문제점이 발생이 되는데 문제점은 아래와 같다.
문제점
- 쿼리는 한번이지만 조인으로 인해 DB에서 애플리케이션에 전달하는 데이터에 중복 데이터가 추가되므로 상황에 따라 V5 보다 더 느릴 수 도 있다.
- 애플리케이션에서 추가 작업이 크다.
- 페이징 불가능
반응형'김영한(인프런 강의) > 실전! 스프링 부트와 JPA 활용2 - API 개발과 성능 최적화' 카테고리의 다른 글
QueryDSL 소개 (0) 2021.02.09 OSIV와 성능 최적화 (0) 2021.02.09 API 개발과 성능 최적화 (0) 2021.02.06