본문 바로가기
Review/Book

[북리뷰-IT] 실무로 통하는 인과추론 with 파이썬 (한빛미디어, 2024)

by 눈부셔™ 2024. 3. 19.
728x90

[북리뷰-IT] 실무로 통하는 인과추론 with 파이썬 (한빛미디어, 2024)

"실무로 통하는 인과추론 with 파이썬"은 인과추론에 대한 실용적인 접근법을 제공하는 독특한 책입니다. 
이 책은 인과추론의 기본 개념부터 시작하여, 편향 보정, 이질적 효과와 개인화, 패널 데이터, 그리고 대안적 실험 설계에 이르기까지 다양한 주제를 다룹니다. 
이 책은 파이썬을 사용하여 인과추론의 핵심 개념을 이해하고 실제 문제에 적용하는 방법을 배울 수 있게 해줍니다.

 

실무로 통하는 인과추론 with 파이썬 (한빛미디어, 2024)

 

 

책의 주요 내용

이 책의 목차를 보면, 인과추론의 기본 개념을 소개하는 첫 부분에서 시작하여, 편향 보정, 이질적 효과와 개인화, 패널 데이터, 그리고 대안적 실험 설계에 이르기까지 다양한 주제를 체계적으로 다루고 있습니다. 
각 장은 주제에 대한 깊이 있는 이해를 돕기 위해 실제 사례와 실습을 통해 구체적인 내용을 설명하고 있습니다.

 

PART 1 인과추론 기초

  • 1장 : 인과추론 소개
    • 연관성이 인과관계와 왜 다른지와 연관성을 인과관계로 만드는 방법을 배울 수 있습니다. 또한 인과적 추론을 이해하는 방법으로 잠재적 결과 표기법을 소개하고 있습니다. 잠재적 결과 프레임워크를 통해 우리는 통계 자료를 두 가지 가능한 현실로 간주합니다. 하나는 처치를 받은 것이고 다른 하나는 처치를 받지 않은 것입니다. 불행하게도 인과 추론의 근본적인 문제로 인해, 동시에 관측할 수 없고 그 중 하나만 관찰할 수 있습니다.
  • 2장 : 무작위 실험 및 기초 통계 리뷰
    • 인과추론에 있어서 가장 근본이되는 방법이라고 할 수 있는 무작위 실험으로 부터 시작해서 인과관계를 추정하는 몇 가지 기본 방법을 안내합니다. 무작위 실험이 왜 인과적 영향을 추론하는 가장 간단하고 가장 효과적인 방법인지를요. 바로 실험군(T-group)과 대조군(C-group)을 비교 가능하게끔 만들어 주는 것이죠. 무작위 실험을 항상 할 순 없지만, 우리가 할 수 있는 이상적인 실험이 무엇인지를 생각하도록 합니다.
    • 온라인 수업이 대면 수업에 비해 학업성취도 저하를 유발하는 것을 알아냈습니다. 또한 통계학적으로 유의한 결과임을 확인했고, 두 집단의 평균 신뢰구간을 비교하고, 차이에 대한 신뢰구간을 살펴보고, 가설검정을 수행해서 p값을 확인했습니다.
  • 3장 : 그래프 인과모델
    • 인과추론의 식별 부분에 중점을 두어, 더 잘 이해하고 표현하기 위한 언어로서 그래프 모델들을 안내합니다. 그래프에서의 조건부 확률의 규칙에 대해서, 또한 편향으로 이어질 수 있는 몇 가지 구조에 대해 탐색합니다.
    • 첫 번째는 교란(confounding)인데, 처치와 결과가 우리가 계산하거나 통제할 수 없는 공통의 원인을 가지고 있을 때 발생합니다. 두 번쨰는 선택 편향(selection bias)인데, 동일한 효과에 대한 조건화로 인해 발생합니다. 세 번째 구조는 선택 편향의 한 형태인데, 이번에는 매개 변수에 대한 과도한 통제로 발생합니다. 이런 과도한 통제로 발생한 편향은 처치가 무작위로 할당된다고 하더라도 발생할 수 있습니다. 선택 편향은 종종 그저 아무것도 하지 않음으로써 고칠 수도 있지만, 우리는 행동에 편향되어 있기 때문에 사물을 통제하는 아이디어가 득보다 실이 많을 때도 그것을 영리하다고 보는 경향이 있습니다.

PART 2 편향 보정

  • 4장 : 유용한 선형회귀
    • 회귀분석에 대해 배우지만, 머신러닝 책에서 보는 관점과는 다른 방향으로 배웁니다. 회귀분석을 주로 교란 요인을 보정하거나 분산 감소에 사용합니다.
    • 조건부 독립성이 유지될 때 직교화를 이용해 처치가 무작위로 배정된 것처럼 보이게 할 수 있습니다.
  • 5장 : 성향점수
    • 편향을 보정하는 두번째 방법인 역확률 가중치를 알아봅니다. 이것 또한 처치를 모델링해야하는데, 이는 인과추론 문제에서 처치 배정 메커니즘을 생각하는 것이 얼마나 중요한지를 알려줍니다.
    • doubly robust estimator 를 만드는 선형회귀와 경향 점수를 결합하는 방식을 알아봅니다. 이 추정량은 하나의 모델만 정확한 것을 요구하기 때문에 그런 이름이 붙었습니다. 만약 경향 점수 모델이 맞다면 종속변수 모델이 틀렸더라도 우리는 인과 효과를 추정할 수 있습니다. 반대로 종속변수 모델이 맞다면 경향 점수 모델이 틀리더라도 인과 효과를 추정할 수 있습니다.

PART 3 이질적 효과와 개인화

  • 6장 : 이질적 처치효과
    • 이질적 처치효과의 개념을 소개합니다. 핵심 아이디어는 실험 대상마다 처치효과가 다를 수 있다는 것입니다. 이 효과를 안다면 효과적으로 실험 대상에 처치를 배정할 수 있지만, 인과추론의 근본적인 문제로 인해 이 효과는 관측할 수 없습니다. 하지만 처치와 공변량 간의 상호작용 항을 포함하는 선형회귀 분석을 사용하여, 처치효과가 개별 대상 수준에서 관측되지 않더라도 그룹 효과를 추정할 수 있습니다.
  • 7장 : 메타러너
    • 처치변수를 feature로 사용해 S러너를 활용하는 것이 가장 쉬운 접근이라고 할 수 있습니다. 이것은 처치가 결과의 약한 예측 변수가 아닐 때 잘 작동하는 경향이 있습니다. 그렇지 않은 경우엔, S러너는 종종 제로로 편향되거나 처치를 완전히 무시하기도 합니다. 
    • 조금 더 복잡한 T러너를 사용하여 러너에게 처치를 강제적으로 인식하도록 할 수 있습니다. 여기서는 각 처치 수준마다 각각의 머신 러닝 모델을 맞추는 것입니다. 이것은 모든 처치 수준에 충분한 샘플이 있는 경우에는 잘 작동하지만, 하나의 처치 수준의 샘플 크기가 작으면 모델을 크게 정규화해야 할 수 있으므로 실패할 수 있습니다. 
    • 이를 보완하기 위해 데이터 수가 매우 적게 추정된 모델에서 발생할 수 있는 잠재적인 오류를 수정하기 위해 두 번째 단계 모델과 경향성 점수 모델을 사용하는 X러너를 사용하여 한층 더 복잡하게 할 수 있습니다.

PART 4 패널데이터

  • 8장 : 이중차분법
    • 여러 기간에 걸쳐 동일한 대상에 대해 여러 측정값이 있는 데이터인 패널 데이터를 사용하는 방법을 살펴봅니다. 이 경우 개체(entity)를 제어하는 고정 효과 모델을 사용해, 모든 대상과 시간이 변하지 않는 변수를 고정할 수 있습니다. 고정 효과 모델은 교란변수를 통제하는 강력하고 매우 설득력 있는 방법이며 랜덤이 아닌 데이터를 사용하는 것만큼이나 효과가 좋습니다.
  • 9장 : 통제집단합성법
    • 여러 제어 집단을 결합하여 처치된 집단과 유사하게 만드는 Synthetic Control을 만들 수 있다는 것을 배웁니다. 이 Synthetic Control을 통해 우리는 처치가 없었다면 처치된 집단에 어떤 일이 일어났을지 알 수 있습니다.
    • 처치되지 않은 집단이 실제로 처치된 척하고 효과도 계산해봅니다. 이것들은 플라시보 효과였습니다. 처치 없이도 관찰할 수 있는 효과였습니다. 우리는 그것들을 사용하여 우리가 추정한 처치 효과가 통계적으로 유의한지 확인합니다.

PART 5 대안적 실험 설계

  • 10장 : 지역 실험과 스위치백 실험
    • 사용 가능한 실험 대상의 수가 다소 부족한 경우를 대비한 두 가지 대안적 실험 설계를 살펴봅니다.
  • 11장 : 불응과 도구변수
    • 사람들이 처치 받지 않기로 선택할 수 있을 때 불응 문제가 발생합니다. 많은 회사들은 고객이 선택할 수 있는 제품이나 서비스를 제공하므로, 불응은 흔한 일입니다. 
    • 불응을 다룰 때 도구변수를 활용하는 방법을 배웁니다. 도구변수는 교란 없이 처치에 영향을 주고, 처치를 거치지 않으면 결과에 영향을 미치지 않는 변수입니다.
  • 12장 : 더 배울 내용

 

 

책의 장점 및 특징

 

이 책은 통계와 머신러닝에 관한 수학과 이론에 치우치지 않으면서 인과추론의 핵심 개념을 이해하기 쉽게 설명하고 있습니다. 또한 최신 연구 결과들을 충실히 담고 있어, 이론과 실제 사이의 균형을 잘 맞추고 있습니다. 
파이썬 실습을 통해 실무적이고 실전적인 학습을 균형 있게 다루고 있어, 곁에 두고 필요할 때 찾아볼 수 있는 지침서이자 참고서로서도 손색이 없습니다.

 

실무 중심적인 접근 : 이론과 수학적 설명에 치우치지 않고 실제 비즈니스 문제 해결에 초점을 맞춰 다룹니다.
파이썬 실습 : 각 장의 내용을 파이썬 코드로 실습하며 직접 적용해 볼 수 있습니다.
최신 연구 결과 : 최근 인과추론 분야의 발전을 반영하여 최신 연구 결과들을 다룹니다.
체계적인 구성 : 기초부터 응용까지 단계별로 학습할 수 있도록 체계적으로 구성되어 있습니다.
명확하고 간결한 설명 : 전문 용어를 최소화하고 쉬운 용어로 설명하여 이해하기 쉽습니다.

 

 

 

인과추론에 대한 실질적인 이해를 돕는데 필수적인 책

 

이 책은 인과추론의 중요성을 강조하며, 데이터 분석이 우리의 추론과 의사결정을 대신하기 시작하면서 현상에 대한 인과관계가 빅데이터의 홍수 속에 파묻혀 점점 더 모호해지고 있다는 점을 지적합니다. 
이러한 문제를 해결하기 위한 방법을 제시하며, 데이터에서 원인과 결과를 추론하는 것이 어렵지만 불가능하지 않다는 메시지를 전달합니다.

 

은행 종사자로써, 책을 읽어보고 업무에 적용할 수 있는 몇 가지를 생각해 봤습니다.

 

1. 마케팅 효과 분석 및 최적화

  • 캠페인 효과 분석
    • A/B 테스트를 통해 다양한 마케팅 캠페인의 효과를 정확하게 비교하고 최적의 캠페인을 선정할 수 있습니다.
    • 고객의 인구 통계, 행동 및 기타 특성을 고려하여 이질적 효과 분석을 수행하여 각 고객에게 가장 효과적인 캠페인을 제공할 수 있습니다.
  • 고객 세분화 및 타겟팅
    • 성향점수 분석을 통해 고객을 세분화하고, 각 세분화 그룹에 맞춤형 마케팅 메시지를 제공하여 마케팅 효율성을 높일 수 있습니다.
    • 고객의 과거 거래 내역, 상품 이용 패턴 등을 기반으로 개인화된 상품 추천 시스템을 구축하여 고객 만족도를 높일 수 있습니다.

2. 신용 위험 관리 및 평가

  • 신용 불량 예측
    • 과거 데이터를 기반으로 머신러닝 모델을 구축하여 신용 불량 위험이 높은 고객을 사전에 예측하고 대비할 수 있습니다.
    • 인과추론 모델을 통해 다양한 변수가 신용 불량 위험에 미치는 영향을 정확하게 분석하고, 위험 관리 전략을 개선할 수 있습니다.
  • 사기 예방
    • 고객 거래 데이터를 분석하여 사기 행위를 사전에 예측하고 차단할 수 있습니다.
    • 인과추론 모델을 통해 사기 행위의 원인을 파악하고, 보다 효과적인 사기 예방 시스템을 구축할 수 있습니다.

3. 상품 개발 및 가격 책정

  • 고객 니즈 분석
    • 고객 설문 조사 데이터를 분석하여 고객의 니즈를 정확하게 파악하고, 이에 맞는 새로운 상품을 개발할 수 있습니다.
    • 인과추론 모델을 통해 다양한 변수가 고객 니즈에 미치는 영향을 분석하고, 고객 만족도를 높일 수 있는 상품 개발 전략을 수립할 수 있습니다.
  • 가격 민감도 분석
    • 고객의 가격 인식 및 구매 패턴을 분석하여 최적의 상품 가격을 책정할 수 있습니다.
    • 인과추론 모델을 통해 가격 변화가 고객 구매에 미치는 영향을 분석하고, 수익성을 극대화할 수 있는 가격 정책을 수립할 수 있습니다.

4. 리스크 관리 및 규제 준수

  • 운영 리스크 분석
    • 은행 내부 데이터를 분석하여 다양한 운영 리스크 요인을 식별하고 평가할 수 있습니다.
    • 인과추론 모델을 통해 리스크 요인의 상호 연관성을 분석하고, 효과적인 리스크 관리 전략을 수립할 수 있습니다.
  • 규제 준수 검증
    • 규제 관련 데이터를 분석하여 은행의 규제 준수 여부를 검증할 수 있습니다.
    • 인과추론 모델을 통해 규제 위반 가능성을 사전에 예측하고, 규제 준수를 위한 시스템을 구축할 수 있습니다.

5. 고객 서비스 개선 및 운영 효율성 향상

  • 고객 만족도 분석
    • 고객 만족도 조사 데이터를 분석하여 고객 불만족 요인을 파악하고 개선할 수 있습니다.
    • 인과추론 모델을 통해 고객 만족도에 영향을 미치는 변수를 분석하고, 고객 만족도를 높일 수 있는 전략을 수립할 수 있습니다.
  • 운영 효율성 분석
    • 은행 운영 데이터를 분석하여 비효율적인 프로세스를 개선하고 운영 효율성을 높일 수 있습니다.

 

 

"한빛미디어 서평단 <나는리뷰어다> 활동을 위해서 책을 제공 받아 작성된 서평입니다."

 

 

#북리뷰  #책  #IT  #인과추론  #데이터분석  #머신러닝  #파이썬  #마케팅  #신용위험  #상품개발  #가격책정  #리스크관리  #규제준수  #고객서비스  #운영효율성  #고객만족도  #A/B테스트  #성향점수  #이질적효과  #개인화  #사기예방  #고객니즈  #가격민감도  #운영리스크  #규제위반

728x90