[읽은 책] 다크 데이터

시들지 않는 무지개 2022. 11. 21. 00:58
728x90

 

 

회사에서 수많은 실험 데이터를 다루는 개발 업무를 하면서 매번 고민인 점은 평소 다루고 있는 데이터들에서 나도 모르게 무시하고 있는 데이터가 있는지, 완벽한 데이터셋이라고 생각했던 것들이 알고 보니 누락이 발생하고 있지는 않았는지, 이 데이터들로 부터 끌어낸 결론은 또 정확한 것인지에 대한 것들이다.

이 책에선 의도하든, 의도치 않던 드러나지 않는 데이터 누락과 잘못된 데이터 처리(다크 데이터)에 대해서 다양한 예시를 들어 설명하고, 어떻게 하면 그런 누락을 막을 수 있을지 알려주는 책이다. 책에서 제시한 예시들 중에는 평소 생각지도 못했던 부분도 많아 꽤나 유익하긴 했다.

다만 생각보다 잘 읽혀지지 않아, 어느 순간 손도 잘 안가고 완독하는데 3주 정도 걸렸다.

 

728x90