본문 바로가기
경제,증시/주린이를 위한

통계, 빅데이터와 인공지능은 왜 알아야 하는 걸까?

by 치즈돈까스재테크 2021. 1. 5.
728x90
반응형

 

감으로만 투자하신다고요? 미쳤습니까 휴먼?

아직 초안이에요 :) 오늘은 시간이 없어 핵심만 간단히 써놓았는데 추후에 더 쉬운 설명으로 바꿔 놓고 예시, 사진들을 첨부할게요. '주린이를 위한' 카테고리니까 혹시 읽어보실 분들은 이렇게 생각할 수도 있구나 감만 잡으시고 용어나 이해가 안 되는 부분이 있다면 댓글로 질문해 주세요. 시간이 날 때마다 답변해드리도록 할게요. 


추세와 intrinsic value, reverting to mean. (if, mean= intrinsic value). drift term의 factor determination and coefficient. 

even though stock price will converge to the intrinsic value(=mean) in the long term, it can be volatile in a short term period due to many variables such as fundamental change, surprising event occur. 

By conducting (multiple) regression, we can detect how much a factor affecting the dependent variable, or the effect of multiple variables as a whole. Indeed there are some limitations of statistical approach. 통계적 유의성이 항상 경제적 유의성을 가지는 것은 아니기 때문. 


리스크 관리에 있어서도 확률적 접근이 가능해짐. 시뮬레이션은 특정 리스크가 회사에 끼칠 수 있는 피해의 정도를 확률화 시켜 보여줄 수 있기 때문. 

표본을 통해서 모수를 추정할 수 있기 때문에, 위험을 계량화 할 수 있게 되고 그에 따라서 대응할 수 있는 방안들이 구체화될 수 있음. 예를 들어서 5% 확률로 금리 인상이 회사에 50억의 피해를 끼친다면 그에 상응하는 hedge position을 구축할 수 있음. 

 

반대로 return 측면에서도 특정 event의 발생이 향후 회사에 어느 정도의 cumulative profit을 가져다줄 수 있을지 예측할 수 있게 되고, 이를 적정 요구 수익률로 할인하게 되면 현재의 intrinsic value를 수정할 수 있음. 남들이 하지 않은 모델링을 해서 얻은 intrinsic value 값은 현재의 주식이 어느 정도 고/저평가되어 있는지 판단할 수 있는 척도가 됨. 

표본의 수가 많아질수록 예측 값은 더욱 정밀해지는데 이는 빅데이터를 통해서 얻을 수 있음. 데이터를 큐레이션하고 모델을 최적화하는 것이 문제겠지만 이를 해결했다는 전제 하에 예측 값은 정밀해지고, 이를 다시 독립변수로 활용하게 된다면 향후 판단에 많은 도움이 됨. 

 

데이터를 긁어모으고 모델에 넣고 나온 값을 어떻게 해석할 것인지는 인간의 주관이 많이 개입됨. 따라서 시간과 인력이 동시에 필요하고 사람에 따라서 값에 오차를 보이는 한계가 있음. 인공지능을 사용하게 되면 일련의 과정이 간소화되고 시간과 돈을 많이 아낄 수 있지만, unsupervised 된 모델을 사용한다면 input과 output 사이에 어떠한 과정을 거쳤는지 알 수 없는 blackbox 구간이 나와 모델의 output에 전적으로 기댈 수 없다는 단점이 있음. 

이는 모델의 예측값과 실제 나온 현실의 값을 비교하면서 모델을 수정해 나가는 supervised 모델과는 달리, 모델의 어느 부분부터 손을 대야 할지 모른다는 단점이 있지만, 시간이 지남에 따라 deep learning을 통한 모델의 자체적 수정으로 문제가 해결될 수 있는 가능성이 존재. 이 경우에는 모델이 과적합 되었을 가능성이 있음. 결국 quality가 좋은 input data를 자체적으로 생산해 내고 deep learning model이 혼자서 테스트해나가는 것이 최종적 해결 방법이 될 것으로 보임. 


금융권 채용만 보더라도 데이터 사이언스, quant를 더 많이 뽑고 트레이더를 줄여가는 모습을 보이고 있음. 예대마진의 축소와 수수료 절감으로 인해서 전통적인 방법으로 수익을 창출해 내는 데 한계를 보이고 있으므로, 개인들의 트레이딩 성향과 과거 실적, 투자 사이즈를 토대로 맞춤형 차별화 서비스를 제공하고 수익을 창출하는 방향으로 가야 할 것으로 보임. 

이 또한 인공지능 모델을 잘 만들어 낸다면 상담 인력을 최소화함으로써 금융 회사의 수익을 극대화할 수 있을 것으로 보이고, 현재 트렌드 또한 그쪽으로 가고 있는 것으로 보임. Fintech의 등장은 전통적 트레이딩의 근간을 흔들어 놓을 것임. 

모델이 쓰는 input data는 주가 추세와 회계 자료 등 계량화 되어 있는 과거의 지표를 사용하는 경우가 많음. Footnotes나 공시 등 unstructured data를 valuation에 취합하는 방법을 지향하는 것도 하나의 방법이라고 생각함. 

 


그렇다면 금융권에 있는 인력들이 모두 4차 산업의 파도에 밀려나가 대체될 것인지?

개인적으로는 그렇지 않다고 생각함. 경리, 은행 텔러 등 단순 업무직은 대체될 가능성이 높지만 회계 감사나 회사 혹은 산업, 더 나아가 국가와 국제 경제를 예측하는 것은 숫자 그 이면을 보는 것이므로 공상 과학 소설이나 SF 영화에 나오는 것처럼 휴머노이드가 나오지 않는 이상 near future에는 불가능하다고 생각. 세상은 논리만으로 돌아가지 않음. 이는 서울대 경영학과 나온 사람이 주식시장에서 모두 슈퍼개미가 되지 않는 것만 봐도 알 수 있음. 금융권 영업직도 아직은 wining and dining, 즉 네트워킹의 영향이 더 큰 사업인 것 같음. 리스크 관리 또한 아직 인간이 해야 하는 부분이 큼. 

기관과 투자은행이 개인보다 유리한 부분은 고급인력, 오랜 기간에 걸친 방대한 데이터, 정교한 모델, 네트워크, 빠른 거래 체결과 자본력, 특정 조건을 만족해야 진입할 수 있는 거래들임. 어떻게 보면 정보의 비대칭성을 갖고 있으나 개인이 이길 있는 방법이 없을 것 같아 보임. 그러나 개인이 유리한 점은 작은 사이즈로 유동적으로 치고 빠질 수 있다는 점임. 물론 요즘 개인 투자에 정부가 많이 개입해 효율적 시장 조성을 방해하는 것 같은 측면은 있으나 유연한 대처가 쉽다는 사실은 변하지 않을 것. 


조금 다르게 생각해보면 불리한 상황일 때 무조건 이기려 달려드는 것보다 전략적 제휴를 맺는 방법도 좋다고 생각함. 금융기관이 제공하는 active 펀드의 수익이 장기적으로 시장수익률을 상회할 때 내가 갖고 있는 자본의 일정 비중을 투자하거나, 이길 수 없는 싸움이라고 생각한다면 대부분의 비중을 쏟는 것도 나쁘지 않음. 다만 과거의 실적이 미래의 실적을 보장하지는 않으니 시장 상황의 변화와 active fund의 구성 혹은 운용 전략의 유효성은 개인적으로 깊게 분석해 볼 필요가 있음. 


사실 모든 재테크의 근본은 '특정 이벤트가 일어났을 때 상품의 가치가 어떻게 그리고 얼마나 변화할 것인가'를 예측하고 유리한 포지션을 취하는 것에 있음. 개인 투자자로 성공하는 방법은 예측의 성공 빈도를 높이는 것. A라는 사건이 일어났을 때 B의 예측값이 달라지는 것은 베이즈 정리와 정의가 같음. 베이즈 정리는 각각의 이벤트가 일어날 '확률'을 알고 있다는 전제가 있어야 함. 따라서 얻어진 예측값 또한 확률로 나타남. 중요한 것은 통계를 앎으로써 감으로 오르거나 내릴 것 같아 투자하는 것에서 계량화 된 리스크와 리턴을 토대로 시나리오를 구성해보고 대응 방법을 구상하는 '확률적 사고'를 할 수 있다는 것. 여기에서 항상 강조하던 '예측보다는 대응의 영역'이라는 결론이 도출됨. 예측의 중요성을 무시하는 것이 아니라 그를 통한 시나리오 구상과 원칙에 따른 행동이 수반되어야 행동의 긍정적 강화가 이루어지기 때문. 사후적 검증과 예측이 무엇 때문에 틀렸는가와 고려하지 못한 변수들을 생각함으로써 다음번 예측이 더욱 정교해지고, 이를 통해서 예측 성공의 비율이 높아짐. 손익비를 관리하는 것과 직결되는 중요한 부분. 


확률적 사고는 극단적 outlier 또한 염두에 두고 있어야 함. 그린스펀은 2008년 글로벌 금융 위기 때 변수의 극단값을 생각하지 않고 과거의 추세만으로 손실 확률을 가정하였기 때문에 mortgage 상환 디폴트를 시발점으로 한 syndicate loan 상품과 CDO 시장의 붕괴, 나아가 기업 간 자금 파이프라인 경색과 국제적 파급을 막지 못한 점을 항상 아쉬워했음. 여기서 얻을 수 있는 교훈은 시장 전체가 위로든 아래로든 일정 range를 넘어서 크게 변할 때 생각지 못한 시나리오가 펼쳐질 수 있으니, 거기에 대한 대응 방법 또는 헷징 포지션을 구축해 놓아야 한다는 점. 

 

또한 통계 모델링은 인과 관계를 명확히 보여 주지 않는 경우가 많음. A가 B에 어떤 영향을 미치는지 상관 계수를 보일 수는 있으나 그 이유와 무엇이 원인이고 결과인지는 알려주지 않는 경우가 많음. 그러나 영향을 준 이유는 시장 sentiment에 다르게 작용할 수 있기 때문에 과거 데이터에서 유의미한 상관관계를 찾아냈다면 그 이유에 대해서 개인적으로 분석해볼 필요가 있음. 

728x90
반응형

댓글