
완벽한 스미싱 분류 모델을 향해서 (2)
·
Data/AI
완벽한 스미싱 분류 모델을 향해서 (1)스미싱 분류 모델을 개발해야지! 라고 생각했던 처음의 포부와는 달리, 파인튜닝을 하는 편이 리소스나 시간 면에서 좋을 것 같다는 생각이 들었다. BERT 모델을 파인튜닝하는 것보다 HuggingFace에dropdew.tistory.com앞전에 얘기했던 것 처럼 정상 데이터의 종류가 너무 적었다는 판단이 들었다. [URL]이 들어있는 정상 문자 데이터를 모았다.구어체가 아닌 택배/금융/카드/보험/배달 등등의 정상 문자 데이터를 모았다.광고 문자도 어떻게 보면 스미싱은 아니니.. 넣어도 되는걸까? 싶었지만, 확실한 정상 문자를 넣어서 학습시키고자 뺐다.검색을 하다보니 기존 데이터에 없던 스미싱 문자 데이터도 발견해 함께 정리했다.운송장번호 → [INVOICE]송하인|보..