2017028831 정보시스템 권성현
2022078040 신소재공학 김태은
이 프로젝트에서 사용한 데이터셋은 총 11431건의 url과 87개의 피처로 구성되어있습니다. 이 중 56개의 피처는 URL 구조와 관련된 피처, 24개의 피처는 URL에 대응하는 페이지와 관련된 피처 그리고 나머지 7개의 피처는 외부 서비스(ex. 구글 인덱스)와 관련된 피처입니다.
데이터 셋은 Hannousse, A., & Yahiouche, S. (2021). Towards benchmark datasets for machine learning based website phishing detection: An experimental study. Engineering Applications of Artificial Intelligence, 104, 104347. 에 사용된 데이터 셋이며 이곳에서 다운 받았습니다.
비록 정제된 데이터이지만 혹시 모를 불상사를 방지하기 위해 데이터 전처리를 진행했습니다. 결측치가 존재하는 행은 데이터프레임에서 제거하는 방식으로 결측치 전처리를 진행했습니다. 또한 저희가 사용할 피처들의 이상치만 제거하는 방식으로 이상치 전처리를 진행했습니다. 자세한 내용은 아래 코드를 참조해주시면 감사하겠습니다.