PHP를 활용한 웹페이지 파싱 기법 요약
가끔 사이트 개발을 하거나 여러가지 데이터를 모으기 위해 웹페이지를 파싱해야할 경우가 있죠. 다양한 언어와 기법을 활용하여 웹페이지 파싱이 가능한데요. 저는 주로 PHP를 활용하여 웹페이지 스크랩하고 정규표현식을 통해 파싱 작업을 하고 있습니다. 그 내용을 간단하게 요약해 보도록 하죠. 파싱 대상 html 가져오기1. echo file_get_contents(웹페이지 URL); => 서버 설정으로 막힌 경우가 많음. 2. curl (스누피라는 라이브러리 쓰면 좀 편함) 3. fsocketopen (최종 방법) 파싱할 때 주로 쓰는 함수 5가지1. str_replace(".", "", $string); // . 삭제 2. $language = preg_replace( '/[^a-zA-Z_]/', '', $..