본문으로 바로가기

[C#] HTML 에서 Text만 추출

category 프로그램/C# 2018/07/26 09:08
        /// <summary>
        /// HTML 에서 Text만 추출한다.
        /// </summary>
        /// <param name="Html"></param>
        /// <returns></returns>
        public static string StripHtml(string Html)
        {
            string output = Html;

            output = System.Text.RegularExpressions.Regex.Replace(output, "<br>", Environment.NewLine);
            output = System.Text.RegularExpressions.Regex.Replace(output, "<br/>", Environment.NewLine);
            output = System.Text.RegularExpressions.Regex.Replace(output, "<br />", Environment.NewLine);

            //get rid of HTML tags
            output = System.Text.RegularExpressions.Regex.Replace(output, "<[^>]*>", string.Empty);
            //get rid of multiple blank lines
            output = System.Text.RegularExpressions.Regex.Replace(output, @"^\s*$\n", string.Empty, System.Text.RegularExpressions.RegexOptions.Multiline);

            output = System.Text.RegularExpressions.Regex.Replace(output, "&nbsp;", " ");
            return output;
        }
크리에이티브 커먼즈 라이센스
Creative Commons License

트랙백

http://trudy.kr/trackback/152

댓글을 달아 주세요

Trudy
Trudy 님의 블로그
MENU
VISITOR 오늘18 / 전체639821