Pregunta Elimine las etiquetas HTML de la cadena que incluye & nbsp en C #


¿Cómo puedo eliminar todas las etiquetas HTML, incluido & nbsp utilizando expresiones regulares en C #. Mi cadena se ve como

  "<div>hello</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div>&nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp; &nbsp;&nbsp;</div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div><div><br></div>"

74
2017-10-22 16:56


origen


Respuestas:


Si no puede usar una solución orientada al analizador HTML para filtrar las etiquetas, aquí hay una expresión regular simple para él.

string noHTML = Regex.Replace(inputHTML, @"<[^>]+>|&nbsp;", "").Trim();

Lo ideal sería hacer otro pase a través de un filtro de expresiones regulares que se ocupa de múltiples espacios como

string noHTMLNormalised = Regex.Replace(noHTML, @"\s{2,}", " ");

176
2017-10-22 17:08



Tomé el código de @Ravi Thapliyal e hice un método: es simple y podría no limpiar todo, pero hasta ahora está haciendo lo que necesito que haga.

public static string ScrubHtml(string value) {
    var step1 = Regex.Replace(value, @"<[^>]+>|&nbsp;", "").Trim();
    var step2 = Regex.Replace(step1, @"\s{2,}", " ");
    return step2;
}

29
2017-07-31 14:50



He estado usando esta función por un tiempo. Elimina casi cualquier html sucio que pueda arrojar y deja el texto intacto.

        private static readonly Regex _tags_ = new Regex(@"<[^>]+?>", RegexOptions.Multiline | RegexOptions.Compiled);

        //add characters that are should not be removed to this regex
        private static readonly Regex _notOkCharacter_ = new Regex(@"[^\w;&#@.:/\\?=|%!() -]", RegexOptions.Compiled);

        public static String UnHtml(String html)
        {
            html = HttpUtility.UrlDecode(html);
            html = HttpUtility.HtmlDecode(html);

            html = RemoveTag(html, "<!--", "-->");
            html = RemoveTag(html, "<script", "</script>");
            html = RemoveTag(html, "<style", "</style>");

            //replace matches of these regexes with space
            html = _tags_.Replace(html, " ");
            html = _notOkCharacter_.Replace(html, " ");
            html = SingleSpacedTrim(html);

            return html;
        }

        private static String RemoveTag(String html, String startTag, String endTag)
        {
            Boolean bAgain;
            do
            {
                bAgain = false;
                Int32 startTagPos = html.IndexOf(startTag, 0, StringComparison.CurrentCultureIgnoreCase);
                if (startTagPos < 0)
                    continue;
                Int32 endTagPos = html.IndexOf(endTag, startTagPos + 1, StringComparison.CurrentCultureIgnoreCase);
                if (endTagPos <= startTagPos)
                    continue;
                html = html.Remove(startTagPos, endTagPos - startTagPos + endTag.Length);
                bAgain = true;
            } while (bAgain);
            return html;
        }

        private static String SingleSpacedTrim(String inString)
        {
            StringBuilder sb = new StringBuilder();
            Boolean inBlanks = false;
            foreach (Char c in inString)
            {
                switch (c)
                {
                    case '\r':
                    case '\n':
                    case '\t':
                    case ' ':
                        if (!inBlanks)
                        {
                            inBlanks = true;
                            sb.Append(' ');
                        }   
                        continue;
                    default:
                        inBlanks = false;
                        sb.Append(c);
                        break;
                }
            }
            return sb.ToString().Trim();
        }

14
2017-10-22 17:14



var noHtml = Regex.Replace(inputHTML, @"<[^>]*(>|$)|&nbsp;|&zwnj;|&raquo;|&laquo;", string.Empty).Trim();

3
2018-06-11 06:27



esta:

(<.+?> | &nbsp;)

coincidirá con cualquier etiqueta o &nbsp;

string regex = @"(<.+?>|&nbsp;)";
var x = Regex.Replace(originalString, regex, "").Trim();

entonces x = hello


0
2017-10-22 17:08



HTML está en su forma básica solo XML. Podría analizar su texto en un objeto XmlDocument, y en el elemento raíz llamar a InnerText para extraer el texto. Esto quitará todas las etiquetas HTML de cualquier forma y también tratará con caracteres especiales como & lt; & nbsp; todo de una vez.


0
2018-05-16 06:54



Desinfectar un documento Html implica muchas cosas complicadas. Este paquete puede ser de ayuda: https://github.com/mganss/HtmlSanitizer


-1
2018-01-04 19:54



(<([^>]+)>|&nbsp;)

Puedes probarlo aquí: https://regex101.com/r/kB0rQ4/1


-1
2018-02-10 17:58