在 C# 中从 HTML 响应中解析 javascript 值

本文关键字:javascript 响应 中从 HTML | 更新日期: 2023-09-27 18:31:21

我实际上正在构建一个应用程序,通过使用 .NET 4.5 中的 HttpClient 向网页(不是我的)发送 GET 请求,并在内容中收到以下响应:

<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Strict//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml" xmlns:widget="http://www.netvibes.com/ns/">
<head>  
<meta http-equiv="content-type" 
      content="text/html;charset=utf-8" />
<script type="text/javascript">var NREUMQ=NREUMQ||[];NREUMQ.push(["mark","firstbyte",new Date().getTime()]);</script><title>Site</title>
<script type="text/javascript">
var HOST_DOMAIN = 'http://www.site.com/';
var ID = '2261443944';
var BASE_URL = 'https://base.site.com';
</script>
  </head>
    <body >
    </body>
</html>

我想做的是以某种方式使用 .NET 4.5 库解析 heads 部分中 js 脚本中的值 HOST_DOMAIN、ID 和 BASE_URL,但我找不到方法。有什么想法吗?

在 C# 中从 HTML 响应中解析 javascript 值

使用捕获

组中 url 的正则表达式。

  string pattern = @"var HOST_DOMAIN = '([^']+)';";
  Match match = Regex.Matches(html, pattern)).FirstOrDefault();
  if (match != null)
      return match.Groups[1].Value;

说明:括号在正则表达式中定义一个组,该组存储在匹配项的Groups属性中。

可能的问题:如果 url 包含转义的撇号,则不起作用。

用于主机名的正则表达式

var ValidHostnameRegex = "^(([a-zA-Z0-9]|[a-zA-Z0-9][a-zA-Z0-9'-]*[a-zA-Z0-9])'.)*([A-Za-z0-9]|[A-Za-z0-9][A-Za-z0-9'-]*[A-Za-z0-9])$";

参考链接:堆栈溢出主机名正则表达式

然后用于数字使用注册号前号

以及如何在 JavaScript 中使用 reg ex如何在 js 中使用正则表达式