使用硒保存页面中的图像
本文关键字:图像 保存 | 更新日期: 2023-09-27 18:28:59
我正在使用Selenium&谷歌Chrome驱动程序以程序方式打开页面。在每个页面上都有一个动态生成的图像,我想下载它。目前,我正在等待页面完成加载,然后我获取图像URL并使用System.Net.WebClient.下载它
这很好,只是我下载了两次图像——一次在浏览器中,一次在WebClient中。问题是,每个图像大约有15MB,下载两次加起来很快。
那么,可以直接从谷歌Chrome浏览器中获取图像吗?
一种方法是用webdriver执行的javascript获取图像的base64字符串。然后可以将图像的base64string保存到文件中。
基本上,如果你的图像是
<img id='Img1' src='someurl'>
然后你可以像一样转换它
var base64string = driver.ExecuteScript(@"
var c = document.createElement('canvas');
var ctx = c.getContext('2d');
var img = document.getElementById('Img1');
c.height=img.naturalHeight;
c.width=img.naturalWidth;
ctx.drawImage(img, 0, 0,img.naturalWidth, img.naturalHeight);
var base64String = c.toDataURL();
return base64String;
") as string;
var base64 = base64string.Split(',').Last();
using (var stream = new MemoryStream(Convert.FromBase64String(base64)))
{
using (var bitmap = new Bitmap(stream))
{
var filepath = Path.Combine(AppDomain.CurrentDomain.BaseDirectory, "ImageName.png");
bitmap.Save(filepath, ImageFormat.Png);
}
}
是的,您可以通过以下几个步骤来完成:
- 截取网页的屏幕截图并将其保存到磁盘
- 查找图像元素
- 查找图像元素的位置、宽度和高度
- 从步骤1中拍摄的屏幕截图中裁剪所需的图像
- 将图像保存到磁盘(或对其执行其他操作)
示例代码-请添加您的代码以捕获异常
IWebDriver driver = new ChromeDriver();
//replace with the page you want to navigate to
string your_page = "https://www.google.com";
driver.Navigate().GoToUrl(your_page);
ITakesScreenshot ssdriver = driver as ITakesScreenshot;
Screenshot screenshot = ssdriver.GetScreenshot();
Screenshot tempImage = screenshot;
tempImage.SaveAsFile(@"C:'full.png", ImageFormat.Png);
//replace with the XPath of the image element
IWebElement my_image = driver.FindElement(By.XPath("//*[@id='"hplogo'"]/canvas[1]"));
Point point = my_image.Location;
int width = my_image.Size.Width;
int height = my_image.Size.Height;
Rectangle section = new Rectangle(point, new Size(width, height));
Bitmap source = new Bitmap(@"C:'full.png");
Bitmap final_image = CropImage(source, section);
final_image.Save(@"C:'image.jpg");
CropImage方法由James Hill发布,如何在C#中剪切图像的一部分
但为了清楚起见,我也会在这里添加
public Bitmap CropImage(Bitmap source, Rectangle section)
{
Bitmap bmp = new Bitmap(section.Width, section.Height);
Graphics g = Graphics.FromImage(bmp);
g.DrawImage(source, 0, 0, section, GraphicsUnit.Pixel);
return bmp;
}
以上所有答案都有效。然而,它们都有局限性。mecek的方法很酷,但它只适用于支持html5的浏览器(尽管现在大多数浏览器都支持),而且它会降低图像质量。截屏方法也会降低图像质量。使用System.Net.WebClient可以避免这个问题,但在下载captcha映像的情况下不起作用。实际上,在下载captcha图像时,对我来说唯一有效的方法是使用Actions类(如果您使用的是Selenium的java版本,则使用Robot),如下所示:
using OpenQA.Selenium;
using OpenQA.Selenium.Chrome;
using OpenQA.Selenium.Interactions;
using System.Windows.Automation;//you need to add UIAutomationTypes and UIAutomationClient to references
using System.Runtime.InteropServices;
[DllImport("User32.dll")]
static extern int SetForegroundWindow(IntPtr point);
private IntPtr getIntPtrHandle(IWebDriver driver, int timeoutSeconds = 30)
{
var end = DateTime.Now.AddSeconds(timeoutSeconds);
while (DateTime.Now < end)
{
var ele = AutomationElement.RootElement;
foreach (AutomationElement child in ele.FindAll(TreeScope.Children, Condition.TrueCondition))
{
if (!child.Current.Name.Contains(driver.Title)) continue;
return new IntPtr(child.Current.NativeWindowHandle);
}
}
return IntPtr.Zero;
}
private void downloadCaptcha(IWebDriver chromeDriver)
{
OpenQA.Selenium.IWebElement captchaImage = chromeDriver.FindElement(By.Id("secimg0"));
var handle = getIntPtrHandle(chromeDriver);
SetForegroundWindow(handle);//you need a p/invoke
Thread.Sleep(1500);//setting foreground window takes time
Actions action = new Actions(chromeDriver);
action.ContextClick(captchaImage).Build().Perform();
Thread.Sleep(300);
SendKeys.Send("V");
var start = Environment.TickCount;
while (Environment.TickCount - start < 2000)
{//can't use Thread.Sleep here, alternatively you can use a Timer
Application.DoEvents();
}
SendKeys.SendWait(@"C:'temp'vImage.jpg");
SendKeys.SendWait("{ENTER}");
}
这是我发现的使用SeleniumChrome驱动程序下载captcha图像而不损失其质量(以获得更好的OCR效果)的唯一方法,尽管限制也很明显。
基于meceks的回答,我使用了下面的一个版本来捕获webdriver图像,结果非常好。
它创建了一个90%质量的base64 jpeg字符串。为了避免像素化问题,我将图像绘制在一个画布上,这个画布比我稍后展示的图像要大。因此,图像被放大以最佳地适应600像素的盒子,同时保持纵横比。由于jpeg不支持透明度,我用白色背景来清除上下文。
var base64string = (driver as IJavaScriptExecutor).ExecuteScript(@"
var canvas = document.createElement('canvas');
var ctx = canvas.getContext('2d');
function getMaxSize(srcWidth, srcHeight, maxWidth, maxHeight) {
var widthScale = null;
var heightScale = null;
if (maxWidth != null)
{
widthScale = maxWidth / srcWidth;
}
if (maxHeight != null)
{
heightScale = maxHeight / srcHeight;
}
var ratio = Math.min(widthScale || heightScale, heightScale || widthScale);
return {
width: Math.round(srcWidth * ratio),
height: Math.round(srcHeight * ratio)
};
}
function getBase64FromImage(img, width, height) {
var size = getMaxSize(width, height, 600, 600)
canvas.width = size.width;
canvas.height = size.height;
ctx.fillStyle = 'white';
ctx.fillRect(0, 0, size.width, size.height);
ctx.drawImage(img, 0, 0, size.width, size.height);
return canvas.toDataURL('image/jpeg', 0.9);
}
var img = document.querySelector('#foo');
return getBase64FromImage(img, img.width, img.height);
") as string;
var base64 = base64string.Split(',').Last();
您可以使用此技术阻止在Google Chrome中下载图像。它运行一个名为";块图像";。这样一来,图像就不会使用chrome下载,只需要像往常一样使用其URL&System.Net.WebClient.
您是否尝试使用ImageIO下载图像?
String imageUrl = "image.png";
BufferedImage bufferedImage = ImageIO.read(imageUrl);
ImageIO.write(bufferedImage, "png", new File("savedImage.png"));
在java中尝试以下操作:
JavascriptExecutor js = (JavascriptExecutor) driver;
String base64string = (String) js.executeScript("var c = document.createElement('canvas');"
+ " var ctx = c.getContext('2d');"
+ "var img = document.getElementsByTagName('img')[0];"
+ "c.height=img.naturalHeight;"
+ "c.width=img.naturalWidth;"
+ "ctx.drawImage(img, 0, 0,img.naturalWidth, img.naturalHeight);"
+ "var base64String = c.toDataURL();"
+ "return base64String;");
String[] base64Array = base64string.split(",");
String base64 = base64Array[base64Array.length - 1];
byte[] data = Base64.decode(base64);
ByteArrayInputStream memstream = new ByteArrayInputStream(data);
BufferedImage saveImage = ImageIO.read(memstream);
ImageIO.write(saveImage, "png", new File("C:''ClaimsData''downloadspdfs''" + originalName));
基于Mehmet Mecek的答案,我制定了自己的小方法,为了基于className获取图像(因为没有可用的"id"),并且由于我想要获取的每个图像都有相同的className,我使用src属性content(图像的url)来过滤javascript结果,以获得我想要的特定图像。。。
src也只能是部分字符串(如文件名),但必须对HTML中的原始字符串区分大小写。
注意:不包括错误检查。
工作起来很有魅力。
public static void LoadImageFromClassAndSrcInfo(IWebDriver webDriver, string className, string partialSrc, string localFile)
{
IJavaScriptExecutor js = (IJavaScriptExecutor) webDriver;
string base64string = js.ExecuteScript(@"
var c = document.createElement('canvas');
var ctx = c.getContext('2d');
var img = Array.prototype.filter.call(document.getElementsByClassName('"+className+@"'), ({ src }) => src.includes('"+ partialSrc +@"') )[0];
c.height=img.naturalHeight;
c.width=img.naturalWidth;
ctx.drawImage(img, 0, 0,img.naturalWidth, img.naturalHeight);
var base64String = c.toDataURL();
return base64String;
") as string;
var base64 = base64string.Split(',').Last();
using (var stream = new MemoryStream(Convert.FromBase64String(base64)))
{
using (var bitmap = new Bitmap(stream))
{
bitmap.Save(localFile, ImageFormat.Jpeg);
}
}
}
只想分享一次体验:我想把一个captcha图片放在一个单独的表格中,这样用户就可以把文本放在字段中,作为主网页的替代品。我结合了TH Todorov在https://stackoverflow.com/a/30025029(答案如上)和James Hill,在如何在C#中剪切图像的一部分(如上所述)中,提出了以下代码。它在一个情况下工作得很好,你不需要保存图片在驱动器上。我也为网站上的任何图片工作。我希望这能有所帮助。
private Bitmap GetCaptchaImage()
{
ITakesScreenshot ssdriver = driver as ITakesScreenshot;
Screenshot screenshot = ssdriver.GetScreenshot();
IWebElement captchaImage = driver.FindElement(By.XPath("put the captcha image path here"));
Point point = captchaImage.Location;
int width = captchaImage.Size.Width;
int height = captchaImage.Size.Height;
Rectangle section = new Rectangle(point, new Size(width, height));
Bitmap source = new Bitmap(new MemoryStream(screenshot.AsByteArray));
Bitmap finalCaptchImage = CropImage(source, section);
return finalCaptchImage;
}
private Bitmap CropImage(Bitmap source, Rectangle section)
{
Bitmap bmp = new Bitmap(section.Width, section.Height);
Graphics g = Graphics.FromImage(bmp);
g.DrawImage(source, 0, 0, section, GraphicsUnit.Pixel);
return bmp;
}
I'm using Selenium & Google Chrome Driver
谈到硒。
once in the browser, once with WebClient
Htmlunit?
无论如何,为什么不使用webclient(htmlunit驱动程序)或纯htmlunit呢(http://htmlunit.sourceforge.net/)。Htmlunit默认情况下不下载图像。
您可以根据自己的要求随意下载。