NullReferenceException,C# 套接字 BeginConnect 中的错误
本文关键字:错误 BeginConnect 套接字 NullReferenceException | 更新日期: 2023-09-27 18:36:36
我们有一个通过TCP套接字与客户端通信的服务器应用程序。运行几周后,它会崩溃,并显示无法处理的 NullReferenceException。我已经能够使用非常小的控制台程序重现异常,但内部套接字线程池中似乎存在未处理的异常。所以我无法使用任何尝试/捕获块来处理它,因为它不在我的控制范围内。
有人对此有任何想法吗?这是一个框架错误,还是我如何在套接字线程池上捕获异常(所以我们的应用程序不会崩溃)?下面是在几次迭代 (3-10) 后生成异常的示例代码。重要的是要知道服务器处于脱机状态,因此套接字无法连接。它使用的是Visual studio 2010和.Net框架4.0。
internal class Program
{
private static string host;
private static Socket socket;
private static void Main(string[] args)
{
Trace.Listeners.Add(new ConsoleTraceListener());
AppDomain.CurrentDomain.UnhandledException += new UnhandledExceptionEventHandler(CurrentDomain_UnhandledException);
socket = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp);
host = "127.0.0.1";
//aslo the problem is happening whe the host is other network ip address
//host = "192.168.0.1";
//when in other thread doesn not crash application
//Task.Factory.StartNew(() => StartConnecting());
//also crashing the application
//Task.Factory.StartNew(() => StartConnecting(), TaskCreationOptions.LongRunning);
//when it is regular thread the exception occurs
///*
var thread = new Thread(new ThreadStart(StartConnecting));
thread.Start();
//*/
//when it is blocking exception also occurs
//StartConnecting();
Console.WriteLine("Press any key to exit ...");
Console.ReadKey();
}
private static void StartConnecting()
{
try
{
int count = 0;
while (true)
{
try
{
// if i must switch to Socket.Connect(...)?
Trace.WriteLine(string.Format("Connect Try {0} begin", ++count));
var ar = socket.BeginConnect(host, 6500, new AsyncCallback(ConnectCallback), socket);
Trace.WriteLine(string.Format("Connect Try {0} end", count));
}
catch (Exception err)
{
Trace.WriteLine(string.Format("[BeginConnect] error {0}", err.ToString()));
}
System.Threading.Thread.Sleep(1000);
//will see the exception more quick
}
}
catch (Exception e)
{
Trace.WriteLine(string.Format("[StartConnecting] error {0}", e.ToString()));
}
}
private static void CurrentDomain_UnhandledException(object sender, UnhandledExceptionEventArgs e)
{
string msg = e.ExceptionObject.ToString();
Trace.WriteLine(string.Format("[CurrentDomain_UnhandledException] isTerminating={0} error {1}", e.IsTerminating, msg));
Trace.WriteLine("Exiting process");
//the other processing threads continue working
//without problems untill there is thread.sleep
//Thread.Sleep(10000);
}
private static void ConnectCallback(IAsyncResult ar)
{
try
{
Trace.WriteLine("[ConnectCallback] enter");
var socket = (Socket)ar.AsyncState;
socket.EndConnect(ar);
Trace.WriteLine("[ConnectCallback] exit");
}
catch (Exception e)
{
Trace.WriteLine(string.Format("[ConnectCallback] error {0}", e.ToString()));
}
}
}
应用程序启动后,将发生不可避免的崩溃:
[CurrentDomain_UnhandledException] isTerminating=True error System.NullReferenceException: Object reference not set to an instance of an object.
at System.Net.Sockets.Socket.ConnectCallback()
at System.Net.Sockets.Socket.RegisteredWaitCallback(Object state, Boolean timedOut)
at System.Threading._ThreadPoolWaitOrTimerCallback.PerformWaitOrTimerCallback(Object state, Boolean timedOut)
您提供的示例代码重复调用BeginConnect
,而无需等待异步操作完成。
粗略地说,你正在这样做
while(true)
{
socket.BeginConnect(...);
Sleep(1000);
}
因此,当您的线程启动时,它首先调用 BeginConnect()
,然后等待一秒钟,然后在上一个调用仍在执行时再次调用BeginConnect()
。
在我的计算机上,它给了我一个InvalidOperationException
,但我想异常类型可能取决于 CLR 版本(我使用的是 .NET 4.5.1)。
这里有 3 种不同的解决方案:
- 取消与
Socket.EndConnect()
的异步操作 - 等待异步操作完成,并显示
IAsyncResult.AsyncWaitHandle.WaitOne()
- 不要使用
BeginConnect()
,而改用Connect()
我很确定这个无法捕获的错误是由套接字代码中的错误引起的,您应该报告它以进行连接。
下面是 .NET 参考源中的套接字.cs代码的摘录:http://referencesource.microsoft.com/#System/net/System/Net/Sockets/Socket.cs,938ed6a18154d0fc
private void ConnectCallback()
{
LazyAsyncResult asyncResult = (LazyAsyncResult) m_AcceptQueueOrConnectResult;
// If we came here due to a ---- between BeginConnect and Dispose
if (asyncResult.InternalPeekCompleted)
{
// etc.
return;
}
}
此回调由另一个静态方法调用:
private static void RegisteredWaitCallback(object state, bool timedOut)
{
Socket me = (Socket)state;
// Interlocked to avoid a race condition with DoBeginConnect
if (Interlocked.Exchange(ref me.m_RegisteredWait, null) != null)
{
switch (me.m_BlockEventBits)
{
case AsyncEventBits.FdConnect:
me.ConnectCallback();
break;
case AsyncEventBits.FdAccept:
me.AcceptCallback(null);
break;
}
}
}
此静态方法永远不会取消注册,它始终被调用,但它依赖于 m_RegisteredWait
事件来确定它是否必须传递给套接字成员方法。
问题是我想这个事件有时不为空,而m_AcceptQueueOrConnectResult
可以为空,这会导致问题,在无法捕获的线程中。
话虽如此,问题的根本原因是您的代码首先表现出问题,正如其他人所指出的那样。为避免这种可怕的无法捕获的错误,只需确保在发生错误时在套接字上调用Close
或Dispose
,这将在内部清除m_RegisteredWait
成员。例如,BeginConnect 文档是这样说的:
若要取消对 BeginConnect 方法的挂起调用,请关闭套接字。 当异步操作处于 进度,则调用提供给 BeginConnect 方法的回调。 对 EndConnect 方法的后续调用将引发 ObjectDisposedException,以指示操作已被 取消。
在您的示例中,只需将以下行添加到回调代码中:
private static void ConnectCallback(IAsyncResult ar)
{
try
{
...
}
catch (Exception e)
{
if (_socket != null) _socket.Dispose();
}
}
现在,您仍然会有错误,但它们将是正常错误。
如果您仔细查看堆栈跟踪,您会发现NullReferenceException
发生在 System.Net.Sockets.Socket.ConnectCallback
中。如果您查看代码,您会发现您有一个名为 ConnectCallback
的方法。
这就是我们所说的"巧合"。
请将回调方法的名称更改为 MyConnectCallback
,并将BeginConnect
调用更改为:
var ar = socket.BeginConnect(host, 6500, new AsyncCallback(MyConnectCallback), socket);
看看这是否会改变什么。
如果我是对的,并且您的ConnectCallback
方法从未被调用,那么我也不得不想知道您的代码是如何工作的。