Error Propagation of Capon’s Minimum Variance Estimator

Toepfer, S.; Narita, Y.; Heyner, D.; Motschmann, U.

doi:10.3389/fphy.2021.684410

BRIEF RESEARCH REPORT article

Front. Phys., 09 June 2021

Sec. Space Physics

Volume 9 - 2021 | https://doi.org/10.3389/fphy.2021.684410

Error Propagation of Capon’s Minimum Variance Estimator

S. Toepfer¹*

Y. Narita^2,3

D. Heyner³

U. Motschmann^1,4

¹Institut für Theoretische Physik, Technische Universität Braunschweig, Braunschweig, Germany
²Space Research Institute, Austrian Academy of Sciences, Graz, Austria
³Institut für Geophysik und Extraterrestrische Physik, Technische Universität Braunschweig, Braunschweig, Germany
⁴DLR Institute of Planetary Research, Berlin, Germany

The error propagation of Capon’s minimum variance estimator resulting from measurement errors and position errors is derived within a linear approximation. It turns out, that Capon’s estimator provides the same error propagation as the conventionally used least square fit method. The shape matrix which describes the location depence of the measurement positions is the key parameter for the error propagation, since the condition number of the shape matrix determines how the errors are amplified. Furthermore, the error resulting from a finite number of data samples is derived by regarding Capon’s estimator as a special case of the maximum likelihood estimator.

1 Introduction

The reconstruction of model parameters from a given set of measurements is one of the most important tasks in geophysical and space science studies. The measurements are always affected by measurement errors which result in estimation errors for the wanted model parameters. The Capon method [1–3], also known as minimum variance distortionless response estimator (MVDR), is currently being considered as a robust inversion method for the analysis of planetary magnetic fields. In the past, the method has successfully been applied to the analysis of waves [1, 4] and therefore, specific attention has been paid to errors of the spectrum resulting from random perturbations in the amplitude and phase of sensor arrays [5]. Since Capon’s method is based on the evaluation of statistically averaged data, the spectrum is also affected by errors resulting from a finite number of samples [6]. Within the estimation of the frequency-wavenumber spectrum, the difference between static structures and waves or their combination can be discerned through dispersion relation analysis [7–12]. Concerning the application of the Capon method for the analysis of planetary magnetic fields, the error propagation of Capon’s estimator itself is of major importance for assessing the quality of the reconstructed model parameters. In general, two essential types of errors are expectable. On the one hand, the measured magnetic field data are affected by e.g., offsets, gains resulting from thermal variations and spacecraft magnetic disturbances [13]. On the other hand, the determination of the spacecraft’s positions can be defective (measurement position errors), which results in a defective shape matrix. As a follow-up of the generalized derivation of Capon’s method [3] and the error estimation of the power spectrum [6], in this work the effects of measurement errors, measurement position errors as well as finite sample sizes on Capon’s estimator are considered.

2 Capon’s Method

Before deducing the error propagation of Capon’s method, the main ideas of the method are shortly revisited [2, 3]. Due to the complexity of several physical problems, the entire parametrization of experimental data is unrealizable. Thus, it is useful to decompose the measurements $\underline{B}$ into parametrized parts $\underline{\underline{H}} \underline{g}$ , where $\underline{g}$ contains the corresponding wanted model coefficients and the shape matrix $\underline{\underline{H}}$ describes the distribution of the measurement positions with respect to the underlying model, non-parametrized parts $\underline{v}$ as well as measurement noise $\underline{n}$ , so that

\underline{B} = \underline{\underline{H}} \underline{g} + \underline{v} + \underline{n} (1)

is valid. The measurement noise is assumed to be Gaussian with variance $σ_{n}$ and zero mean $(〈 \underline{n} 〉 = 0)$ . Since the shape matrix $\underline{\underline{H}}$ is not invertible and the non-parametrized parts are unknown, the exact solution for the wanted model coefficients $\underline{g}$ is not available in general. Capon’s method delivers an estimator ${\underline{g}}_{C}$ for the ideal solution $\underline{g}$ . The method is based on the construction of a filter matrix $\underline{\underline{w}}$ , that minimizes the output power

tr [{\underline{\underline{w}}}^{†} \underline{\underline{M}} \underline{\underline{w}}] (2)

with respect to the distortionless constraint

{\underline{\underline{w}}}^{†} \underline{\underline{H}} = \underline{\underline{I}} (3)

where $tr [{\underline{\underline{w}}}^{†} \underline{\underline{M}} \underline{\underline{w}}]$ is the trace of the matrix ${\underline{\underline{w}}}^{†} \underline{\underline{M}} \underline{\underline{w}}$ and $\underline{\underline{I}}$ is the identity matrix. The matrix $\underline{\underline{M}} = 〈 \underline{B} \circ \underline{B} 〉$ denotes the data covariance matrix. Capon’s estimator realizing the minimal output power results in

{\underline{g}}_{C} = {\underline{\underline{w}}}^{†} 〈 \underline{B} 〉 = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} 〈 \underline{B} 〉 . (4)

The robustness of the method can be improved by the diagonal loading technique $\underline{\underline{M}} \to \underline{\underline{M}} + σ_{d}^{2} \underline{\underline{I}}$ , where $σ_{d}$ is the so called diagonal loading parameter [3]. Thus, the estimator depends on the measurements and on the measurement positions so that measurement errors as well as measurement position errors transfer onto the estimator.

3 Error Propagation

In the following, the error propagation of Capon’s estimator is deduced. Since it is expectable that the errors are much smaller than the measurements themselves, the error propagation is derived by making use of a linearization. For the approximation of the matrix inversions that are necessary for calculating Capon’s estimator, the Neumann series bears of essential meaning for which reason we discuss it in a seperate section.

3.1 Neumann Series

The Neumann series is a special case of the functional calculus for linear operators or matrices, respectively, [14] and enables the approximation of matrix inversions.

Let $\underline{\underline{T}}$ denote a bounded matrix with norm $‖ \underline{\underline{T}} ‖ < 1$ . Then,

{[\underline{\underline{I}} - \underline{\underline{T}}]}^{- 1} = \sum_{k = 0}^{\infty} {\underline{\underline{T}}}^{k} = \underline{\underline{I}} + \underline{\underline{T}} +  ({‖ \underline{T} ‖}^{2}) (5)

where $\underline{\underline{I}}$ is the identity matrix and ${\underline{\underline{T}}}^{k}$ denotes the k’th power of the matrix $\underline{\underline{T}}$ . The demand $‖ \underline{\underline{T}} ‖ < 1$ guarantees the convergence of the series. Thus, the Neumann series can be understood as a generalization of the geometric series for linear operators.

As a direct consequence it follows that

{[\underline{\underline{I}} + \underline{\underline{T}}]}^{- 1} = {[\underline{\underline{I}} - (- \underline{\underline{T}})]}^{- 1} = \sum_{k = 0}^{\infty} {(- 1)}^{k} {\underline{\underline{T}}}^{k} = \underline{\underline{I}} - \underline{\underline{T}} +  ({‖ \underline{\underline{T}} ‖}^{2}) . (6)

For the estimation of Capon’s error propagation a generalized formulation of the Neumann series is required. To expand the inverse of the sum of a matrix $\underline{\underline{S}}$ and a matrix $\underline{\underline{T}}$ , where it is assumed that $\underline{\underline{S}}$ is invertible, the sum can be rewritten as

\underline{\underline{S}} + \underline{\underline{T}} = \underline{\underline{S}} (\underline{\underline{I}} + {\underline{\underline{S}}}^{- 1} \underline{\underline{T}}) . (7)

If $‖ {\underline{\underline{S}}}^{- 1} \underline{\underline{T}} ‖ < 1$ , the Neumann series can be applied to the sum $\underline{\underline{I}} + {\underline{\underline{S}}}^{- 1} \underline{\underline{T}}$ resulting in

\begin{matrix} {[\underline{\underline{S}} + \underline{\underline{T}}]}^{- 1} = {[\underline{\underline{S}} (\underline{\underline{I}} + {\underline{\underline{S}}}^{- 1} \underline{\underline{T}})]}^{- 1} = {(\underline{\underline{I}} + {\underline{\underline{S}}}^{- 1} \underline{\underline{T}})}^{- 1} {\underline{\underline{S}}}^{- 1} \\ = [\overset{\infty}{\sum_{k = 0}} {(- 1)}^{k} {({\underline{\underline{S}}}^{- 1} \underline{\underline{T}})}^{k}] {\underline{\underline{S}}}^{- 1} \\ = {\underline{\underline{S}}}^{- 1} - {\underline{\underline{S}}}^{- 1} \underline{\underline{T}} {\underline{\underline{S}}}^{- 1} +  ({‖ {\underline{\underline{S}}}^{- 1} \underline{\underline{T}} ‖}^{2}) . \end{matrix} (8)

3.2 Measurement Errors

In the following, the error of Capon’s estimator resulting from measurement errors is derived. The model for the (temporal) statistically averaged accurate data $〈 \underline{B} 〉$ without measurement errors is given by

〈 \underline{B} 〉 = \underline{\underline{H}} \underline{g} + 〈 \underline{v} 〉, (9)

where $\underline{g}$ is the wanted coefficient vector, $\underline{\underline{H}}$ denotes the shape matrix which describes the spatial dependence of the measurement positions with respect to the underlying model and $〈 \underline{v} 〉$ denotes the (temporal) statistically averaged parts of the measurements that are not parametrized by the model $\underline{\underline{H}} \underline{g}$ [3]. The corresponding accurate estimator resulting from Capon’s method is given by

{\underline{g}}_{C} = {\underline{\underline{w}}}^{†} 〈 \underline{B} 〉 (10)

where

{\underline{\underline{w}}}^{†} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} (11)

denotes the accurate filter matrix composed of the shape matrix $\underline{\underline{H}}$ and the data covariance matrix $\underline{\underline{M}} = 〈 \underline{B} \circ \underline{B} 〉$ [3].

The perturbed measurements $\tilde{\underline{B}}$ can be rewritten as

\tilde{\underline{B}} = \underline{B} + δ \underline{B}, (12)

where $δ \underline{B}$ denotes the measurement error. Because of the linearity of the averaging process, the perturbed averaged measurements $〈 \tilde{\underline{B}} 〉$ are given by

〈 \tilde{\underline{B}} 〉 = 〈 \underline{B} 〉 + 〈 δ \underline{B} 〉 (13)

where $〈 δ \underline{B} 〉$ denotes the statistically averaged measurement error. The corresponding perturbed estimator results in

{\underline{\tilde{g}}}_{C} = {\underline{\underline{\tilde{w}}}}^{†} 〈 \tilde{\underline{B}} 〉 (14)

where

{\underline{\underline{\tilde{w}}}}^{†} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} (15)

denotes the perturbed filter matrix. Thus, the difference between the accurate and the perturbed estimator results in

\begin{matrix} {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = {\underline{\underline{w}}}^{†} 〈 \underline{B} 〉 - {\underline{\underline{\tilde{w}}}}^{†} 〈 \tilde{\underline{B}} 〉 = {\underline{\underline{w}}}^{†} 〈 \tilde{\underline{B}} 〉 - {\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 - {\underline{\underline{\tilde{w}}}}^{†} 〈 \tilde{\underline{B}} 〉 \\ = ({\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†}) 〈 \tilde{\underline{B}} 〉 - {\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 \end{matrix} (16)

Within the practical application only the perturbed measurements $〈 \tilde{\underline{B}} 〉$ are known and thus, only the filter matrix ${\underline{\underline{\tilde{w}}}}^{†}$ is known. For the calculation of the difference between the two filter matrices, in the following a linearized approximation is applied. By means of Eq. 12, the unknown accurate data covariance matrix can be rewritten as

\begin{matrix} \underline{\underline{M}} = 〈 \underline{B} \circ \underline{B} 〉 = 〈 (\underline{\tilde{B}} - δ \underline{B}) \circ (\underline{\tilde{B}} - δ \underline{B}) 〉 \\ = \underline{\underline{\tilde{M}}} - 2 〈 \underline{\tilde{B}} 〉 \circ 〈 δ \underline{B} 〉 + 〈 δ \underline{B} \circ δ \underline{B} 〉 \end{matrix} (17)

where $\underline{\underline{\tilde{M}}} = 〈 \underline{\tilde{B}} \circ \underline{\tilde{B}} 〉$ . We assume, that the measurement errors are much smaller than the measurements themselves, i.e., $| δ \underline{B} | ≪ | \underline{\tilde{B}} |$ . This assumption is surely justified in the majority of applications. Considering for example the analysis of planetary magnetic fields, the measurement errors are smaller than $1 nT$ , so that $| δ \underline{B} | / | \underline{\tilde{B}} | < 1 %$ . Thus, in the following all terms being quadratic within the errors (e.g., $〈 δ \underline{B} \circ δ \underline{B} 〉$ ) will be neglected, so that the data covariance matrix results in

\underline{\underline{M}} = \underline{\underline{\tilde{M}}} - 2 〈 \underline{\tilde{B}} 〉 \circ 〈 δ \underline{B} 〉 = : \underline{\underline{\tilde{M}}} + Δ \underline{\underline{M}} . (18)

In the case of ${‖ {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} ‖}_{2} < 1$ , where ${‖ . ‖}_{2}$ denotes the spectral norm, the application of the Neumann series (Section 3.1) delivers

{\underline{\underline{M}}}^{- 1} = {(\underline{\underline{\tilde{M}}} + Δ \underline{\underline{M}})}^{- 1} \approx {\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (19)

as well as

\begin{matrix} \underline{\underline{P}} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} \overset{(19)}{=} {[{\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}} - {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}}]}^{- 1} \\ = {[{\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}}]}^{- 1} + {[{\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}} {[{\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}}]}^{- 1} \\ = \underline{\underline{\tilde{P}}} + \underline{\underline{\tilde{P}}} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}} \underline{\underline{\tilde{P}}} \end{matrix} (20)

for the unknown coefficient matrix $\underline{\underline{P}}$ [3]. Using

{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} = {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (21)

it follows that

\begin{matrix} {\underline{\underline{w}}}^{†} = \underline{\underline{P}} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \\ = [\underline{\underline{\tilde{P}}} + \underline{\underline{\tilde{P}}} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}} \underline{\underline{\tilde{P}}}] \cdot [{\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1}] \\ = \underline{\underline{\tilde{P}}} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - \underline{\underline{\tilde{P}}} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + \\ \underline{\underline{\tilde{P}}} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}} \underline{\underline{\tilde{P}}} {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} +  ({‖ Δ \underline{\underline{\tilde{M}}} ‖}^{2}) \\ = {\underline{\underline{\tilde{w}}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} \\ = {\underline{\underline{\tilde{w}}}}^{†} + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}}), \end{matrix} (22)

where $\underline{\underline{I}}$ again denotes the identity matrix. Thus, the difference between the filter matrices can be approximated by

{\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}}) . (23)

Inserting this approximation into Eq. 16 delivers

{\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}}) 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 (24)

where

{\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 = [{\underline{\underline{\tilde{w}}}}^{†} + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}})] 〈 δ \underline{B} 〉 = {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 (25)

within the linear approximation. Further transformation for estimating the relative error of the estimator delivers

\begin{matrix} {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}}) 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 \\ = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 - 〈 \underline{\tilde{B}} 〉) - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 \\ = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{H}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 \\ = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (\underline{\underline{H}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 . \end{matrix} (26)

Making use of the Cauchy-Schwarz inequality yields

{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2} \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} ‖}_{2}^{2} \cdot {‖ \underline{\underline{H}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉 ‖}_{{\underline{\underline{\tilde{M}}}}^{- 1}}^{2} + {| {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 |}^{2}, (27)

where ${‖ \underline{\underline{H}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉 ‖}_{{\underline{\underline{\tilde{M}}}}^{- 1}}^{2} = {| {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) |}^{2}$ . For the calculation of Capon’s estimator, the weighted difference $| {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) |^{2}$ is minimized with respect to the unknown set of model parameters $\underline{\tilde{g}}$ , resulting in $| {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) |^{2} \sim 10^{- 7}$ [3]. A discussion about the calculation of the matrix ${\underline{\underline{M}}}^{- 1 / 2}$ is given within the Appendix. Assuming that the weighted model mismatches are neglibigly small compared to the measurement errors, the deviation can be estimated upwards via

{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2} \leq {| {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 |}^{2} \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {| 〈 δ \underline{B} 〉 |}^{2}, (28)

or equivalently

\frac{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}{| {\underline{g}}_{C} |} \leq \frac{{‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2} \cdot | 〈 δ \underline{B} 〉 |}{| {\underline{g}}_{C} |} = \frac{{‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2} \cdot | 〈 δ \underline{B} 〉 |}{| {\underline{g}}_{C} |} \frac{| 〈 \underline{B} 〉 |}{| 〈 \underline{B} 〉 |} (29)

for the relative error. When the measurements are adequately described by the underlying model, i.e., $〈 \underline{B} 〉 \approx \underline{\underline{H}} {\underline{g}}_{C}$ , it follows that

\frac{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}{| {\underline{g}}_{C} |} \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2} \cdot {‖ \underline{\underline{H}} ‖}_{2} \frac{| 〈 δ \underline{B} 〉 |}{| 〈 \underline{B} 〉 |} . (30)

Comparing this expression with the relative error of the least square fit estimator [15].

\frac{| {\underline{g}}_{L} - {\underline{\tilde{g}}}_{L} |}{| {\underline{g}}_{L} |} \leq {‖ {\underline{\underline{H}}}^{+} ‖}_{2} \cdot {‖ \underline{\underline{H}} ‖}_{2} \frac{| 〈 δ \underline{B} 〉 |}{| 〈 \underline{B} 〉 |}, (31)

where ${\underline{\underline{H}}}^{+}$ denotes the pseudoinverse of the shape matrix $\underline{\underline{H}}$ , shows that the error propagation of Capon’s estimator follows the structure of the error propagation of the least square fit estimator. Since Capon’s method is based on the evaluation of averaged data, it can be seen that Gaussian errors with a vanishing mean value (i.e., $〈 δ \underline{B} 〉 = 0$ ) do not influence the estimator. Making use of the distortionless constraint [3].

{\underline{\underline{\tilde{w}}}}^{†} \underline{\underline{H}} = \underline{\underline{I}} (32)

delivers

\begin{matrix} {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2} = max_{\underline{B}} \frac{| {\underline{\underline{\tilde{w}}}}^{†} \underline{B} |}{| \underline{B} |} = max_{\underline{\underline{H}} \underline{\tilde{g}}} \frac{| {\underline{\underline{\tilde{w}}}}^{†} \underline{\underline{H}} \underline{\tilde{g}} |}{| \underline{\underline{H}} \underline{\tilde{g}} |} \\ = max_{\underline{\tilde{g}}} \frac{| \underline{\tilde{g}} |}{| \underline{\underline{H}} \underline{\tilde{g}} |} = {(min_{\underline{\tilde{g}}} \frac{| \underline{\underline{H}} \underline{\tilde{g}} |}{| \underline{\tilde{g}} |})}^{- 1} \\ = \frac{1}{Σ_{min}} = {‖ {\underline{\underline{H}}}^{+} ‖}_{2}, \end{matrix} (33)

where $Σ_{min}$ denotes the smallest singular value of the shape matrix $\underline{\underline{H}}$ [15], i.e. $1 / Σ_{min}$ describes the largest singular value of ${\underline{\underline{H}}}^{+}$ . Using the definition of the condition number

κ (\underline{\underline{H}}) = \frac{Σ_{max}}{Σ_{min}} = {‖ {\underline{\underline{H}}}^{+} ‖}_{2} \cdot {‖ \underline{\underline{H}} ‖}_{2} = {‖ {\underline{\underline{w}}}^{†} ‖}_{2} \cdot {‖ \underline{\underline{H}} ‖}_{2} \geq 1, (34)

where $Σ_{max}$ denotes the largest singular value of the shape matrix $\underline{\underline{H}}$ , yields

\frac{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}{| {\underline{g}}_{C} |} \leq κ (\underline{\underline{H}}) \frac{| 〈 δ \underline{B} 〉 |}{| 〈 \underline{B} 〉 |} . (35)

Thus, Capon’s estimator propagates the measurement errors in the same way as the least square fit estimator. This mathematical property can be interpreted as follows: These two methods differ in the filter matrices ${\underline{\underline{H}}}^{+}$ and ${\underline{\underline{w}}}^{†}$ which weight or eliminate parts of the data in different ways. Since these matrices are applied to the same set of measurements, which is characterized by a given measurement error, the different weighting of the data or the elimination of subsets does not reduce the errors, since the weighted data originate from the same ensemble. The upper bound of the relative estimation error is qualitatively sketched in Figure 1.

FIGURE 1

FIGURE 1. Sketch of the upper bound for the relative estimation error resulting from measurement errors with respect to the condition number $κ (\underline{\underline{H}})$ of the shape matrix.

Furthermore, it should be noted that the condition number of the shape matrix determines how the measurement errors are amplified. Thereby, the condition number depends on the underlying model and the measurement positions, whereas the measurement error is produced by the sensor. For a given underlying model, the condition number solely depends on the measurement positions. Thus, the estimation errors can be reduced by analyzing measurements from suitable data points. Considering the analysis of Mercury’s magnetic field, the underlying model describes the geometry of the magnetic field, for example the internal dipole and quadrupole field [2, 3]. For the estimation of the corresponding Gauss coefficients [16, 17], the data points have to cover the geometry of the field properly. For example, the superposition of Mercury’s internal dipole field with the quadrupole field can equivalently be described as a northward shifted dipole field. When only measurement positions in the northern hemisphere are available, the condition number of the shape matrix increases, resulting in large estimation errors so that the internal field can be misinterpreted as a strong dipole field. The analysis of measurement points covering the southern and the northern hemisphere symmetrically, like that of the BepiColombo mission, decreases the condition number and enables a more detailed characterization of the geometry of Mercury’s internal magnetic field [18]. The smaller the condition number of the shape matrix becomes, the better the geometry of the field is covered by the data points [18].

Before discussing the errors resulting from the perturbed determination of the measurement positions, let us make a general comment about the error of Capon’s estimator resulting from measurement errors. The perturbed data can be rewritten in the form

〈 \underline{\tilde{B}} 〉 = 〈 \underline{B} 〉 + 〈 δ \underline{B} 〉 = \underline{\underline{H}} \underline{g} + 〈 \underline{v} 〉 + 〈 δ \underline{B} 〉 = \underline{\underline{H}} \underline{g} + 〈 \underline{\tilde{v}} 〉, (36)

where $〈 \underline{\tilde{v}} 〉 = 〈 \underline{v} 〉 + 〈 δ \underline{B} 〉$ . Since the filter matrix ${\underline{\underline{\tilde{w}}}}^{†}$ eliminates the non-parametrized parts from the total measured field [3], one might suppose that the measurement errors do not influence the estimation since these errors can as well be interpreted as non-parametrized parts. From the elimination of the non-parametrized parts

0 = {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{v}} 〉 = {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{v} 〉 + {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 (37)

it does not follow that ${\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 = 0$ . Since this term dominates the error of the estimator (cf. Eq. 28), the measurement errors are not eliminated by the filter matrix in general.

3.3 Measurement Position Errors

The model for the correctly determined measurement positions is given by

〈 \underline{B} 〉 = \underline{\underline{H}} \underline{g} + 〈 \underline{v} 〉 . (38)

The corresponding accurate estimator results in

{\underline{g}}_{C} = {\underline{\underline{w}}}^{†} 〈 \underline{B} 〉, (39)

where

{\underline{\underline{w}}}^{†} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} . (40)

The perturbed determination of the sensor’s positions transfers onto a perturbed shape matrix $\underline{\underline{H}}$ . Thus, the underlying model $\underline{\underline{H}} \underline{g}$ and the non-parametrized parts $〈 \underline{v} 〉$ are perturbed so that the noisy model is given by

〈 \underline{B} 〉 = \underline{\underline{\tilde{H}}} \underline{\tilde{g}} + 〈 \underline{\tilde{v}} 〉 (41)

and the corresponding perturbed estimator results in

{\underline{\tilde{g}}}_{C} = {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{B} 〉, (42)

where

{\underline{\underline{\tilde{w}}}}^{†} = {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} . (43)

The deviation between the accurate and the perturbed estimator results in

{\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = ({\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†}) 〈 \underline{B} 〉 . (44)

As discussed above, only the perturbed filter matrix $\underline{\underline{\tilde{H}}}$ is known. Within a linear approximation, the unknown matrix $\underline{\underline{H}}$ can be rewritten as $\underline{\underline{H}} = \underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}}$ , where ${‖ Δ \underline{\underline{H}} ‖}_{2} ≪ {‖ \underline{\underline{\tilde{H}}} ‖}_{2}$ . For example, consider the shape matrix

\underline{\underline{H}} = [\begin{matrix} 1 & {(\frac{R_{M}}{r_{1}})}^{3} \\ 1 & {(\frac{R_{M}}{r_{2}})}^{3} \end{matrix}] (45)

which describes the magnetic field of a current sheet superposed with Mercury’s internal dipolar field [6], where $R_{M}$ indicates the planetary radius of Mercury and $r_{1}$ and $r_{2}$ are the measurement positions. The perturbed filter matrix is given by

\underline{\underline{\tilde{H}}} = [\begin{matrix} 1 & {(\frac{R_{M}}{r_{1} + Δ r_{1}})}^{3} \\ 1 & {(\frac{R_{M}}{r_{2} + Δ r_{2}})}^{3} \end{matrix}] = [\begin{matrix} 1 & \frac{R_{M}^{3}}{r_{1}^{3} {(1 + Δ r_{1} / r_{1})}^{3}} \\ 1 & \frac{R_{M}^{3}}{r_{2}^{3} {(1 + Δ r_{2} / r_{2})}^{3}} \end{matrix}] . (46)

Assuming that $Δ r_{i} ≪ r_{i}$ , for $i = 1,2$ , the perturbed matrix can be rewritten as

\underline{\underline{\tilde{H}}} = [\begin{matrix} 1 & {(\frac{R_{M}}{r_{1}})}^{3} \\ 1 & {(\frac{R_{M}}{r_{2}})}^{3} \end{matrix}] + [\begin{matrix} 0 & - 3 \frac{R_{M}^{3}}{r_{1}^{3}} \frac{Δ r_{1}}{r_{1}} \\ 0 & - 3 \frac{R_{M}^{3}}{r_{2}^{3}} \frac{Δ r_{2}}{r_{2}} \end{matrix}] = \underline{\underline{H}} - Δ \underline{\underline{H}} (47)

by making use of a Taylor series expansion. It should be noted that the shape matrix can be linearized for any underlying model by performing a Taylor series expansion for the functions within the model. Linearization of the error terms for the estimation of the unknown accurate filter matrix delivers

\begin{matrix} {\underline{\underline{w}}}^{†} \overset{(40)}{=} {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \\ = {[({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}})]}^{- 1} ({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) {\underline{\underline{M}}}^{- 1} \\ = {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}}) + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}})]}^{- 1} ({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) {\underline{\underline{M}}}^{- 1} \\ = {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}} + {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} Δ \underline{\underline{H}} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} ({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) {\underline{\underline{M}}}^{- 1} . \end{matrix} (48)

Making use of the Neumann series results in

\begin{array}{l} {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}} + {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} Δ \underline{\underline{H}} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} \\ = {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} - {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} \cdot \\ {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} Δ \underline{\underline{H}} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}] [{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} \\ = \underline{\underline{\tilde{P}}} - \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} Δ \underline{\underline{H}} \underline{\underline{\tilde{P}}} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}} \underline{\underline{\tilde{P}}}, \end{array} (49)

so that

\begin{matrix} {\underline{\underline{w}}}^{†} = \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} - \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} Δ \underline{\underline{H}} \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} \\ - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}} \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{M}}}^{- 1} + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \\ = {\underline{\underline{\tilde{w}}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \\ = {\underline{\underline{\tilde{w}}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}}), \end{matrix} (50)

or equivalently

{\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} = - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{I}}) . (51)

Thus, the deviation of the estimator can be approximated via

{\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{B} 〉 - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{B} 〉 - 〈 \underline{B} 〉) . (52)

By ${\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{B} 〉 = {\underline{\tilde{g}}}_{C}$ it follows that

{\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\tilde{g}}}_{C} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{B} 〉), (53)

and therefore

{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2} \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ Δ \underline{\underline{H}} ‖}_{2}^{2} \cdot {| {\underline{\tilde{g}}}_{C} |}^{2} + {‖ \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1 / 2} ‖}_{2}^{2} \cdot {| {\underline{\underline{M}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{B} 〉) |}^{2} . (54)

Within the application of Capon’s method to Mercury’s magnetic field analysis, the first summand on the right hand side of Eq. 54 is of the order of about $10 {nT}^{2}$ , whereas ${‖ \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1 / 2} ‖}_{2}^{2} \cdot {| {\underline{\underline{M}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{B} 〉) |}^{2} \sim 500 \cdot 10^{- 7} {nT}^{2}$ and thus, the weighted model mismatches are negligibly small compared to the measurement errors, so that the deviation can be estimated upwards via

{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2} \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ Δ \underline{\underline{H}} ‖}_{2}^{2} \cdot {| {\underline{\tilde{g}}}_{C} |}^{2} . (55)

The relative error results in

\frac{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}{| {\underline{\tilde{g}}}_{C} |} \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2} \cdot {‖ \underline{\underline{\tilde{H}}} ‖}_{2} \cdot \frac{{‖ Δ \underline{\underline{H}} ‖}_{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}} = κ (\underline{\underline{\tilde{H}}}) \cdot \frac{{‖ Δ \underline{\underline{H}} ‖}_{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}}, (56)

where $κ (\underline{\underline{\tilde{H}}})$ denotes the condition number of the perturbed shape matrix $\underline{\underline{\tilde{H}}}$ . The upper bound for the relative error with respect to the condition number is qualitatively sketched in Figure 2. Since ${‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2} = {‖ {\underline{\underline{\tilde{H}}}}^{+} ‖}_{2}$ (cf. Eq. 33), the error propagation of Capon’s estimator again equals the error propagation of the least square fit estimator [15].

\frac{| {\underline{g}}_{L} - {\underline{\tilde{g}}}_{L} |}{| {\underline{\tilde{g}}}_{L} |} \leq {‖ {\underline{\underline{\tilde{H}}}}^{+} ‖}_{2} \cdot {‖ \underline{\underline{\tilde{H}}} ‖}_{2} \cdot \frac{{‖ Δ \underline{\underline{H}} ‖}_{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}} = κ (\underline{\underline{\tilde{H}}}) \cdot \frac{{‖ Δ \underline{\underline{H}} ‖}_{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}} . (57)

FIGURE 2

FIGURE 2. Sketch of the upper bound for the relative estimation error resulting from measurement position errors with respect to the condition number $κ (\underline{\underline{\tilde{H}}})$ of the shape matrix.

3.4 Measurement Errors and Measurement Position Errors

Within the former sections the influences of measurement errors and measurement position errors have been discussed separately. Within the practical application it is expectable that both errors occur simultanously. The relative error resulting from the noisy measurements and the perturbed measurement positions is given by the quadratic sum of the two cases discussed above

\frac{{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2}}{{| {\underline{\tilde{g}}}_{C} |}^{2}} \leq κ^{2} (\underline{\underline{\tilde{H}}}) (\frac{{‖ Δ \underline{\underline{H}} ‖}_{2}^{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2}} + \frac{{| 〈 δ \underline{B} 〉 |}^{2}}{{| 〈 \underline{\tilde{B}} 〉 |}^{2}}) . (58)

This can be derived as follows:

The accurate model is given by

〈 \underline{B} 〉 = \underline{\underline{H}} \underline{g} + 〈 \underline{v} 〉, (59)

so that the corresponding accurate estimator results in

{\underline{g}}_{C} = {\underline{\underline{w}}}^{†} 〈 \underline{B} 〉 (60)

where

{\underline{\underline{w}}}^{†} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} . (61)

The measured data are not affected by the perturbed determination of the sensor’s positions. The data are solely affected by measurement errors $〈 δ \underline{B} 〉$ so that the perturbed model can be written as

〈 \underline{\tilde{B}} 〉 = 〈 \underline{B} 〉 + 〈 δ \underline{B} 〉 = \underline{\underline{\tilde{H}}} \underline{\tilde{g}} + 〈 \underline{\tilde{v}} 〉 + 〈 δ \underline{B} 〉 (62)

The corresponding perturbed estimator results in

{\underline{\tilde{g}}}_{C} = {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉, (63)

where

{\underline{\underline{\tilde{w}}}}^{†} = {[{\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}}]}^{- 1} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} (64)

and $\underline{\underline{M}} = \underline{\underline{\tilde{M}}} + Δ \underline{\underline{M}}$ . The noisy shape matrix can again be written as $\underline{\underline{H}} = \underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}}$ within a linear approximation. Thus, the deviation between the accurate and the perturbed estimator is given by

\begin{array}{l} {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = {\underline{\underline{w}}}^{†} 〈 \underline{B} 〉 - {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 = {\underline{\underline{w}}}^{†} 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 - {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 \\ = ({\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†}) 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 . \end{array} (65)

By making use of the Neumann series, the unknown filter matrix ${\underline{\underline{w}}}^{†}$ can be rewritten within a linear approximation resulting in

\begin{matrix} {\underline{\underline{w}}}^{†} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \\ = {[({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) {(\underline{\underline{\tilde{M}}} + Δ \underline{\underline{M}})}^{- 1} (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}})]}^{- 1} ({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) {(\underline{\underline{\tilde{M}}} + Δ \underline{\underline{M}})}^{- 1} \\ = {[({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) ({\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1}) (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}})]}^{- 1} ({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) ({\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1}) . \end{matrix}

Using

\begin{array}{l} ({\underline{\underline{\tilde{H}}}}^{†} + Δ {\underline{\underline{H}}}^{†}) ({\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1}) (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}}) \\ = ({\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1}) (\underline{\underline{\tilde{H}}} + Δ \underline{\underline{H}}) \\ = {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} - {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} + {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{H}} \\ = {\underline{\underline{\tilde{P}}}}^{- 1} - {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} + {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{H}} \end{array} (66)

and again making use of the Neumann series delivers

\begin{array}{l} {\underline{\underline{w}}}^{†} = [\underline{\underline{\tilde{P}}} + \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} \underline{\underline{\tilde{P}}} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} \underline{\underline{\tilde{P}}} - \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{H}} \underline{\underline{\tilde{P}}}] \\ \cdot ({\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1}) \\ = \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \\ + \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \\ - \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} Δ \underline{\underline{H}} \underline{\underline{\tilde{P}}} {\underline{\underline{\tilde{H}}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} = {\underline{\underline{\tilde{w}}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \\ + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} . \end{array} (67)

Taking into account that

{\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 = {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 (68)

within the linear approximation as well as

\begin{array}{l} {\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} = - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} \\ - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†}, \end{array} (69)

the deviation between the estimators can be approximated by

\begin{array}{l} {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = ({\underline{\underline{w}}}^{†} - {\underline{\underline{\tilde{w}}}}^{†}) 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{w}}}^{†} 〈 δ \underline{B} 〉 \\ = - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} 〈 \underline{\tilde{B}} 〉 + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} 〈 \underline{\tilde{B}} 〉 + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 \\ - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 \end{array} (70)

Using ${\underline{\underline{\tilde{w}}}}^{†} 〈 \underline{\tilde{B}} 〉 = {\underline{\tilde{g}}}_{C}$ , it follows that

\begin{array}{l} {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} = - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} 〈 \underline{\tilde{B}} 〉 + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} 〈 \underline{\tilde{B}} 〉 + {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} \\ - \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\tilde{g}}}_{C} - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 \\ = {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1} (〈 \underline{\tilde{B}} 〉 - \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C}) \\ - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\tilde{g}}}_{C} - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 \end{array} (71)

and thus,

\begin{array}{l} {| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2} = {‖ {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) + \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (〈 \underline{\tilde{B}} 〉 - \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C}) - {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{H}} {\underline{\tilde{g}}}_{C} - {\underline{\underline{\tilde{w}}}}^{†} 〈 δ \underline{B} 〉 ‖}_{2}^{2} \\ \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} Δ \underline{\underline{M}} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} ‖}_{2}^{2} \cdot {| {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (\underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} - 〈 \underline{\tilde{B}} 〉) |}^{2} + {‖ \underline{\underline{\tilde{P}}} Δ {\underline{\underline{H}}}^{†} {\underline{\underline{\tilde{M}}}}^{- 1 / 2} ‖}_{2}^{2} \cdot {| {\underline{\underline{\tilde{M}}}}^{- 1 / 2} (〈 \underline{\tilde{B}} 〉 - \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C}) |}^{2} \\ + {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ Δ \underline{\underline{H}} ‖}_{2}^{2} \cdot {| {\underline{\tilde{g}}}_{C} |}^{2} + {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {| 〈 δ \underline{B} 〉 |}^{2} \to {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ Δ \underline{\underline{H}} ‖}_{2}^{2} \cdot {| {\underline{\tilde{g}}}_{C} |}^{2} + {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {| 〈 δ \underline{B} 〉 |}^{2} . \end{array} (72)

Assuming that $〈 \underline{\tilde{B}} 〉 \approx \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C}$ the relative error can be estimated by

\begin{array}{l} \frac{{| {\underline{g}}_{C} - {\underline{\tilde{g}}}_{C} |}^{2}}{{| {\underline{\tilde{g}}}_{C} |}^{2}} = {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ Δ \underline{\underline{H}} ‖}_{2}^{2} + {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot \frac{{| 〈 δ \underline{B} 〉 |}^{2}}{{| 〈 \underline{\tilde{B}} 〉 |}^{2}} \frac{{| 〈 \underline{\tilde{B}} 〉 |}^{2}}{{| {\underline{\tilde{g}}}_{C} |}^{2}} \\ = {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2} \cdot \frac{{‖ Δ \underline{\underline{H}} ‖}_{2}^{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2}} + {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot \frac{{| 〈 δ \underline{B} 〉 |}^{2}}{{| 〈 \underline{\tilde{B}} 〉 |}^{2}} \frac{{| \underline{\underline{\tilde{H}}} {\underline{\tilde{g}}}_{C} |}^{2}}{{| {\underline{\tilde{g}}}_{C} |}^{2}} \\ \leq {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2} \cdot \frac{{‖ Δ \underline{\underline{H}} ‖}_{2}^{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2}} + {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {| | \underline{\underline{\tilde{H}}} | |}_{2}^{2} \cdot \frac{{| 〈 δ \underline{B} 〉 |}^{2}}{{| 〈 \underline{\tilde{B}} 〉 |}^{2}} \\ = {‖ {\underline{\underline{\tilde{w}}}}^{†} ‖}_{2}^{2} \cdot {‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2} \cdot (\frac{{‖ Δ \underline{\underline{H}} ‖}_{2}^{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2}} + \frac{{| 〈 δ \underline{B} 〉 |}^{2}}{{| 〈 \underline{\tilde{B}} 〉 |}^{2}}) \\ = κ^{2} (\underline{\underline{\tilde{H}}}) (\frac{{‖ Δ \underline{\underline{H}} ‖}_{2}^{2}}{{‖ \underline{\underline{\tilde{H}}} ‖}_{2}^{2}} + \frac{{| 〈 δ \underline{B} 〉 |}^{2}}{{| 〈 \underline{\tilde{B}} 〉 |}^{2}}) \end{array} (73)

It is important to note that the right sides of Eqs. 35, 56 and 73 represent upper bounds for the error of the estimator. These bounds can be much larger than the true errors. The great advantage of the bounds lies in the fact that they solely depend on known quantities, wheras the accurate estimator for calculating the true estimation error is unknown within the practical application of the method. Thus, the above derived upper bounds are conservative and guarantee that the true estimation errors cannot exceed these bounds as long as the measurement errors as well as the measurement position errors are much smaller than the measurements themselves so that the linear approximation is valid.

4 Finite Sample Averaging

For the calculation of Capon’s estimator, averaged magnetic field data

〈 \underline{B} 〉 = \frac{1}{Q} \sum_{α = 1}^{Q} {\underline{B}}^{α} (74)

are required [3]. Here, Q denotes the number of measurements at a fixed set of data points. Within the practical application of the method only a finite number $Q < \infty$ of samples is available, which yields a standard deviation of Capon’s estimator ${\underline{g}}_{C}$ . In the following, an approximation for the variance of Capon’s estimator is derived by regarding Capon’s method as a special case of the maximum likelihood method [6].

In the vicinity of its maximum value the likelihood function can be approximated as

ℒ \sim exp [- \frac{1}{2} \sum_{α = 1}^{Q} {({\underline{B}}^{α} - \underline{\underline{H}} \underline{g})}^{†} {\underline{\underline{N}}}^{- 1} ({\underline{B}}^{α} - \underline{\underline{H}} \underline{g})], (75)

where $\underline{\underline{N}}$ denotes the noise covariance matrix [6, 19]. Before deducing the error resulting from the finite number of samples let us make a general comment about the construction of the likelihood function in terms of the averaging process. The noise matrix is already statistically evaluated so that the likelihood function is constructed by making use of two different averaging processes. Within the first averaging process the noise matrix $\underline{\underline{N}}$ is calculated. This averaging process does not incorporate the underlying model since only the distribution of the data around the mean value $〈 \underline{B} 〉$ is determined which allows to assess the general quality of the measurements. When the distribution of the measurements is large, significant errors within the subsequent data fitting are expectable. Especially, these errors are independent of the chosen model. Within the second averaging process a specific underlying model $\underline{\underline{H}} \underline{g}$ is fitted to the data ${\underline{B}}^{α}$ .

For most practical applications, the noise matrix $\underline{\underline{N}}$ is unknown and has to be approximated. In the special case of Gaussian errors with zero mean and variance $σ_{n}$ , the noise covariance matrix can be written as $\underline{\underline{N}} = σ_{n}^{2} \underline{\underline{I}}$ , where $\underline{\underline{I}}$ denotes the identity matrix. Substituting the noise covariance matrix $\underline{\underline{N}}$ by the data covariance matrix $\underline{\underline{M}} = 〈 \underline{B} \circ \underline{B} 〉$ , the maximum likelihood estimator may be converted into Capon’s estimator [6]. The corresponding likelihood function is modified to

ℒ \sim exp [- \frac{1}{2} \sum_{α = 1}^{Q} {({\underline{B}}^{α} - \underline{\underline{H}} \underline{g})}^{†} {\underline{\underline{M}}}^{- 1} ({\underline{B}}^{α} - \underline{\underline{H}} \underline{g})] . (76)

The weighted difference between the model and the data can be rewritten as

\begin{array}{l} {({\underline{B}}^{α} - \underline{\underline{H}} \underline{g})}^{†} {\underline{\underline{M}}}^{- 1} ({\underline{B}}^{α} - \underline{\underline{H}} \underline{g}) = ({\underline{B}}^{α †} - {\underline{g}}^{†} {\underline{\underline{H}}}^{†}) {\underline{\underline{M}}}^{- 1} ({\underline{B}}^{α} - \underline{\underline{H}} \underline{g}) \\ = {\underline{B}}^{α †} {\underline{\underline{M}}}^{- 1} {\underline{B}}^{α} - 2 {\underline{g}}^{†} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} {\underline{B}}^{α} + {\underline{g}}^{†} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}} \underline{g} . \end{array} (77)

As discussed above, the data covariance matrix $\underline{\underline{M}}$ is already statistically evaluated so that the averaging process results in

\sum_{α = 1}^{Q} {({\underline{B}}^{α} - \underline{\underline{H}} \underline{g})}^{†} {\underline{\underline{M}}}^{- 1} ({\underline{B}}^{α} - \underline{\underline{H}} \underline{g}) = Q 〈 {\underline{B}}^{†} {\underline{\underline{M}}}^{- 1} \underline{B} 〉 - 2 Q {\underline{g}}^{†} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} 〈 \underline{B} 〉 + Q {\underline{g}}^{†} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}} \underline{g} . (78)

Insertion into Eq. 76 yields

ℒ \sim exp {- \frac{Q}{2} [〈 {\underline{B}}^{†} {\underline{\underline{M}}}^{- 1} \underline{B} 〉 - 2 {\underline{g}}^{†} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} 〈 \underline{B} 〉 + {\underline{g}}^{†} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}} \underline{g}]} (79)

or equivalently

ℒ \sim exp {- \frac{Q}{2} [〈 B_{i} M_{i j}^{- 1} B_{j} 〉 - 2 g_{k} H_{k i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + g_{l} H_{l k}^{†} M_{k i}^{- 1} H_{i j} g_{j}]} . (80)

The m’th component of Capon’s estimator ${\underline{g}}_{C}$ corresponds with the maximum value of the likelihood function [6, 19]. The corresponding standard deviation ( $1 σ$ -error) is described by the width of the likelihood function at its maximum value which is given by [6, 19].

σ_{g_{m}} = {[- \partial_{g_{m}}^{2} ln ℒ]}^{- 1 / 2}, (81)

where

\partial_{g_{m}}^{2} ln ℒ = \partial_{g_{m}} (\frac{1}{ℒ} \partial_{g_{m}} ℒ) . (82)

Since

\begin{array}{l} \partial_{g_{m}} ℒ = - \frac{Q}{2} ℒ \partial_{g_{m}} [〈 B_{i} M_{i j}^{- 1} B_{j} 〉 - 2 g_{k} H_{k i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + g_{l} H_{l k}^{†} M_{k i}^{- 1} H_{i j} g_{j}] \\ = - \frac{Q}{2} ℒ [- 2 δ_{k m} H_{k i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + δ_{l m} H_{l k}^{†} M_{k i}^{- 1} H_{i j} g_{j} + g_{l} H_{l k}^{†} M_{k i}^{- 1} H_{i j} δ_{j m}] \\ = - \frac{Q}{2} ℒ [- 2 H_{m i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + H_{m k}^{†} M_{k i}^{- 1} H_{i j} g_{j} + g_{l} H_{l k}^{†} M_{k i}^{- 1} H_{i m}] \end{array} (83)

where $δ_{i j}$ denotes the Kronecker delta, the m’th component of Capon’s estimator ${\underline{g}}_{C}$ can be calculated via [6].

\partial_{g_{m}} ℒ = 0 (84)

yielding

- 2 H_{m i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + H_{m k}^{†} M_{k i}^{- 1} H_{i j} g_{j} + g_{l} H_{l k}^{†} M_{k i}^{- 1} H_{i m} = 0. (85)

Because of $M_{k i}^{- 1} = M_{i k}^{- 1}$ , as well as $H_{l k}^{†} = H_{k l}$ and $H_{i m} = H_{m i}^{†}$ in the case of real shape matrices [3], it follows that

\begin{array}{l} 0 = - 2 H_{m i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + H_{m k}^{†} M_{k i}^{- 1} H_{i j} g_{j} + g_{l} H_{k l} M_{i k}^{- 1} H_{m i}^{†} \\ = - 2 H_{m i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + H_{m k}^{†} M_{k i}^{- 1} H_{i j} g_{j} + H_{m i}^{†} M_{i k}^{- 1} H_{k l} g_{l} \\ = - 2 H_{m i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + 2 H_{m k}^{†} M_{k i}^{- 1} H_{i j} g_{j} \end{array} (86)

and therefore,

{\underline{g}}_{C} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} {\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} 〈 \underline{B} 〉 (87)

which is in agreement with the estimator resulting from the linear algebraic formulation of Capon’s method [3]. The second derivative results in

\begin{matrix} \partial_{g_{m}}^{2} ln ℒ = - \frac{Q}{2} \partial_{g_{m}} [- 2 H_{m i}^{†} M_{i j}^{- 1} 〈 B_{j} 〉 + H_{m k}^{†} M_{k i}^{- 1} H_{i j} g_{j} + g_{l} H_{l k}^{†} M_{k i}^{- 1} H_{i m}] \\ = - \frac{Q}{2} [H_{m k}^{†} M_{k i}^{- 1} H_{i j} δ_{j m} + δ_{l m} H_{l k}^{†} M_{k i}^{- 1} H_{i m}] \\ = - \frac{Q}{2} [H_{m k}^{†} M_{k i}^{- 1} H_{i m} + H_{m k}^{†} M_{k i}^{- 1} H_{i m}] \\ = - Q H_{m k}^{†} M_{k i}^{- 1} H_{i m} . \end{matrix} (88)

Using the definition of the coefficient matrix [3].

\underline{\underline{P}} = {[{\underline{\underline{H}}}^{†} {\underline{\underline{M}}}^{- 1} \underline{\underline{H}}]}^{- 1} (89)

or equivalently

{({\underline{\underline{P}}}^{- 1})}_{m m} = H_{m k}^{†} M_{k i}^{- 1} H_{i m} (90)

delivers

\partial_{g_{m}}^{2} ln ℒ = - Q {({\underline{\underline{P}}}^{- 1})}_{m m} . (91)

Thus, the error of the m’th component of Capon’s estimator results in

σ_{g_{m}} = \frac{1}{\sqrt{Q \cdot {({\underline{\underline{P}}}^{- 1})}_{m m}}}, (92)

which declines as $1 / \sqrt{Q}$ . The functional dependence of the error is qualitatively illustrated in Figure 3.

FIGURE 3

FIGURE 3. Sketch of the m’the component of Capon’s estimator and the corresponding $1 σ$ -error subject to the sample size Q. The error declines as $1 / \sqrt{Q}$ .

5 Summary and Outlook

The analysis of the error propagation is of major importance for the application of linear inversion methods. Within a linear approximation, upper bounds for the errors of Capon’s estimator resulting from measurement errors and measurement position errors are derived. These upper bounds solely depend on known quantities, i.e., measurements and measurement positions, whereas the true estimation error cannot be calculated within the practical application of the method, since the accurate estimator is unavailable. It turns out that Capon’s method provides the same error propagation as the least square fit method. These two methods differ in the filter matrices which weight or eliminate parts of the data in different ways. Since these matrices are applied to the same set of measurements, the different weighting of the data or the elimination of subsets does not reduce the errors. The condition number of the shape matrix is the key parameter for the error propagation, since it determines how the errors are amplified. The measurement errors as well as the measurement position errors have to be estimated from the measurements. For a given underlying model, the condition number of the shape matrix solely depends on the measurement positions. Thus, the amplification of the errors can be reduced by choosing preferred data points.

Furthermore, Capon’s method is based on the evaluation of statistically averaged data. For the practical application of the method only a finite number Q of samples is available. This limited number of samples results in an error of Capon’s estimator which can be derived by regarding Capon’s method as a special case of the maximum likelihood estimator. The more samples are available, the smaller the error becomes, since the error declines as $1 / \sqrt{Q}$ .

As a follow-up of the generalized derivation of Capon’s method, the present work establishes the mathematical basis of Capon’s error propagation for the practical application of the method.

Appendix: Matrix Power of the Data Covariance Matrix

For the calculation of Capon’s estimator the inverse data covariance matrix ${\underline{\underline{M}}}^{- 1}$ is necessary. First of all it should be noted that the inverse exists due to the averaging process, whereas the matrix $\underline{B} \circ \underline{B}$ is not invertible [3]. In the case of a vanishing standard deviation ( $σ_{n} = 0$ ), the application of the diagonal loading technique [3] guarantees the existence of the inverse data covariance matrix, since the condition number of $\underline{\underline{M}}$ is close to unity at the optimal diagonal loading parameter.

Furthermore, there exists a unitary transformation $\underline{\underline{V}}$ so that

\underline{\underline{M}} = \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}} {\underline{\underline{V}}}^{- 1} (93)

where

{\underline{\underline{D}}}_{\underline{\underline{M}}} = diag [λ_{1}, \dots, λ_{n}] (94)

is a diagonal matrix that contains the eigenvalues of $\underline{\underline{M}}$ . Therefore, the inverse data covariance matrix results in

{\underline{\underline{M}}}^{- 1} = {[\underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}} {\underline{\underline{V}}}^{- 1}]}^{- 1} = \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1} {\underline{\underline{V}}}^{- 1}, (95)

where

{\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1} = diag [λ_{1}^{- 1}, \dots, λ_{n}^{- 1}] . (96)

Further transformation delivers

\begin{matrix} {\underline{\underline{M}}}^{- 1} = \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1} {\underline{\underline{V}}}^{- 1} \\ = \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1 / 2} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1 / 2} {\underline{\underline{V}}}^{- 1} \\ = \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1 / 2} {\underline{\underline{V}}}^{- 1} \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1 / 2} {\underline{\underline{V}}}^{- 1} \\ = {\underline{\underline{M}}}^{- 1 / 2} {\underline{\underline{M}}}^{- 1 / 2} \end{matrix} (97)

so that the square root of the inverse data covariance matrix is defined as

{\underline{\underline{M}}}^{- 1 / 2} = \underline{\underline{V}} {\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1 / 2} {\underline{\underline{V}}}^{- 1} (98)

where

{\underline{\underline{D}}}_{\underline{\underline{M}}}^{- 1 / 2} = diag [λ_{1}^{- 1 / 2}, \dots, λ_{n}^{- 1 / 2}] . (99)

Data Availability Statement

The original contributions presented in the study are included in the article/Supplementary Material, further inquiries can be directed to the corresponding author.

Author Contributions

All authors contributed conception and design of the study; ST and UM wrote the first draft of the manuscript; All authors contributed to manuscript revision, read and approved the submitted version.

Funding

We acknowledge support by the German Research Foundation and the Open Access Publication Funds of the Technische Universität Braunschweig. The work by YN is supported by the Austrian Space Applications Program at the Austrian Research Promotion Agency under contract 865967. DH was supported by the German Ministerium für Wirtschaft und Energie and the German Zentrum für Luft-und Raumfahrt under contract 50 QW1501.

Conflict of Interest

The authors declare that the research was conducted in the absence of any commercial or financial relationships that could be construed as a potential conflict of interest.

The reviewer LZ declared a past collaboration with one of the authors YN to the handling editor.

Acknowledgments

The authors are grateful for stimulating discussions and helpful suggestions by Karl-Heinz Glassmeier, Patrick Kolhey and Alexander Schwenke.

References

1. Capon J. High-resolution Frequency-Wavenumber Spectrum Analysis. Proc IEEE (1969) 57:1408–18. doi:10.1109/PROC.1969.7278

CrossRef Full Text | Google Scholar

2. Toepfer S, Narita Y, Heyner D, Motschmann U. The Capon Method for Mercury's Magnetic Field Analysis. Front Phys (2020) 8:249. doi:10.3389/fphy.2020.00249

CrossRef Full Text | Google Scholar

3. Toepfer S, Narita Y, Heyner D, Kolhey P, Motschmann U. Mathematical Foundation of Capon's Method for Planetary Magnetic Field Analysis. Geosci Instrum Method Data Syst (2020) 9:471–81. doi:10.5194/gi-9-471-2020

CrossRef Full Text | Google Scholar

4. Motschmann U, Woodward TI, Glassmeier KH, Southwood DJ, Pinçon JL. Wavelength and Direction Filtering by Magnetic Measurements at Satellite Arrays: Generalized Minimum Variance Analysis. J Geophys Res (1996) 101:4961–5. doi:10.1029/95JA03471

CrossRef Full Text | Google Scholar

5. Su W, Gu H, Ni J, Liu G. Performance Analysis of MVDR Algorithm in the Presence of Amplitude and Phase Errors. IEEE Trans Antennas Propagat (2001) 49(12):1875–7. doi:10.1109/8.982472

CrossRef Full Text | Google Scholar

6. Narita Y. A Note on Capon’s Minimum Variance Projection for Multi-Spacecraft Data Analysis. Front Phys (2019) 7:121. doi:10.3398/fphy.2019.00008

CrossRef Full Text | Google Scholar

7. Sahraoui F, Belmont G, Rezeau L, Cornilleau-Wehrlin N, Pinçon JL, Balogh A. Anisotropic Turbulent Spectra in the Terrestrial Magnetosheath as Seen by the Cluster Spacecraft. Phys Rev Lett (2006) 96:7. doi:10.1103/PhysRevLett.96.075002

CrossRef Full Text | Google Scholar

8. Huang SY, Zhou M, Sahraoui F, Deng XH, Pang Y, Yuan ZG, et al. Wave Properties in the Magnetic Reconnection Diffusion Region with Highβ: Application of Thek-Filtering Method to Cluster Multispacecraft Data. J Geophys Res (2010) 115:17–9. doi:10.1029/2010JA015335

CrossRef Full Text | Google Scholar

9. Narita Y, Comişel H, Motschmann U. Spatial Structure of Ion-Scale Plasma Turbulence. Front Phys (2014) 2:13. doi:10.3389/fphy.2014.00013

CrossRef Full Text | Google Scholar

10. Roberts OW, Li X, Jeska L. A Statistical Study of the Solar Wind Turbulence at Ion Kinetic Scales Using the K-Filtering Technique and Cluster Data. ApJ (2015) 802:1. doi:10.1088/0004-637X/802/1/2

CrossRef Full Text | Google Scholar

11. Wang T, Cao J, Fu H, Meng X, Dunlop M. Compressible Turbulence with Slow-Mode Waves Observed in the Bursty Bulk Flow of Plasma Sheet. Geophys Res Lett (2016) 43(5):1854–61. doi:10.1002/2016GL068147

CrossRef Full Text | Google Scholar

12. Zhang L, He J, Narita Y, Feng X. Reconstruction Test of Turbulence Power Spectra in 3D Wavenumber Space with at Most 9 Virtual Spacecraft Measurements. J Geophys Res Space Phys (2021) 126:e2019JA027413. doi:10.1029/2019JA027413

CrossRef Full Text | Google Scholar

13. Narita Y, Plaschke F, Magnes W, Fischer D, Schmid D. Error Estimate for Fluxgate Magnetometer In-Flight Calibration on a Spinning Spacecraft. Geosci Instrum Method Data Syst (2021) 10:13–24. doi:10.5194/gi-10-13-202

CrossRef Full Text | Google Scholar

14. Werner D. Funktionalanalysis. Berlin: Springer (2007)

15. Belsley DA, Kuh E, Welsch RE. The Condition Number, Regression Diagnostics: Identifying Influential Data and Sources of Collinearity. New York: Wiley (1980). p. 100–4.

16. Gauß CF. (1839) Allgemeine Theorie des Erdmagnetismus: Resultate aus den Beobachtungen des magnetischen Vereins im Jahre 1838, editorsCF Gauss, and W Weber. Leipzig: Weidmannsche Buchhandlung (1839). p. 1–57.

17. Glassmeier K-H, Tsurutani BT. Carl Friedrich Gauss—General Theory of Terrestrial Magnetism—A Revised Translation of the German Text. Hist Geo Space Sci (2014) 5:11–62. doi:10.5194/hgss-5-11-2014

CrossRef Full Text | Google Scholar

18. Toepfer S, Narita Y, Glassmeier K-H, Heyner D, Kolhey P, Motschmann U, et al. The Mie Representation for Mercury's Magnetic Field. Earth Planets Space (2021) 73:65. doi:10.1186/s40623-021-01386-4

CrossRef Full Text | Google Scholar

19. Dodelson S. Modern Cosmology. London: Academic Press (2003).

Keywords: Capon’s method, error propagation, least-squares method, maximum likelihood, condition number

Citation: Toepfer S, Narita Y, Heyner D and Motschmann U (2021) Error Propagation of Capon’s Minimum Variance Estimator. Front. Phys. 9:684410. doi: 10.3389/fphy.2021.684410

Received: 23 March 2021; Accepted: 20 May 2021;
Published: 09 June 2021.

Edited by:

Jiansen He, Peking University, China

Reviewed by:

Tieyan Wang, Rutherford Appleton Laboratory, United Kingdom
Lei Zhang, China Academy of Space Technology (CAST), China

Copyright © 2021 Toepfer, Narita, Heyner and Motschmann. This is an open-access article distributed under the terms of the Creative Commons Attribution License (CC BY). The use, distribution or reproduction in other forums is permitted, provided the original author(s) and the copyright owner(s) are credited and that the original publication in this journal is cited, in accordance with accepted academic practice. No use, distribution or reproduction is permitted which does not comply with these terms.

*Correspondence: S. Toepfer, cy50b2VwZmVyQHR1LWJyYXVuc2Nod2VpZy5kZQ==

Disclaimer: All claims expressed in this article are solely those of the authors and do not necessarily represent those of their affiliated organizations, or those of the publisher, the editors and the reviewers. Any product that may be evaluated in this article or claim that may be made by its manufacturer is not guaranteed or endorsed by the publisher.