Tuesday, December 16, 2014

More than 10% of structural variants in human genome are in potentially problematic regions

535,461,456 bases which corresponds to 16.22% of the genome are considered "problematic regions in the genome assembly". Looking at the structural variants identified by previous studies available in the UCSC tables, we find 26,934 (13.3 % of reported structural variants) overlap these problematic regions.

                                   Study Overlapping Total         Percent_overlapping_problematic_regions
1        1000 Genomes Consortium Phase 1   2067  20554  10.0564367
2  1000 Genomes Consortium Pilot Project    322   7967   4.0416719
3                         Ahn et al 2009    825   3704  22.2732181
4                       Alkan et al 2009    139    177  78.5310734
5                   Altshuler et al 2010    135    844  15.9952607
6                        Arlt et al 2011    347   2522  13.7589215
7                    Banerjee et al 2011      4    733   0.5457026
8                     Bentley et al 2008    405   5646   7.1732200
9                    Campbell et al 2011    281   1180  23.8135593
10                     Conrad et al 2006     89    672  13.2440476
11                     Conrad et al 2009   1144   8489  13.4762634
12                     Cooper et al 2008    135    311  43.4083601
13                   de Smith et al 2007    303   1492  20.3083110
14                       Feuk et al 2005      0      3   0.0000000
15                   Forsberg et al 2012      0      2   0.0000000
16                     Giglio et al 2002      0      1   0.0000000
17                      Gusev et al 2009     15    211   7.1090047
18                      Hinds et al 2006      2     87   2.2988506
19                    Iafrate et al 2004     56    187  29.9465241
20                     Itsara et al 2009    495   4806  10.2996255
21                  Jakobsson et al 2008    165   1424  11.5870787
22                         Ju et al 2010    321   1289  24.9030256
23                       Kidd et al 2008    934   7380  12.6558266
24                       Kidd et al 2010      1     20   5.0000000
25                      Kidd et al 2010b    179    739  24.2219215
26                        Kim et al 2009    126   1300   9.6923077
27                     Korbel et al 2007    411    974  42.1971253
28                       Levy et al 2007    839  10146   8.2692687
29                      Locke et al 2006    233    353  66.0056657
30                  McCarroll et al 2006    100    531  18.8323917
31                  McCarroll et al 2008    282   1313  21.4775324
32                   McKernan et al 2009    581   6925   8.3898917
33                      Mills et al 2006    332   5321   6.2394287
34                       Pang et al 2010    652   6096  10.6955381
35                       Park et al 2010    844   5747  14.6859231
36                      Perry et al 2008    991   2889  34.3025268
37                     Perry et al 2008b    175    341  51.3196481
38                      Pinto et al 2007    304   1029  29.5432459
39                      Redon et al 2006   1372   3308  41.4752116
40                   Schuster et al 2010     90    186  48.3870968
41                      Sebat et al 2004     36     77  46.7532468
42                     Shaikh et al 2009   1133  12844   8.8212395
43                      Sharp et al 2005     81    105  77.1428571
44              Simon-Sanchez et al 2007     64    232  27.5862069
45                 Stefansson et al 2005      0      1   0.0000000
46                     Teague et al 2010    732   4144  17.6640927
47                      Tuzun et al 2005    132    286  46.1538462
48                       Wang et al 2007    213   1291  16.4988381
49                       Wang et al 2008    235   2644   8.8880484
50                    Wheeler et al 2008     17     23  73.9130435
51                       Wong et al 2007    643   5011  12.8317701
52                      Wong et al 2012b   3347  33069  10.1212616
53                         Xu et al 2011   4599  25794  17.8297278
54                      Young et al 2008      3      7  42.8571429
55                        Zhu et al 2011      3      3 100.0000000

Should these structural variants be removed from the UCSC table? Or atleast do they require further validation.

No comments: