корпоративный хранилище данный спирли

А Anton CNIT 2 185 2007-11-30T08:52:00Z 2007-11-30T08:52:00Z 2 659 3757 Home 31 8 4408 11.6408 Clean Clean false false false MicrosoftInternetExplorer4 st1\:*{behavior:url(#ieooui) } /* Style Definitions */ table.MsoNormalTable {mso-style-name:"Обычная таблица"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; mso-style-noshow:yes; mso-style-parent:""; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Times New Roman"; mso-ansi-language:#0400; mso-fareast-language:#0400; mso-bidi-language:#0400;} table.MsoTableGrid {mso-style-name:"Сетка таблицы"; mso-tstyle-rowband-size:0; mso-tstyle-colband-size:0; border:solid windowtext 1.0pt; mso-border-alt:solid windowtext .5pt; mso-padding-alt:0cm 5.4pt 0cm 5.4pt; mso-border-insideh:.5pt solid windowtext; mso-border-insidev:.5pt solid windowtext; mso-para-margin:0cm; mso-para-margin-bottom:.0001pt; mso-pagination:widow-orphan; font-size:10.0pt; font-family:"Times New Roman"; mso-ansi-language:#0400; mso-fareast-language:#0400; mso-bidi-language:#0400;} А.В. ЕРШОВ Научный руководитель – Б.А. ЩУКИН, к.ф.м.н., профессор Московский инженерно-физический институт (государственный университет) МЕТОДЫ ПРОВЕДЕНИЯ ОЧИСТКИ ДАННЫХ ПРИМЕНЯЕМЫЕ ПРИ ПОСТРОЕНИИИ БАЗ ДАННЫХ Для эффективного решения задач, связанных с обработкой разносторонней информации, при загрузке её в хранилище данных возникает проблема “очистки”. Очистка данных  занимается выявлением корпоративный хранилище данный спирли удалением ошибок корпоративный хранилище данный спирли несоответствий в данных с целью улучшения их качества. Когда интеграции подлежит множество источников данных, (например, анкетная информация) необходимость в очистке данных существенно возрастает. При проведении массовых анкетных опросов в базы данных загружают корпоративный хранилище данный спирли постоянно обновляют значительные объемы данных из различных источников, поэтому вероятность попадания в них "грязных данных" весьма высока. Более того, эти базы данных используются для выдачи рекомендаций для дальнейшего принятия решений, следовательно, чтобы некорректные данные не привели к некорректным выводам, жизненно необходимо проводить корректировки таких данных. Существует множество средств, с различной функциональностью, предназначенных для поддержания подобных задач, однако часто достаточно большой объем работы по очистке и преобразованию приходится выполнять вручную или низкоуровневыми программами, трудными для написания корпоративный хранилище данный спирли использования.  В основном проблемы возникают при утрате значений (не введённые значения), орфографических ошибках, вложенных значениях (несколько значений в одном атрибуте), при значениях не соответствующих своим полям, корпоративный хранилище данный спирли также при нарушении логических связей, при дублирующихся или противоречивых записях. Учитывая, что очистка источников данных представляет собой довольно дорогостоящий процесс, предотвращение ввода загрязненных данных является важным шагом в уменьшении проблем. Для этого требуется соответствующим образом спроектированные схема базы данных и ограничения целостности, корпоративный хранилище данный спирли также приложения для ввода данных. [1,2] Очистка данных включает несколько этапов: Анализ данных: для выявления подлежащих удалению видов ошибок корпоративный хранилище данный спирли несоответствий необходим подробный анализ данных. Определение порядка и правил преобразования данных: этот этап зависит от числа источников данных, степени их неоднородности корпоративный хранилище данный спирли загрязненности. Первые шаги по очистке данных могут скорректировать проблемы отдельных источников данных корпоративный хранилище данный спирли подготовить данные для интеграции. Дальнейшие шаги должны быть направлены на интеграцию схемы/данных и устранение проблем множественных элементов, например - дубликатов. Подтверждение: правильность и эффективность процесса корпоративный хранилище данный спирли определений преобразования должны тестироваться и оцениваться, чтобы выяснить, необходимо ли как-то улучишь эти определения. Противоток очищенных данных: когда ошибки отдельного источника удалены, очищенные данные должны заместить загрязненные данные в исходных источниках. Необходимо определить и соблюдать последовательность шагов преобразования для обработки различных проблем с качеством данных уровня схемы корпоративный хранилище данный спирли элементов данных, отраженных в близлежащих источниках данных. Ряд типов преобразований следует выполнять на отдельных источниках данных, подготавливая его к интеграции с другими источниками. Такие подготовительные этапы обычно включают также: извлечение значений из атрибутов свободного формата, проверка допустимости корпоративный хранилище данный спирли исправления, стандартизация. Есть несколько способов оптимизации процесса очистки данных. Первый способ основывается, на том, что проверка одних критериев может зависеть от результатов проверки других, в этом случае рекомендуется по результатам проверки критериев с более высоким приоритетом  формировать временные таблицы, которые будут потом проверяться на соответствие другим критериям. Другой способ для анализа критериев, время проверки которых невелико, использует представления. Это позволяет уменьшить время выполнения фазы за счёт отсутствия излишних пересылок данных. [3] В докладе будет рассмотрен опыт работы по очистке данных, используемых для создания склада данных. Список литературы 1. Спирли Э. Корпоративные хранилища данных. Планирование, разработка, реализация. Том. 1. М.:"Издательство Вильямс", 2001. – 400 с. 2. Kimball R. The Data Warehouse Toolkit: Practical Techniques for Building Dimensional Data Warehouses. New York: John Willey & Sons, 1996. – 525 p. 3. White C. Data Integration: Using ETL, EAI, and EII Tools to Create an Integrated Enterprise // DMReview. 2005. №11. p. 25-53 разделы sharp ar-5415 редизайн кострома профессиональный видеосъемка корпоративный хранилище данный спирли