Wissensentdeckung in Datenbanken

Die Vorlesung Wissenentdeckung in Datenbanken ist eine Einführung in die Datenanalyse sowohl aus Sicht der Statistik als auch der Informatik.

Auf dieser Seite findet ihr einige Infos zur Vorlesung und zum Übungsbetrieb. Die genauen Modalitäten zu den Abgaben, dem Scheinerwerb und den Pool-Accounts könnt ihr dem Info-Blatt entnehmen. Bei Fragen zur Vorlesung oder den Übungen helfen wir euch gerne weiter. Ihr erreicht uns hier:

Dipl.-Stat. Gero Szepannek

Campus Nord, Mathe-Tower, Raum M732
szepannek (at) statistik.uni-dortmund.de

Dipl.-Inf. Christian Bockermann

Campus Süd, GB IV, Raum 119
christian.bockermann (at) cs.uni-dortmund.de

Übungen

Hier findet ihr die Einteilung in die Übungsgruppen. Die Übungsblätter des Informatikteils werden ebenfalls hier veröffentlicht, die Blätter zum Statistikteil findet ihr auf den Statistik-Seiten zur Vorlesung.

Übungsblätter

Die Folien zu RapidMiner, zusätzlich nochmal im 4-auf-1 Format
Dazu gibt es hier noch den Iris-Datensatz: iris.xrff, bzw. die Test-Beispiele irisTest.xrff
Blatt 1, Abgabe bis 15.04. 23:59 Uhr per E-Mail an Christian
Blatt 2, Abgabe bis 22.04. 23:59 Uhr per E-Mail an Christian
Blatt 3, Abgabe bis 02.05. 23:59 Uhr per E-Mail an Christian (Filmdatenbank für Aufgabe 3.3: Film.db)
Blatt 4, Abgabe bis 06.05. 23:59 Uhr per E-Mail an Christian, Literatur: Free-Sets: A Condensed Representation of Boolean Data for The Approximation of Frequency Queries [J.-F. Boulicaut et. al. 2001]
Blatt 5, Abgabe bis 13.05. 23:59 Uhr per E-Mail an Christian, Literatur: Rule discovery from time series [Gautam Das et.al., 1998], Learning Temporal Rules from State Sequences [Frank Höppner, 2001], Mining Frequent Patterns without Candidate Generation [Han et.al., 1999]
Blatt 6, Abgabe bis 03.06. 23:59 Uhr per E-Mail an Gero
Blatt 7, Abgabe bis 11.06. 23:59 Uhr per E-Mail an Gero
Blatt 9, Abgabe bis 25.06. 23:59 Uhr per E-Mail an Christian, Literatur: A Tutorial on Support Vector Machines for Pattern Recognition [Christopher J.C. Burges, 1998]
Achtung: Irrtümlich lag das aktuelle Übungsblatt zu "Support Vector Machines" als Blatt 8 seit letzter Woche auf der Seite. Es handelte sich dabei natürlich richtigerweise um Blatt 9.

Software

Die in den (Informatik-)Übungen zur Vorlesung verwendete Software ist im Internet frei verfügbar, so dass sämtliche Übungen auch zu Hause durchgeführt werden können. Die Software findet sich leicht über folgende Links:

SQLite: http://www.sqlite.org, dort findet Ihr unter dem Punk Downloads vorkompilierte Binär-Versionen für die gängigen Betriebssysteme.
RapidMiner: http://rapid-i.com, (unter dem Punkt Downloads -> RapidMiner (Yale)

Vorlesungsinhalte

Nachfolgend findet ihr während der Vorlesung eine laufend aktualisierte Liste der Vorlesungsinhalte. Die Auflistung garantiert keine Vollständigkeit und ist nicht als Grundlage für Prüfungsvorbereitungen sondern lediglich als Erinnerung/Überblick zu verstehen.

8.4.2008	Motivation zum Thema Wissenentdeckung in Datenbanken Überblick über Einsatzfelder von Data Mining und Statistik Inhalte und Zeitplan der Vorlesung	Folien: 01_Einfuehrung.pdf 01_Einfuehrung_4p.pdf
10.4.2008	CRISP als standardisierter DM-Prozess (Phasen) Modell-Evaluation mit Test-Daten, Leave-One-Out Datenbanken: Relationen, Schemata und Schlüssel	Folien: 02_CRISP.pdf 02_CRISP_4p.pdf
15.04.2008	Anomalien in Relationenschemata Relationenalgebra, SQL-Anfragen, Kreuzprodukt, Join Speichern von Daten: Indexierung, B-Tree	Folien: 03_Datenbanken1.pdf 03_Datenbanken1_4p.pdf 04_Datenbanken2.pdf 04_Datenbanken2_4p.pdf
17.04.2008	Hashing: Lineares Hashing, Partitioned Hashing Data Cube: Roll Up, Drill Down, GROUP BY Materialisierung von Cube-Teilen: Greedy-Algorithmus	Folien: 05_Datenbanken3_cube.pdf 05_Datenbanken3_cube_4p.pdf
22.04.2008	Assoziationsregeln, Warenkorbanalyse, Binäre Darstellung von Tabellen Häufige Mengen, Apriori-Eigenschaft, Teilmengenverband Regelgenerierung, Regelbewertung, Closed Sets	Folien: 05_Datenbanken3_apriori.pdf 05_Datenbanken3_apriori_4p.pdf
24.04.2008	Closed Sets (Wdh), Free sets, MinEx-Algorithmus (freie häufige Mengen) Zeitphenomene, Granularitäten Episoden, Häfigkeit von Episoden, WinEPI	Folien: 05_Datenbanken3_freesets.pdf 05_Datenbanken3_freesets_4p.pdf 05_Datenbanken3_episoden.pdf 05_Datenbanken3_episoden_4p.pdf
28.04.2008	Beispiel WinEPI, Indexierung bei WinEPI Abstraktionsebene bei Data Mining Clustering von Zeitreihen (Diskretisierung, Gaudam Das et.al.) Sequenzen (Zeit-Intervalle) nach Höppner
06.05.2008	FPGrowth - Häufige Mengen ohne Kandidatengenerierung FP-Tree, conditional pattern base Privacy Preserving Data Mining: k-Anonymity Link: KDubiq Summerschool 2008	Folien: 06_Datenbanken4.pdf 06_Datenbanken4_4p.pdf Bonchi_privacy_kdubiq08.pdf Bonchi_privacy_kdubiq08_4p.pdf
08.05.2008	Überblick/Wiederholung Häufige Mengen Clustering anhand häfiger Mengen: Clustering von Dokumenten, FTC-Algorithmus Anwendung von HFTC auf Web 2.0/Tagging Systeme Multikriterielle Optimierung (kurze Einführung), Genetische Programmingung, Pareto-Konzept/Pareto-Front	Folien: 06_Datenbanken5.pdf 06_Datenbanken5_4p.pdf
12.06.2008	Widerholung/Überblick: Funktionenlernen Vektorraum der Beispiele, Ähnlichkeit über Skalarprodukt, Hilbertraum Separierende Hyperebene, Maximum Margin Problem, Formulierung als Optimierungsproblem Einführung der Lagrange-Multiplier für Nebenbedingungen, Karush-Kuhn-Tucker Bedingung	Folien: 06_SVM1.pdf 06_SVM1_4p.pdf
17.06.2008	Weich trennende Hyperebene, Kernfunktionen: Kerntrick Polynomielle Kernel, RBF-Kernel, Mercer-Bedingung Optimierung der Alpha-Werte, SMO-Algorithmus	Folien: 07_SVM2.pdf 07_SVM2_4p.pdf

Hauptnavigation

General

Research

Teaching

Staff

Wissensentdeckung in Datenbanken

Übungen

Übungsblätter

Software

Vorlesungsinhalte