Wissensentdeckung in Datenbanken
Die Vorlesung Wissenentdeckung in Datenbanken ist eine Einführung in die
Datenanalyse sowohl aus Sicht der Statistik als auch der Informatik.
Auf dieser Seite findet ihr einige Infos zur Vorlesung und zum Übungsbetrieb.
Die genauen Modalitäten zu den Abgaben, dem Scheinerwerb und den Pool-Accounts
könnt ihr dem Info-Blatt entnehmen. Bei Fragen zur
Vorlesung oder den Übungen helfen wir euch gerne weiter. Ihr erreicht uns hier:
Dipl.-Stat. Gero Szepannek
Campus Nord, Mathe-Tower, Raum M732
szepannek (at) statistik.uni-dortmund.de
|
Dipl.-Inf. Christian Bockermann
Campus Süd, GB IV, Raum 119
christian.bockermann (at) cs.uni-dortmund.de
|
Übungen
Hier findet ihr die Einteilung in
die Übungsgruppen. Die Übungsblätter des Informatikteils werden ebenfalls hier
veröffentlicht, die Blätter zum Statistikteil findet ihr auf den
Statistik-Seiten zur Vorlesung.
Übungsblätter
- Die Folien zu RapidMiner, zusätzlich nochmal im 4-auf-1 Format
Dazu gibt es hier noch den Iris-Datensatz: iris.xrff, bzw. die Test-Beispiele irisTest.xrff
- Blatt 1, Abgabe bis 15.04. 23:59 Uhr per E-Mail an Christian
- Blatt 2, Abgabe bis 22.04. 23:59 Uhr per E-Mail an Christian
- Blatt 3, Abgabe bis 02.05. 23:59 Uhr per E-Mail an Christian (Filmdatenbank für Aufgabe 3.3: Film.db)
- Blatt 4, Abgabe bis 06.05. 23:59 Uhr per E-Mail an Christian, Literatur: Free-Sets: A Condensed Representation of Boolean Data for The Approximation of Frequency Queries [J.-F. Boulicaut et. al. 2001]
- Blatt 5, Abgabe bis 13.05. 23:59 Uhr per E-Mail an Christian, Literatur: Rule discovery from time series [Gautam Das et.al., 1998],
Learning Temporal Rules from State Sequences [Frank Höppner, 2001],
Mining Frequent Patterns without Candidate Generation [Han et.al., 1999]
- Blatt 6, Abgabe bis 03.06. 23:59 Uhr per E-Mail an Gero
- Blatt 7, Abgabe bis 11.06. 23:59 Uhr per E-Mail an Gero
- Blatt 9, Abgabe bis 25.06. 23:59 Uhr per E-Mail an Christian, Literatur: A Tutorial on Support Vector Machines for Pattern Recognition [Christopher J.C. Burges, 1998]
Achtung: Irrtümlich lag das aktuelle Übungsblatt zu "Support Vector Machines" als Blatt 8 seit letzter Woche auf der Seite. Es handelte sich dabei natürlich richtigerweise um Blatt 9.
Software
Die in den (Informatik-)Übungen zur Vorlesung verwendete Software ist im Internet frei verfügbar, so
dass sämtliche Übungen auch zu Hause durchgeführt werden können. Die Software findet sich
leicht über folgende Links:
- SQLite: http://www.sqlite.org, dort findet Ihr unter
dem Punk Downloads vorkompilierte Binär-Versionen für die gängigen Betriebssysteme.
- RapidMiner: http://rapid-i.com, (unter dem Punkt Downloads -> RapidMiner (Yale)
Vorlesungsinhalte
Nachfolgend findet ihr während der Vorlesung eine laufend aktualisierte Liste der Vorlesungsinhalte. Die
Auflistung garantiert keine Vollständigkeit und ist nicht als Grundlage für Prüfungsvorbereitungen
sondern lediglich als Erinnerung/Überblick zu verstehen.
| 8.4.2008 |
Motivation zum Thema Wissenentdeckung in Datenbanken
Überblick über Einsatzfelder von Data Mining und Statistik
Inhalte und Zeitplan der Vorlesung
|
Folien:
01_Einfuehrung.pdf
01_Einfuehrung_4p.pdf
|
| 10.4.2008 |
CRISP als standardisierter DM-Prozess (Phasen)
Modell-Evaluation mit Test-Daten, Leave-One-Out
Datenbanken: Relationen, Schemata und Schlüssel
|
Folien:
02_CRISP.pdf
02_CRISP_4p.pdf
|
| 15.04.2008 |
Anomalien in Relationenschemata
Relationenalgebra, SQL-Anfragen, Kreuzprodukt, Join
Speichern von Daten: Indexierung, B-Tree
|
Folien:
03_Datenbanken1.pdf
03_Datenbanken1_4p.pdf
04_Datenbanken2.pdf
04_Datenbanken2_4p.pdf
|
| 17.04.2008 |
Hashing: Lineares Hashing, Partitioned Hashing
Data Cube: Roll Up, Drill Down, GROUP BY
Materialisierung von Cube-Teilen: Greedy-Algorithmus
|
Folien:
05_Datenbanken3_cube.pdf
05_Datenbanken3_cube_4p.pdf
|
| 22.04.2008 |
Assoziationsregeln, Warenkorbanalyse, Binäre Darstellung von Tabellen
Häufige Mengen, Apriori-Eigenschaft, Teilmengenverband
Regelgenerierung, Regelbewertung, Closed Sets
|
Folien:
05_Datenbanken3_apriori.pdf
05_Datenbanken3_apriori_4p.pdf
|
| 24.04.2008 |
Closed Sets (Wdh), Free sets, MinEx-Algorithmus (freie häufige Mengen)
Zeitphenomene, Granularitäten
Episoden, Häfigkeit von Episoden, WinEPI
|
Folien:
05_Datenbanken3_freesets.pdf
05_Datenbanken3_freesets_4p.pdf
05_Datenbanken3_episoden.pdf
05_Datenbanken3_episoden_4p.pdf
|
| 28.04.2008 |
Beispiel WinEPI, Indexierung bei WinEPI
Abstraktionsebene bei Data Mining
Clustering von Zeitreihen (Diskretisierung, Gaudam Das et.al.)
Sequenzen (Zeit-Intervalle) nach Höppner
|
| 06.05.2008 |
FPGrowth - Häufige Mengen ohne Kandidatengenerierung
FP-Tree, conditional pattern base
Privacy Preserving Data Mining: k-Anonymity
Link: KDubiq Summerschool 2008
|
Folien:
06_Datenbanken4.pdf
06_Datenbanken4_4p.pdf
Bonchi_privacy_kdubiq08.pdf
Bonchi_privacy_kdubiq08_4p.pdf
|
| 08.05.2008 |
Überblick/Wiederholung Häufige Mengen
Clustering anhand häfiger Mengen: Clustering von Dokumenten, FTC-Algorithmus
Anwendung von HFTC auf Web 2.0/Tagging Systeme
Multikriterielle Optimierung (kurze Einführung), Genetische Programmingung, Pareto-Konzept/Pareto-Front
|
Folien:
06_Datenbanken5.pdf
06_Datenbanken5_4p.pdf
|
| 12.06.2008 |
Widerholung/Überblick: Funktionenlernen
Vektorraum der Beispiele, Ähnlichkeit über Skalarprodukt, Hilbertraum
Separierende Hyperebene, Maximum Margin Problem, Formulierung als Optimierungsproblem
Einführung der Lagrange-Multiplier für Nebenbedingungen, Karush-Kuhn-Tucker Bedingung
|
Folien:
06_SVM1.pdf
06_SVM1_4p.pdf
|
| 17.06.2008 |
Weich trennende Hyperebene, Kernfunktionen: Kerntrick
Polynomielle Kernel, RBF-Kernel, Mercer-Bedingung
Optimierung der Alpha-Werte, SMO-Algorithmus
|
Folien:
07_SVM2.pdf
07_SVM2_4p.pdf
|
|
|