Pages:
Author

Topic: Nachrichtenanalyse Communitiy (Read 1402 times)

newbie
Activity: 42
Merit: 0
November 19, 2013, 07:35:45 AM
#29
Grin Muss ja nicht stimmen, aber irgendwo muss man anfangen zu denken nä?  Grin
legendary
Activity: 1764
Merit: 1007
November 19, 2013, 07:01:58 AM
#28
ihr seid mir schon so junghegelianisch-kybernetische Gesellschaftsarchitekten.  Cool
newbie
Activity: 42
Merit: 0
November 19, 2013, 05:29:58 AM
#27
Nachfolgend mal grob ein paar erste Gedanken zum möglichen Aufbau.
Dieser Unterteilt sich in manuell ausgeführte Handlungen, per App und einem halb/automatisierten Prozesskreislauf.
"Drohne" = Community Nutzer. Keine Abwertende Bewertung.

Manuelle Ausführungen:

Thesen Meldung, Bestätigung durch Signalgröße an Automatisierten Prozess                  
->Drohnen manuell / App
Antithesen, Meldung, Bestätigung durch Signalgröße an a.P.               
->Drohnen manuell / App
Synthesen, Meldung, Bestätigung durch Signalgröße an a.P.               
->Drohnen manuell / App

Relevante Zufallsereignissen durch Signalgröße, Meldung, Bestätigung durch Signalgröße               
->Drohnen manuell / App


Emotionale Qualität bei Thesenanhängern, Selbstbewertung + evtl. Bewertung Wortneuschöpfungen
->Drohnen manuell /App
Emotionale Qualität bei Antithesenanhängern, Selbstbewertung + evtl. Bewertung Wortneuschöpfungen ->Drohnen manuell / App
Emotionale Qualität bei Synthese, Selbstbewertung +evtl. Bewertung Wortneuschöpfungen   
->Drohnen manuell / App

Emotionaler Qualitätsbewertungsprozess mit Reflexion durch Gegenbewertung
->Drohnen manuell /App


Wissenschaftliche Zuammenarbeit mit transparentem Bewertungssystem
->Drohnen manuell /App

Medienwissenschaftliche Bewertung der Argumentation und Aussicht  + Historischer Vergleich
für These/Antithese/Synthese ->Twittergröße? + Gegenkontrolle von Antithese
In verschiedenen zeitlichen Rastergrößen

Psychologische Bewertung der Argumentation und Aussicht   + Historischer Vergleich
für These/Antithese/Synthese ->Twittergröße? + Gegenkontrolle von Antithese
In verschiedenen zeitlichen Rastergrößen

Philosophische Bewertung der Moralischen Argumentation und Aussicht + Historischer Vergleich
für These/Antithese/Synthese ->Twittergröße?
(Religion, Geld, Gerechtigkeit, Humanismus) + Gegenkontrolle von Antithese
In verschiedenen zeitlichen Rastergrößen

Wirtschaftliche Bewertung der Argumentation und Aussicht + Historischer Vergleich
für These/Antithese/Synthese ->Twittergröße? + Gegenkontrolle von Antithese
In verschiedenen zeitlichen Rastergrößen


Fortlaufender, halbautomatisierter Prozesskreislauf

Erfassung der Quantität in einzelnen Mediensparten und politischer Herkunft von Medien            
->Datamining

Auswahl und Abgleich mit Datenbestand nach Ablauf einer Zeitspanne x
->Datamining

Erfassung und Bewertung von Wortneuschöpfungen durch Abgleich Datenbank   
->Datamining / manuelle Meldung durch Drohne / App

Steuerung des Prozesskreislaufs


Darstellung

Mikro Zeitraster
Makro Zeitraster
Ausblicke aus verschiedenen Perspektiven


Um das ganze ein bisschen verständlicher darzustellen folgt ein kurze Schilderung in Worten.


Ein Community Nutzer liest auf seiner Lieblingsnachrichtenseite einen Artikel über Atomkraft. Er hat für sich zu diesem Thema eine positive Haltung, er nimmt also eine Thesenhaltung ein und meldet es. Dies machen mehrere, wobei sich die vorhandenen Haltungen zum Inhalt unterscheiden. Nachdem eine bestimmte Anzahl an Nutzern eine Meldung gemacht haben, ist die Signalgröße erreicht.
Der Auftrag an Nutzer ist es nun, möglicherweise relevante Zufallsereignisse zu melden.
Die Katastrophe in Fukushima tritt ein. Diese wird als relevantes Zufallsereigniss gemeldet.
Während der verschiedenen Diskussionsphasen werden nun die hervorgerufenen Emotionalen Qualitäten durch die Nutzer in Bezug auf Inhalte gesammelt. Dies aus der eigenen Perspektive, als auch der individuelle Versuch die Gegenperspektive zu emotional zu reflektieren.
Über diese Inhalte findet eine Rückmeldungen an die Datenbank statt.
Anschließend bewerten Wissenschaftliche Mitarbeiter aus verschiedenen Richtungen und mit jeweils unterschiedlichen Haltungen die einzelnen Prozessabschnitte im Hinblick auf ihr jeweiliges Fachgebiet. Dabei findet auch eine Gegenkontrolle durch einen wissenschaftlichen Thesenantagonisten statt. Über diese Inhalte findet eine Rückmeldung an die Datenbank statt, in der die Quantität der Thesen und die politischer Herkunft von Medien erfasst worden ist.
Die einzelnen Abschnitte werden einem historischen Vergleich unterzogen, was vorerst vor allem den Wissenschaftlichen Bewertungsabschnitt umfasst. Dieser historische Vergleich findet auf unterschiedlichen Zeiteben statt. Ein neuer Prozessablauf entsteht durch das erreichen neuer Signalgrößen etc.         

Wichtig:

Ist nur ein erster, in sich nicht vollkommen stimmiger Ablauf. BRRRRRainstormin. Wink

Schönen Tag allen!  Wink
newbie
Activity: 42
Merit: 0
November 18, 2013, 05:30:40 PM
#26
Wow! Das wäre klasse! Vielen Dank!

Ich weiß, dass es ziemlich "wahnsinnig" ist. Der Aufwand ist monströs. Alleine die verschiedenen Fachbereiche unter einen Hut zu bringen...Grafik, Programmierung, Medienwissenschaft, Sprachwissenschaft, Psychologie, Mathematik, Philosophie etc.

Ich denke sowas kann man nur mit einer sauberen Arbeitsteilung und Orga anpacken. Wenn man denn die Man- und Brainpower hat...
darum muss ich mich kümmern. Ich hab noch niemals so ein Projekt angeleiert und bin ein mieserabler Netzwerker, weil ich für gewöhnlich dazu überhaupt keine Lust habe.

Die Idee spukt mir nun einfach schon lange genug durch den Kopf und ich hoffe! wirklich sehr, dass viele verstehen, welcher Gedanke dahintersteht und welche Bedeutung so eine Plattform hätte.

Evtl. sind bis nächste Woche einige Linux-Quellcode programmierer zumindest interessiert bzw. informiert...

Tausend dank für deine Mühe, ich weiß das wirklich sehr zu schätzen!!!

Jonton
full member
Activity: 120
Merit: 100
November 18, 2013, 04:55:02 PM
#25
Die Idee ist Klasse aber damit du ungefähr eine Ahnung davon bekommst, welcher Aufwand zu betreiben ist
hier ein paar Infos für dich.

Ich habe im letzen Jahr mit einem kleinen Team (Mutanten würde besser passen) einen Sentiment Detector
zu Testzwecken entwickelt. Das kommt deiner Idee recht Nahe, daher auch mein Insistieren bei einigen
Bemerkungen. Bei dem Teil ging es darum, variable Trends mit einer Genauigkeit von > 80% für die nächsten
drei Tage vorherzusagen. Als Datenbasis diente ein per Map-Reduce selektierter Web-Crawl-Korpus von
1.5 Mrd. HTML Seiten. Die Daten findest du hier:  (wäre auch für dich Interessant da kostenlos)

http://aws.amazon.com/datasets/41740

Liegt bei Amazon und sind ca. 80 TB komprimiert (~750 TB unkomprimiert).
Das schliesslich reduzierte und zu analysierende Datenvolumen kam dann auf 65 TB unkomprimiert.
Nur der Datenbankcluster plus Füllung und Latenzgarantie von < 50 ms pro Anfrage hat mich
schon einen Monat an Arbeit gekostet (der gesamte DB Bereich + Transport war mein Part).

Die erste statistische Wortanalyse hat schnell gezeigt, dass die möglichen und damit auch
nötigen Kombinationen ohne Kontextzuweisung locker bei > 10e20 lagen. Unmöglich diesen grossen
Suchraum seriell, statistisch wegzuarbeiten. Lösung -> Neuronale Netze. Haben zwar den Nachteil
Blackboxed zu sein, geht aber nicht anders. Diesen Part hat dann der Math-Mutant übernommen.
Die Erstellung und anschliessend binäre Kodierung der Hit-Wörter-Konglomerate sowie Verteilungsvektoren
innerhalb als auch Verweise ausserhalb hat auch nochmal ca. 2 Monate beansprucht.

Ich bin dann vom Kopf her Ausgestiegen als der das NN mit Fourier-Stützen ergänzt hat um den prediktiven
Bereich zu konstrukieren. Letztendlich hat es aber funktioniert. Grundsätzlich lässt sich dieses
System genau für deine Zwecke einsetzen. Die Sources habe ich natürlich auch noch, nutze die
allerdings gerade um ein BTC Analytik-Projekt fertig zu stellen. Sobald das Projekt online ist, kann
ich dir bei deinem Projekt gerne mit Info und Code helfen, wird aber noch ein paar Wochen dauen.

Zum Abschluss, wie bereits gesagt, deine Idee ist richtig interessant aber unterschätze nicht
den Aufwand sowas *Big-Scale* und damit Aussagekräftig zu machen.

Eine weitere Analyse in deine Richtung findest du z.b. auch hier: http://webdatacommons.org/
newbie
Activity: 42
Merit: 0
November 18, 2013, 04:14:38 PM
#24
Naja, denke das wird schwierig, Printmedien auswerten zu können...aber vielleicht kann man sowas miteinfließen lassen. (von google)
Meinst du einfach Aufkommen + ein Wort?

Das Forum wird auf "www. operation - arschtritt . de" zu erreichen sein. Sry für den Titel...

Ist halt über und soll eine Libertäre Note transportieren  Grin

Ich denke Ende nächster Woche könnt ihr alle (Sukrim, Akka und TheOtherOne) alle einladen wenn ihr mögt...wow  Roll Eyes
legendary
Activity: 2618
Merit: 1007
November 18, 2013, 04:00:28 PM
#23
Ein Projekt, das man wirklich mal durchziehen könnte (falls du an die Texte kommst natürlich) wäre z.b. nach Konjuktiven in Artikeln zu suchen und das dann über die Zeit aufzutragen, ob sich da Muster ergeben. Generell bietet ja Google auch schon sowas leicht in die Richtung an - https://books.google.com/ngrams/graph?content=Vaterland%2CHeimat&year_start=1800&year_end=2000&corpus=20&smoothing=3&share=&direct_url=t1%3B%2CVaterland%3B%2Cc0%3B.t1%3B%2CHeimat%3B%2Cc0 als Beispiel mal von einem etwas aufgeladenen Begriff.
newbie
Activity: 42
Merit: 0
November 18, 2013, 03:44:58 PM
#22
Ja geht, manuelle Bewertung einer möglichen Leitfunktion und damit Trendsetter eines Mediums ergibt auch eine
ganz brauchbare, reduzierte Datenbasis. Auf jeden Fall gut um die Bedarfskodierung zu Prüfen.  Der Backtest muss
dann auf ungesichtetes, auch altes Material ablaufen.

Jup. Eben auf eine komplette Datenbank. Ich find die Idee so geiloooooo Grin Stellt euch das mal vor, man kann Ergebnisse dann auch noch grafisch darstellen, damit es Mama und Papa auch verstehen und damit arbeiten können...interessant wäre es, wenn man Medien durch effektivität zwingt , "Fehlsignale" erzeugen müssen...  Grin

Ich bin nur zu dumm das alles selber zu machen.
So eine Scheiße  Grin

Das müsste eine Bewegung werden, damit es geht.

Ich bin ganz ehrlich, das Ergebnis wäre so ziemlich das schönste was ich mir vorstellen kann.
Ich glaube Norbert Bolz hat mal gesagt, dass die "Menschheit von Katastrophe zu Katastrophe taumelt".
Wär doch was, wenn die Aufklärung siegt...

Schreibt doch mal freunden und erzählt ihnen davon.

Ich werd ein Forum aufmachen. Ein Youtube Video dazu werd ich auch machen.

full member
Activity: 120
Merit: 100
November 18, 2013, 03:29:19 PM
#21
Ja geht, manuelle Bewertung einer möglichen Leitfunktion und damit Trendsetter eines Mediums ergibt auch eine
ganz brauchbare, reduzierte Datenbasis. Auf jeden Fall gut um die Bedarfskodierung zu Prüfen.  Der Backtest muss
dann auf ungesichtetes, auch altes Material ablaufen.
newbie
Activity: 42
Merit: 0
November 18, 2013, 03:19:24 PM
#20
Quote
Amazon Mechanical Turk

Manuell kannst du das vergessen, keine Chance.
Die kombinatorische Explosion der Daten ist einfach zu hoch.


Oder man beginnt mit Keepitsimple und erarbeitet sich dann einen guten Median per "Halbautomatik" + Backtest derselben heran?
newbie
Activity: 42
Merit: 0
November 18, 2013, 03:13:05 PM
#19
Quote
Das bedeutet beispielsweise, dass eine "Frontalkollision" eine emotionale Wertigkeit x im Raster y hat und diese auch bei einem Artikel wie:
"Frontalkollision zwischen SPD und Beckstein" angewendet werden.

Evolution bezieht nicht nicht nur auf biologische Prozesse. Auch Sprache ist dem unterworfen.
Kontext ist für das große Bild nicht Nötig. Statistische Ausreißer durch die Masse an Daten egalisiert.
Das Resultat ist trotzdem Aussagekräftig. Interessant wäre auch den Inflationsgrad an Worteinheiten
im Laufe der Zeit zu Messen (z.b. Dramatisch/Katastrophe usw).
Inflation als Entwertung betrachtet gibt wiederum spannende Einblicke in zufällige oder eben auch gewollte
Lenkungsabsichten Da gibt es unendlich viele Fragestellungen.



Ja. Langfristig muss man aber sicher Veränderungen wahrnehmen.

Der Inflationsgrad als Aufmerksamkeitsimperativ...auf jedenfall will ich Medien nichts unterstellen.  Wink
Die Vorratsdatenspeicherung von brandneuen "Neusprech-Begriffen" fände ich für sich alleine auch schon phänomenal.

Man könnte sich den ganzen Tag die Hände reiben wenn man mal darüber nachdenkt...

edit: Die Fragestellungen vermeiden wäre vielleicht besser, als nur das Ergebnis zu betrachten. Völlig wertungsfrei.
full member
Activity: 120
Merit: 100
November 18, 2013, 03:10:08 PM
#18
Quote
Amazon Mechanical Turk

Manuell kannst du das vergessen, keine Chance.
Die kombinatorische Explosion der Daten ist einfach zu hoch.
full member
Activity: 120
Merit: 100
November 18, 2013, 03:00:48 PM
#17
Quote
Ist keine Verarsche.

LOL, natürlich meine ich NICHT dich, sondern - siehe dein Eingangspost -
Wir durch die Medien.  Grin

Das wäre durch solch ein System zu Messen.
newbie
Activity: 42
Merit: 0
November 18, 2013, 03:00:35 PM
#16
Generell ja, wobei ich da eher mal empfehlen würde, mit Historikern sowie Sprachwissenschaftlern zu reden, bevor du mit irgendwelchen "emotionalen Wertigkeiten" daherkommst.

Du scheinst irgendwie 3 Schritte weiter sein zu wollen, als Programme derzeit existieren - WENN es ein Programm gäbe, das eine Zeitung "lesen" kann und daraus sinnvolle Informationen extrahiert, wäre das schon eine Sensation!

Ich würde eher sowas in Richtung Amazon Mechanical Turk empfehlen und das Extrahieren der Info einfach von Menschen erledigen lassen - die sind besser darin und auch billiger. Fraglich ist für mich auch, wie weit man gehen muss, um Muster zu erkennen und nach welcher Art von Mustern du suchen willst. Aktienmärkte werfen z.B. ca. alle 10 Jahre Blasen während Geldmärkte schon mal ein Jahrhundert überleben können. Vielleicht solltest du aber ohnehin erstmal anfangen zu schauen, ob deine Software generell Muster erkennt, z.B. dass im Winter öfter von Schnee geredet wird als im Sommer.

Jup, die Datengewinnung und Datenauswertung soll wie weiter oben geschrieben von der Community erledigt werden und das  Amazon Mechanical Turk Konzept halte ich auch für gut.  Die "emotionale Wertigkeit" war ein Beispiel, nichts das in Stein gemeißelt ist.
Ist sowieso nichts, was ich mir momentan dazu denke...

Eine einfachere Rasterkombination wäre zB. Politischer Hintergrund des Mediums (zB. Spiegel) /Quantiät im zeitlichen Verlauf / Argumentatives ergebnis = Positiv/Negativ/Veränderung
 
full member
Activity: 120
Merit: 100
November 18, 2013, 02:58:46 PM
#15
Quote
Das bedeutet beispielsweise, dass eine "Frontalkollision" eine emotionale Wertigkeit x im Raster y hat und diese auch bei einem Artikel wie:
"Frontalkollision zwischen SPD und Beckstein" angewendet werden.

Evolution bezieht nicht nicht nur auf biologische Prozesse. Auch Sprache ist dem unterworfen.
Kontext ist für das große Bild nicht Nötig. Statistische Ausreißer durch die Masse an Daten egalisiert.
Das Resultat ist trotzdem Aussagekräftig. Interessant wäre auch den Inflationsgrad an Worteinheiten
im Laufe der Zeit zu Messen (z.b. Dramatisch/Katastrophe usw).
Inflation als Entwertung betrachtet gibt wiederum spannende Einblicke in zufällige oder eben auch gewollte
Lenkungsabsichten Da gibt es unendlich viele Fragestellungen.

newbie
Activity: 42
Merit: 0
November 18, 2013, 02:50:27 PM
#14
Reduziert betrachtet geht es um Korrelationen. Die gewünschte Informationsauflösung bestimmt den Kodierungsaufwand.
Linguistische Analyse ist noch nicht mal nötig, Statistische Verteilung derselben dafür umso mehr. Am besten eignen sich
Neuronale Netze- und ganz besonders Kohonen Maps (SOM) um aus unstrukturierten Daten - Muster OHNE Lernaufwand
abzuleiten.  Wie erwähnt, die eigentliche Aufgabe ist nicht linguistisch das Problem zu lösen, sondern die optimale
Kodierung der Eingangsparameter zu bestimmen. Leider muss man dafür *ungefähr* wissen wonach man sucht.

Ich denke aber ich weiß recht genau worum es dir geht. Würde mich auch mal interessieren wie hoch unser aktueller - VI - ist


ps: VI = automatisch errechneter Verarschungsindex  Grin

Ist keine Verarsche.
Wir können in 2 min. Telefonieren, ich geb dir meinen Namen zum googeln und Mittwoch können wir uns persönlich kennenlernen.
(Drohung, ich hab Urlaub  Grin)

Die Eingangsparameter kann man per Backtest´s solange verbessern, bis man aufgrund der positiven Übereinstimmung mit den nachgefolgten Entwicklungen zufrieden ist.

Viele Grüße
legendary
Activity: 2618
Merit: 1007
November 18, 2013, 02:46:41 PM
#13
Generell ja, wobei ich da eher mal empfehlen würde, mit Historikern sowie Sprachwissenschaftlern zu reden, bevor du mit irgendwelchen "emotionalen Wertigkeiten" daherkommst.

Du scheinst irgendwie 3 Schritte weiter sein zu wollen, als Programme derzeit existieren - WENN es ein Programm gäbe, das eine Zeitung "lesen" kann und daraus sinnvolle Informationen extrahiert, wäre das schon eine Sensation!

Ich würde eher sowas in Richtung Amazon Mechanical Turk empfehlen und das Extrahieren der Info einfach von Menschen erledigen lassen - die sind besser darin und auch billiger. Fraglich ist für mich auch, wie weit man gehen muss, um Muster zu erkennen und nach welcher Art von Mustern du suchen willst. Aktienmärkte werfen z.B. ca. alle 10 Jahre Blasen während Geldmärkte schon mal ein Jahrhundert überleben können. Vielleicht solltest du aber ohnehin erstmal anfangen zu schauen, ob deine Software generell Muster erkennt, z.B. dass im Winter öfter von Schnee geredet wird als im Sommer.
full member
Activity: 120
Merit: 100
November 18, 2013, 02:42:25 PM
#12
Reduziert betrachtet geht es um Korrelationen. Die gewünschte Informationsauflösung bestimmt den Kodierungsaufwand.
Linguistische Analyse ist noch nicht mal nötig, Statistische Verteilung derselben dafür umso mehr. Am besten eignen sich
Neuronale Netze- und ganz besonders Kohonen Maps (SOM) um aus unstrukturierten Daten - Muster OHNE Lernaufwand
abzuleiten.  Wie erwähnt, die eigentliche Aufgabe ist nicht linguistisch das Problem zu lösen, sondern die optimale
Kodierung der Eingangsparameter zu bestimmen. Leider muss man dafür *ungefähr* wissen wonach man sucht.

Ich denke aber ich weiß recht genau worum es dir geht. Würde mich auch mal interessieren wie hoch unser aktueller - VI - ist


ps: VI = automatisch errechneter Verarschungsindex   Grin
newbie
Activity: 42
Merit: 0
November 18, 2013, 02:32:27 PM
#11
Klingt ja irgendwie witzig, das Problem dürfte aber im Verstehen von natürlichsprachlichen Texten liegen, die auch noch aus unterschiedlichen Epochen stammen (das ist schon schwer für Menschen!).

Dann müsste man also auch noch einigermaßen einheitliche Informationen rauslesen und diese auch noch atomar gestalten, aber auch generalisierbar halten ("Autounfall" ist eine "Frontalkollision", aber eine Frontalkollision kann auch zwischen 2 Zügen passieren - außerdem, ist ein Unfall zweier LKWs dann ein Autounfall oder was anderes?!).

Nur nach gleichen Wörtern suchen wird fürchte ich nicht funktionieren, da Schreibstile und Begriffe sich mit der Zeit und Mode ändern.

sowas löst man dadurch, dass man Rasterfelder erstellt, die "Begriffsfreiheit" erlauben. Zum Beispiel: Raster x  = emotionale Wertigkeit 4 (möglicher Raster+ Wirkungsdefinition in Raster)

Das bedeutet beispielsweise, dass eine "Frontalkollision" eine emotionale Wertigkeit x im Raster y hat und diese auch bei einem Artikel wie:
"Frontalkollision zwischen SPD und Beckstein" angewendet werden.


Findest du es denn generell interessant?

Viele Grüße
newbie
Activity: 42
Merit: 0
November 18, 2013, 02:19:14 PM
#10

Jepp, eine Möglichkeit.
Funktioniert aber nur dann, wenn die Rohdaten zentral vorgehalten werden und die App *like* News@Home arbeitet.
Sobald die App autonom per Fetcher arbeitet, gibt es Aktualisierungs. und Synchronisierungsprobleme.
Wäre ürbrigens Interessant ein solches System mit einer Art von PoW zu verbinden, um die *Drohnen* zu entlohnen. Wink

Wie gesagt, sehr interessanter Gedanke.

Edit: Hier ist übrigens noch eine weitere Datenquelle für deine Idee -> http://noosphere.princeton.edu/



Den "Drohnen" Entlohnungsgedanken hatte ich auch. Wer macht schon was umsonst?  Wink

Hältst du es denn für generell Sinnvoll, mal ein Forum dafür einzurichten um der Sache mal ein kleines Fundament zu geben?

Was wäre denn ein guter Name?

Ich hab bisher nur mit meinem Bruder darüber gesprochen. Er fand es auch sehr interessant, er meinte...Brudertypisch  Wink + hat es gerafft.

Technisch sieht er es auch als machbar an.
Bin mir nur unsicher, ob ich ihn bitten soll, mal in der Linux Community die Trommel zu rühren...und es ist ja schon ein sehr breites Themenfeld, was dann auch für den technischen Aufbau relevant wird.
 

p.s.
Das Global Consciousness Project klingt ja interessant. Wird sicher schwierig eine gegenseitige "nicht information" zu belegen bzw. die Informationsfläche zwischen Gedanke und öffentlichem Auftreten zu beobachten.

Da muss ich mich reinlesen...

Viele Grüßle
Pages:
Jump to: