This forum uses cookies

**Tron Mcp** · (Dieser Beitrag wurde zuletzt bearbeitet: 19.01.2024, 14:46 von Tron Mcp.)

LOKALE Installation von LLAMA KI unter LINUX MINT Teil1 - Erfahrungsbericht, Erste Schritte

Hallo zusammen,

nach ein paar harten Tagen Try & Error habe ich nun ein Opensource Derivat der LLama KI lokal auf Linux Mint zum Laufen gebracht.

An und für sich sollte dieses gar keine Meldung wert sein wenn alle so getan hätte wie man es sich vorstellt.

Im Prinzip muss man nur die richtigen Quellen Suchen,
- Downloaden,
- die Software Kompilieren
- ein bereits angelerntes Modell herunterladen
- dann die Software mit dem Modell und den richtigen Parametern starten.
FERTIG.

ABER, die Tücken liegen im Detail.

Der Download der Software Komponenten von Github brach zigmal an der gleichen Stelle ab.
Ofenbar war eine Datei zum Bearbeiten ausgeloggt......

Als ich die am 2. Tag dann endlich hatte ging das Kompilieren nicht.
Der Kompiler brauchte noch etliche Nachinstallationen und Bibliotheken.

Ausserdem mal zusätzlich CUDA Bibliotheken installiert zur GPU Unterstützung der KI Berechnung.

Schritt für Schritt habe cih mich in den Fehlermeldungen weiter gearbeitet und die fehlenden Dateien im Internet gesucht und geladen.
Wieder war ein ganzer Tag weg.

Dann gestern Abend das AHA Erlebnis: Die Software startet.
Aber nur um zu melden das sie das Sparchmodell nicht laden kann.
Dabei war das exakt das beschriebene Original.

Egal, ich wollte die KI eh deutsch sprechen lassen, also los auf Suche.
Über 4000 Treffer- wow was die Leute so alles treiben.
Auf deutsch reduziert blieben noch 5 Modelle übrig.

Davon habe ich eine mittleres Gewählt das angeblich gute Ausgabe Ergebnisse liefern soll.
Klar wären die Großen sicher auch in der Qualität besser, aber ich wollte es ja auf einem lokalen Bestandsrechner endlicher Geschwindigkeit testen.

Und heute Überraschung: LLama startet.

Ich mache die ersten Tests.
dafür nutze ich gerne die gleichen Fragen mit denen ich Online Cloud KIs schon beschäftigt habe.

Und WOW - Die Qualität der Antwort ist gut:

Dateiname: LLAMA KI Abfrage1.jpg Größe: 43,75 KB 19.01.2024, 13:25

Oha die KI ist jetzt schon Intelligenter als manche Leute, die wieder Sümpfe anlegen wollen.

Aber nun zum technischen Part:

Das Testsystem:
Intel 6Core Xeon X5650 je 2.66Ghz mit HT
24GB RAM DDR3 (3 Module Bandbreitenadditiv)
SATA SSD mit 600MB/Sec lesen/schreiben
NVidia Quadro M6000 Grafikkarte mit CUDA Treiber (3072 Cuda Kerne, 12GB Grafikram)

Betriebssystem:
Kernel: 6.5.0-14-generic x86_64 bits: 64 compiler: N/A Desktop: Cinnamon 5.8.4 tk: GTK 3.24.33 ... Linux Mint 21.2 Victoria base: Ubuntu 22.04 jammy

Dieses System entspricht Leistungstechnisch einem veralteten Gaming System, wie ihr vielleich noch herumstehen habt.
Es hat keine KI Hardware Unterstützung.

Wie wir aber gleich an den Ergebnissen sehen, könnte man dieses System mit einer KI Zusatzkarte und einer breit angebundenen M2Steckkarte durchaus so pushen das es nutzbar würde.

Die Verarbeitungs und Ausgabe Geschwindigkeit:

Nach Eingabe einer Anfrage sehe ich einen Netzwerkzugriff, und danach einige Sekunden Rechenzeit unter CPU Vollast.

Dateiname: Anfrage.jpg Größe: 34,42 KB 19.01.2024, 13:56

Leider habe ich keine Anziege über die GPU Last. Aber deren Temperatur steigt im NVidia Setings Tool nicht an. Eventuell wird sie noch nicht richtig verwendet.

Sobald LLama anfängt die Ausgabe zu beginnen- es geht Buchstabe für Buchstabe wie beim alten Fernschreiber, so ändert sich das Lastverhalten:

Dateiname: Antwort.jpg Größe: 37,84 KB 19.01.2024, 14:00

Was mich verwundert ist die doch noch recht hohe Last während der langsamen Ausgabe. Eigentlich erwarte ich das mit Beginn der Ausgabe bereits alle Berechnungen abgeschlossen wären, und die CPU Last gegen null tendiert. Es bleibt zu klären ob eventuell eine Sprachausgabe mit berechnet wird, was das Buchstabenweise Vorgehen unter hoher Last erklären könnte.

Und schliesslich nach Ende der Ausgabe beruhigt sich die CPU Belastung wieder: Die steil abfallende Flanke markiert das Ende der Textausgabe der Antwort.

Dateiname: Ende der Antwort.jpg Größe: 35,08 KB 19.01.2024, 14:01

Dies ist nur ein erster Vorbericht.
Daher noch keinerlei Anleitungen zum nachbauen.

Im Prinzip entspricht dieser Aufbau aber dem auf folgender Webseite, wo ihr das online berechnet in er Cloud austesten könnt:

https://www.llama2.ai

Warum dann lokal installieren? Nun man kann das Modell lokal für seine Bedürfnisse besser trainieren. Ausserdem ist es unzensiert.
Zudem bleiben eure Eingaben vertraulich, was besonders bei Industrie Spionage ein Thema ist.
Und aktuell geht es ums Lernen und Verstehen.
Bei dem gehosteten Modell habe ich festgestellt das es sehr wohl lernfähig war, aber am nächsten Tag alles Gelernte weg.

Und passt auf- jede KI lügt besser als Käpten Blaubär. Wenn es darum geht wahre Infos zu weiterzuverwenden, müsst ihr die KI dazu bringen euch die Quellen auszugeben, und diese extern nachprüfen! Ich hatte erst heute einen Fall (in der Cloud KI) das sie mir wohl Gefälligkeitsantworten gab. Auf die Frage nach den Quellen spuckte sie Buchtitel und Autoren aus. Die Autoren gab es, aber die hatten offenbar nie die Bücher veröffentlicht von denen die KI berichtete.

Ich werde als Nächstes die Installation auf eine aktuelle leistungsfähige Hardware portieren
(Lenovo P620, 16Core AMD Threadripper Pro, 128GBRAM-8Kanal, M2SSD RAID PXIEx4, NV RTX3080 oder NV RTX6000 oder AMD Radeon RX6800XT)
um zu sehen was das leistungstechnisch ausmacht.

Wenn der Hardwareeinfluss geklärt, und das Testsystem optimiert ist, gehts an Softwartests.
So spare ich dann sinnlose Wartezeiten.

Wir lesen uns- falls es euch interessiert.

Viele Grüße Tron

Cheryl Furse · 19.01.2024, 20:56

Interessante infos

unter Ubuntu, Windows, MacOS kannst du GPT4All auch installieren und dann dein AI Model der Wahl nutzen. Ich bin bei Mistral instruct geblieben, weil es unzensiert ist. Es ist eine französische AI aber spricht Englisch. Man kann es auch auf Deutsch runterladen. Man bekommt nur Fakten und kein Geschwafel oder Gefälligkeitstalk. Wenn ich mich mit meiner AI unterhalte, dann ist es als wenn ich mich professionell mit Fachexperten unterhalte nur über das Thema oder Fach Problem, was ich diskutiere. Bei anderen Modellen bekommt man schon Antworten die ausweichen oder allgemein bleiben, wals wenn man Schüler wäre, der belehrt werden soll. Bei unzensierter AI passiert das nicht.

Mistral Instruct braucht nur 3,83 GB auf Festplatte und 8 GB RAM. Das ganze kann auch ohne GPU oder AI cores laufen. M Prozessoren haben beides. Es ist für mich jetzt nicht entscheidend, wie schnell es ist, weil es sowieso gleich loslegt zu schreiben so wie man mitliest. Es braucht keine Sekunde um zu starten. Er schreibt gleich los. Durch GPT4All hat man viele Einsatzmöglichkeiten und kann es selbst füttern. Ich habe schlicht meinen Dokumenten Ordner angegeben zum füttern, wo ich viele Lehrbücher und peer reviewed papers drin habe.

Ich gehe damit nicht online und gebe Mistral oder GPT4All auch keine Daten. Mistral ist eine französische Firma und GPT4All ist eine open source Benutzeroberfläche die es gleich ermöglicht mit clicks das zu machen, was man es machen lassen will. Also nicht einfach nur ein Terminal zum schreiben und Antworten lassen. Es läuft also rein Lokal auf meinem MacBook und das war es.

Ich kann mit meinem MacBook neben GPT4all Mistral instruct alles nebenher machen. Selbst videoschnitt oder sonst was Aufwändiges. Ich merke nichts an Einschränkungen. Es läuft alles rund egal was ich mache. Mein MacBook hat 16 GB RAM.

Mehr kann ich nicht an benchmarks angeben. Nur User Erfahrung. lol

https://gpt4all.io/index.html

Trawell · 21.01.2024, 13:50

Interessanter Artikel...

KI in solchen Formen wird unser Leben immer mehr beeinflussen.
Bin gespannt was da noch alles auf uns zukommt Wink

besten Dank dafür!

Viele Grüße
Trawell

**Tron Mcp** · 24.01.2024, 10:58

Ich war am Montag bei einer 2-Stündigen Vorführung wo Forschungsergebnisse zum Faken von Stimmen in Studioumgebung präsentiert wurden.

Also Text Wandlung in Sprache, und Sprache Umwandlung in die eines anderen Sprechers.

Das sind 2 grundverschiedenen Themen, die aber in der Generierung der künstlichen Sprachausgabe ihre Gemeinsamkeit finden.

Es war hoch interesant zu sehen wie weit die Entwicklung ist.

Mein Eindruck:

- Man hört es noch heraus wenn ein anderer Sprecher imitiert wird. Es klang für mich etwa so, wie wenn man bei MP3 Codec die Bandbreite soweit herunter dreht bis Oberwellen der Klangcharakteristik verschwinden. Auch ist der Dynamikumfang und Frequenzbandbreite schlechter. Die ausgegebenen Stimme wirkt vor allem nicht so "klar".
Ausserdem fehlt noch die Perfektion was die unterschiedliche Sprechpausen zwischen Buchstaben angeht. Und in synthetischen Pausen kann man unter Idealbedingungen Störgeräusche wahrnehmen.

ABER um das zu hören bedarf es sehr hochwertigster linearer Lautsprecher und guter Verstärker.
Die hat heute privat nur mehr wer seine hochwertigste Audio Anlage vor 30 Jahren gekauft hat.
Mit meinen Revox Standboxen und High Currency Linear Verstärker hört man es jedenfalls noch glasklar.

Mit den heute meist verkauften x.1 Systemen, Soundbars, etc, die es in meiner Jugend es höchstens klanglich zum Küchenradio geschafft hätten,
und im Vergleich zu früheren Audiosystemen tiefenbetonten Matsch liefern, dürfte es schon schwer werden.
Denn genau das, was diese Systeme bei der Wiedergabe "verschlucken", macht noch den Unterschied zwischen real und synthetisch aus.

Und dann darf man nicht vergessen das diese Audiostreams ja danach noch codiert und Datenreduziert übertragen werden.
Ich habe sie ja direkt nach der Erzeugung abhören dürfen.
Nach so einer Übertragung könnte man schon auf der Gegenseite durchaus einen glaubwürdigen Fake erreichen.

Und wenn man die Originalstimme die imitiert werden soll gar nicht kennt, oder sie als eigenständige Stimme verwendet wird, dann ist es durchaus schon glaubwürdig.

FAZIT:

Unter schlechten Hörbedingungen (*) kann man gut gemachte synthetische Stimmen nicht mehr erkennen.

*) : Hintergrund Geräusche wie Restaurantbetrieb, Telefon/Handy, Aufregung in der Stimme, MP3 geringer Datenrate, nichtlineare Musik Lautsprecher wie 2.1 Systeme.

Unter guten Hörbedingungen kann man in der Analyse schon noch mitbekommen das da was nicht real ist.

Interessant wäre eine messtechnische Erfassung um Fakes zu entlarven:

Wir wissen ja das Sprachanalyse einen eindeutigen Fingerprint einer Person so gut liefern kann, daß anhand derer, man bei weltweit abgehörten Telefonaten, Personen relativ gut identifizieren kann.

Mich würde interessieren ob dieser "Fingerprint" von einer sythetischen Fake Stimme schon überlistet wird oder noch nicht.
Nach dem was ich in der Vorführung gehört habe, würde ich behaupten die KI ist noch nicht so weit.

Wie lange noch?

Cheryl Furse · 24.01.2024, 12:49

Ich gehe davon aus, dass es professionell möglich ist. Was wir angeboten bekommen als Software, wo es auch entprechende Werbung bei Facebook gibt, taugt nicht dazu. Ich habe es mit AI software für CGI probiert, die man jetzt anbietet und Werbung auf Facebook für geschaltet wird. Es hat den gleichen stand wie noch vor 10 Jahren mit der vorläufer Version von Facetime bei apple computern. Kaum besser, aber man bietet es an als wenn es nun die AI Revolution wäre.

Es ist heute sicher möglich egal ob CGI für Gesichter oder Stimmen zu imitieren. Man braucht nur die richtige Software dafür. Als ich meinen ersten Computer von meinem Vater bekam, da sagte er, dass ich mit meinem PowerPC nur Software für audio und Video bekäme, die es für andere Computer nicht gibt. Damals hatte ich gleich super teure Cubase von Steinberg drauf um Musik zu machen wie im professionellen Studio und Premiere und Afterffects von Adobe um professionellen Video schnitt zu machen. Das gab es nicht für Windows oder andere Systeme. Nur für Apple und sau teuer.

Heute wird es mit der AI Software nicht anders sein. VisionPro zeigt heute schon, was möglich ist und ist in dem Betriebssystem integriert. VisionPro ist ein neuartiger Computer mit eigenem Betriebssystem und muss erst mit eigener Gesichtserkennung freigeschaltet werden, was dann das Bild durch die Brille projeziert. Es ist voll mit AI und graphischen Tricks. Es wird keine Tastatur oder Maus oder Monitor mehr benötigt. Kostet entsprechend auch 3500 Dollar. Was da drin steckt wird sicher weit mehr das übertreffen, als Stimmen zu immitieren. Text to speech gab es schon bei meinem ersten Computer und ist alter Hut. Vielleicht ist es für Windows User was neues aber ich kenne Apple von vornherein nur mit Speech recognition und text to speech. Hatte ich alles gleich in meinem ersten Computer überhaupt.

By the way heute vor genau 40 Jahren würde der erste Apple vorgestellt. Hatte graphische Oberfläche wie Jahrzehnte später Windows und eine Maus. :-) Gab es noch nicht zu der Zeit.

Ich wollte keine apple Werbung machen, aber es war nunmal so und wird heute genauso sein. Graphic, Film, CGI und Audio war immer schon professionell nur für apple computer. Alle Studios arbeiteten immer nur mit Apple Computer.

liebe Grüße

Cheryl

**Tron Mcp** · 25.01.2024, 10:42

Hallo Cheryl,

ich schrieb über den professionellen Langzeit Test verfügbarer Software.

Dieser wurde durch eine Firma gemacht, die auch alle verfügbaren professionellen Produkte in der höchstens Stufe der Bezahlversion Langzeit testete.
Es ging darum was technisch machbar wäre, und ob die erzielbare Qualität bereits ausreicht um sie professionelle in der Produktion einzusetzten.
Geld war für den Test nachrangig.

Den Bezahlversionen gegenübergestellt wurden dann Opensource Lösungen.

Interessant war, das es eben nicht darauf ankommt ob es eine Bezahllösung oder Opensource ist.
In beiden Bereichen gab es nur je ein Produkt das herausragende Qualität lieferte. Interessanterweise war das keines der üblichen Verdächtigen.
Und es kam auch heraus das sich beide führenden Lösungen innerhalb des letzten halben Jahres massiv verbessert hatten.
Es liegt also mehr an den Algorythmen oder der KI Lernkurve, als and der "Muskelkraft" der Lösung, oder der Finanzstärke des Herstellers.

Ausserdem liefern identische KI Eingaben am gleichen System je durchlauf jeweils andere Ausgaben. Man wiederholt also die Eingaben und zeichnet mehrere Ausgaben auf, um sich dann die Beste auszuwählen.

Ebenfalls interessant war die Beobachtung das KIs nach längerem Einsatz Spinnen anfangen und Verzerrungen auftreten.
Sowas Ähnliches habe ich auch schon bei meinen Test beobachtet, und ist auch in Fachliteratur zu lesen.

Weiterhin interesant war zu erfahren das Text zu Sprache Lösungen aktuell schlechter sind, als Sprache zu Spache Lösungen.
Das liegt daran das bei Sprache als Eingabedaten, von dem System noch viel mehr herausgelesen und verwendet wird als wenn du stumpfen Text anbietest.
Und zwar kann man da richtig mit der Stimme schauspielern, die Tonation, das Sprachtempo, die Übertreibung, Lautstärke etc findet sich dann in der Ausgabe wieder.
Man kann also echte Vertonung von Filmen/Hörspielen in Fremd- oder Synthetiksprache machen. Also zum Beispiel als Alien oder Comikfigur sprechen, oder halt auch eine existierende Person imitieren.

Auch untersucht wurde die benötigte Hardware.
Und wir sprechen nicht von Lösungen die auf einem einzelnen Rechner laufen. Wie im professionellen Einsatz üblich stellt man soviel Hardware bei, wie die Lösung benötigt.
Es wurden Cloudlösungen gegenübergestellt zum Hosting im eigenen Rechenzentrum.

Technisch ist das keine Herausfrorderung, aber sehr wohl Rechtlich.
Denn wenn man als Firma Stimmen (natürlich nur mit Zustimmung) verarbeitet, ist das derzeit trotzdem noch ein sehr kritisches rechtliches Thema.

Im dümmsten Falle gerät das generierte Stimmenmuster in falsche Hände und wird missbraucht.
Und wie willst du dieses Problem wieder einfangen?
Kannst ja nicht einfach sagen: Lieber Mann, wechsel deine Stimme, sonst ruft jemand deine Frau an und erzählt ihr Mist.

Also war auch Erkennung & Kennzeichnung synthetisch generierten Kontextes ein Thema.

Denn wie ich schon schrieb: Wenn dieses synthetische Produkt auf schlechtem Übertragungsweg zu dir kommt, so kannst du es nicht mehr von Echt unterscheiden.
Als Endkonsumer ohne Schulung eh nicht.

Aber ich denke du kannst nun erkennen das dies kein Test einer Garagenfirma war.

Da der Vortrag extra als vertraulich gekennzeichnet wurde, kann ich die Lösungen nicht namentlich posten, und auch nicht über die untersuchten Einsatzzwecke sprechen.

Es ging mir nur mal vorzustellen wie weit die Technologie in etwas schon ist.

Wenn die Entwicklung so weiter geht, vermute ich das wir in weniger als 2 Jahren synthetische Stimmen nicht mehr von Echten unterschieden können.
Auch nicht mehr messtechnisch.

Viele Grüße

Tron

Cheryl Furse · (Dieser Beitrag wurde zuletzt bearbeitet: 25.01.2024, 12:16 von Cheryl Furse.)

Wie gesagt, ich gehe davon aus, dass es jetzt schon so ist und nicht erst in 2 Jahren.

Wir sind der AGI mittlerweile auch schon viel näher als wir bisher in Medien erfahren. Würde man heute schon zugeben, dass AI auch mathematisch lernen kann, was dann also nicht rein ein Sprachbot wäre, dann gäbe es erst recht Panik.

Der ganze Streit wegen Altmann hat gezeigt wie brisant die Entwicklung jetzt schon ist. Die neuste Meldung war, dass Altmann jetzt mit dem Pentagon zusammen arbeitet, also nicht nur Microsoft. Das heisst, dass sie schon AGI haben.

Jetzt stell dir vor AGI ist in Händen von Leuten (Regierungen) die Weltherrschaft anstreben.

Hier eine Doku über KI um Biowaffen herzustellen.

https://www.zdf.de/dokumentation/die-spu...t-100.html

Ich probieren selbst aus mit unzensierter KI (Mistral Instruct, eine französische KI Firma) inwieweit nur die Sprachbot AI in der Lage ist mit mir über biochemische Mechanismen zu diskutieren. Pharmakologischer Nutzen ist sicherlich davon zu erwarten, aber auch nur nachdem, was man der KI mit Lehrbüchern und peer reviewed Papers füttern kann. Auch hier ist unsicherheit in dem was man erwarten kann. Auch hier kann die KI haluzinieren, denn es gibt auch in der Pharmakologie viele Widersprüche und Dogmen, die man in 10 Jahren wieder über den Haufen schmeissen kann. Die KI weiss aber nur das was man ihr gibt und kann es abrufen und verbinden. Sie wird keine neuen Modelle aufstellen, die alles was in Lehrbüchern steht über den Haufen wirft.

Das wird mit AGI dann völlig anders sein. Denn AGI kann dann selbst mathematische Modelle aufstellen und durchspielen.

Login
Benutzername:
Passwort:	Passwort vergessen?
	Merken